2026年01月21日
## 要約:
本研究では、LLMの調整において、従来のPolicy Gradient方法(PPOなど)の不安定さを改善するGRADE(Gumbel-softmax Relaxation for Alignment via Differentiable Estimation)を提案。GRADEはBackpropagationを用いて離散的なトークンサンプリングを直接最適化することで、安定性と効率を向上させる。実験結果から、GRADEはPPOやREINFORCEよりも優れた性能を示し、汎化性能も高いことが確認された。
---
## 翻訳:
arXiv:2601.11574v1 Announce Type: new
Abstract: 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせて調整するための支配的なパラダイムとなっています。しかし、PPOなどのPolicy Gradientメソッドは、高分散の勾配推定値に悩まされ、注意深いハイパーパラメータ調整と広範な計算資源を必要とします。我々は、離散的なトークンサンプリングプロセスにおける微分可能な緩和を通して直接Backpropagationを行う方法であるGRADE(Gumbel-softmax Relaxation for Alignment via Differentiable Estimation)を導入します。Gumbel-Softmaxリパラメータ化とストレートスルー推定(GRADE-STE)を用いることで、報酬シグナルから生成されたトークンにモデルパラメータまでエンドツーエンドの勾配の流れを可能にします。IMDBデータセットを使用した感情制御テキスト生成において、GRADE-STEは0.763 +- 0.344というテスト報酬を達成し、これはPPOの0.510 +- 0.313とREINFORCEの0.617 +- 0.378と比較して、PPOに対して50%の相対的な改善を表します。重要なことに、GRADE-STEはREINFORCEよりも14倍以上の低い勾配分散を示し、最適化を通じて安定したトレーニングダイナミクスを維持します。適切なtrain/validation/testスプリットによる厳密な評価は、これらの改善がホールドアウトデータに一般化されることを示しており、GRADE-STEはテストされたすべての方法の中で最良の一般化特性を示しています。GRADEは、LLM調整のための強化学習に対する、よりシンプルで、より安定した、より効果的な代替手段を提供します。
[📰 原文はこちら](https://arxiv.org/abs/2601.11574)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。