一般LLMの推論における尤度に基づく報酬設計

2026年2月5日木曜日

一般LLMの推論における尤度に基づく報酬設計

#aidexx #news

2026年02月05日

## 要約：
本研究では、大規模言語モデル(LLM)の推論能力向上に不可欠な報酬設計について、参考解答の尤度に基づいた報酬設計が有効であることを検証しました。尤度に基づく報酬は、特定の検証者に依存せず、大規模に利用可能であり、特にchain-of-thought（CoT）学習において、検証可能な設定と検証不可能な設定の両方で良好な性能を発揮します。従来の報酬方法と比較して、perplexityが向上し、尤度に基づく報酬は、検証不可能な設定では、従来の教師あり学習(SFT)と同等の性能を示しました。

---

## 翻訳：
arXiv:2602.03979v1 Announce Type: new
Abstract: 大規模言語モデル(LLM)を推論ベンチマークで強化学習することで微調整するには、ベンチマークごとに特定の報酬関数（多くの場合、二値）が必要です。これには、報酬設計の必要性と、二値報酬の潜在的に疎な性質という2つの潜在的な制限があります。ここでは、データに含まれる参照解答（または任意のプロンプトの続き）を出力する確率または対数確率から派生した報酬を体系的に調査し、特定の検証者に依存せず、大規模に利用できるという利点があります。最近の研究では、同様の報酬の使用（例：VeriFree、JEPO、RLPR、NOVER）が提唱されています。標準的なベースラインと比較して、標準的な数学的推論ベンチマークだけでなく、外部検証者が利用できない長文の解答でも性能をテストします。chain-of-thought（CoT）学習における参照解答の対数確率を報酬として使用することが、すべてのセットアップで良好な性能を発揮する唯一のオプションであることがわかります。この報酬は、事前学習中に使用される次のトークン対数尤度損失とも一貫しています。検証可能な設定では、対数確率報酬は、標準的な二値報酬で強化することと同等またはそれ以上の成功率をもたらし、perplexityも向上します。検証不可能な設定では、SFTと同等の性能を発揮します。一方で、VeriFreeなどの確率に基づく方法は、正しい解答を得る確率が消失するため、検証不可能な設定で性能が低下します。全体として、これにより、対数確率報酬はCoTの微調整の実現可能な方法であることが確立され、短く検証可能な回答設定と長く検証不可能な回答設定を繋いでいます。

[📰 原文はこちら](https://arxiv.org/abs/2602.03979)

---

※本記事はAI（Ollama）による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct（ https://exdirect.net ）を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

Web3 x AI x SNS - AIKnowledgeCMS blog

ページ

2026年2月5日木曜日

一般LLMの推論における尤度に基づく報酬設計

AI自動化を事業で使うなら、実行結果が見える仕組みが必要です

アーカイブ