2026年02月02日
## 要約:
本研究では、自己対話強化学習(SDRL)という新しい訓練フレームワークを提案します。SDRLは、単一のLLMに優れた問題解決能力と、多主体議論における多様な推論経路からの学習能力を付与します。実験により、SDRLが多主体議論のパフォーマンスを向上させると同時に、単独モデルの推論能力も強化することが示されました。
---
## 翻訳:
arXiv:2601.22297v1 Announce Type: new
Abstract: 大規模言語モデル(LLM)の推論能力は、検証可能な報酬による強化学習(RLVR)によって大幅に改善されてきました。テスト時に、多主体議論(MAD)を通じた協調推論は、LLMのパフォーマンスを向上させる有望なアプローチとして登場しています。しかし、現在のRLVR手法は、LLMを分離された状態で問題を解決するように訓練しており、議論中に生じる多様な根拠から統合し、恩恵を受ける準備をさせることは明示的に行っていません。本研究では、自己対話強化学習(SDRL)という訓練フレームワークを提案します。SDRLは、単一のLLMに優れた問題解決能力と、多主体議論における多様な推論経路からの学習能力を付与します。与えられたプロンプトに対して、SDRLはまず複数の候補解をサンプリングし、次に多様な推論経路を含む議論コンテキストを構築し、このコンテキストに基づいて2回目の応答を生成します。最後に、SDRLは初期応答と議論条件付き応答を共同で最適化し、スタンドアロンのソルバーと議論参加者として効果的なモデルを生成します。複数の基本モデルと推論ベンチマークにおける実験により、SDRLは多主体議論の全体的なパフォーマンスを向上させると同時に、単独モデルの推論能力も強化することが示されました。
[📰 原文はこちら](https://arxiv.org/abs/2601.22297)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。