2026年05月27日

## 要約:
本研究では、外部教師やツールからのフィードバックなしに、大規模言語モデル(LLM)が自己学習できる可能性を検討しました。提案手法である「自己検証蒸留」は、モデル自身が質問の解答候補を生成し、自己検証によってフィルタリングを行い、その結果を学習データとして活用します。これにより、数学、科学、コーディングの各分野でモデルの性能が向上しました。
---
## 翻訳:
arXiv:2605.26132v1 の発表Type:new。
概要:外部の教師やツールからのフィードバックなしに、自己学習された大規模言語モデル(LLM)は、ラベルなしのプロンプトだけを使用して、さらに自己改善できるか?真の解決策を持たないラベルなしの種子質問から開始し、数学、科学、コーディングという3つの推論ドメインでこの設定を研究する。本論文では、モデルがこれらの種子質問への候補となる解決策を生成し、プロンプトベースの自己検証を使用してフィルタリングし、その結果の自己キュレーションされたデータセットで学習する、単純なポストトレーニングの改良アルゴリズムである自己検証蒸留を提案する。困難な未解決の質問に対する候補となる回答をスクリーニングするために、UQベンチマークが複数の検証者を使用していることに触発され、検証ベースのフィルタリングのこのアイデアを自己トレーニングに適用する:モデルは、サイクルの一貫性、事実性、および正しさのチェックの3段階カスケードを通じて、自身の生成した解決策をフィルタリングし、すべての段階で全裁判官の賛成票を得た場合にのみ解決策を受け入れる。候補の生成回数を増やし、トレーニングデータ構築中の検証予算を大きくすることで、より高品質な自己キュレーションされたデータを作成でき、その結果、より優れた推論モデルが得られることがわかった。次に、自己検証蒸留を使用して、さまざまなスケールのQwen3モデルをトレーニングし、3つのすべてのドメインでパフォーマンスの向上が確認された。Qwen3-4Bでは、当手法は、数学(AIME26 および HMMT)で+16.7ポイント、科学(GPQA Diamond および HLE)で+11.1ポイント、コーディング(LCBv5 および LCBv6)で+8.3ポイント、集計されたホールドアウトのpass@1を向上させた。0.6Bと8Bモデルにも利点が見られた。テスト時間のベースライン(UQ-TTC)と比較して、テスト時間のベースラインは推論時に余分な計算資源を費やしてパフォーマンスを向上させるが、自己検証蒸留はほとんどの設定でより優れたパフォーマンスを達成し、かつテスト時に単一の推論呼び出ししか必要としない。
[📰 原文はこちら](https://arxiv.org/abs/2605.26132)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。