2026年04月28日

## 要約:
本研究では、大規模言語モデルの出力検証において、表現力と制御性のトレードオフを解決するAutoPyVerifierというフレームワークを提案します。LLMを用いて検証器関数を生成し、探索的なDAG検索により洗練させることで、目標精度を大幅に向上させました。発見された検証器セットは、LLMの性能向上にも貢献します。
---
## 翻訳:
arXiv:2604.22937v1 新規発表。要旨:検証は、大規模言語モデル(LLM)の強化学習ベースのトレーニングと推論時の制御の両方において中心的な役割を果たしています。しかし、現在の検証器は、表現力があるものの制御が難しくエラーが発生しやすいLLMベースの検証器と、信頼性が高く解釈しやすいものの能力が制限される決定論的実行可能検証器という根本的なトレードオフに直面しています。本研究では、目標の正しさなど、ターゲットの目的のためのLLM出力とラベルの開発セットが与えられた場合、その目標と密接に一致する、最小限のPython検証器のセットを自動的に誘導できるかどうかを研究します。LLMを用いて候補検証器関数を合成し、次に有向非巡回グラフ(DAG)を検索することで洗練するフレームワークAutoPyVerifierを提案します。DAGをナビゲートすることで、AutoPyVerifierは決定論的実行可能検証器の空間を体系的に探索し、目標を最もよく近似するコンパクトな検証器セットを選択します。いくつかの最先端LLMの数学的推論、コーディング、関数呼び出し、指示に従うベンチマークにおいて、AutoPyVerifierは初期のLLM生成された検証器セットと比較して、目標精度を最大55.0 F1ポイント向上させます。追加分析により、最も有用な検証ターゲットはベンチマークとモデルによって異なり、DAGベースの検索により学習された検証器セットは、より構造的で意味論的に根拠のあるチェックにシフトすることが示されました。さらに、発見された検証器セットを外部ツールとしてLLMに公開すると、下流の精度が最大17.0ポイント向上することが示されました。コードを公開します。
[📰 原文はこちら](https://arxiv.org/abs/2604.22937)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。