2026年01月28日
## 要約:
本研究では、大規模言語モデル(LLM)がCプログラムの終了を予測する能力を評価した結果、GPT-5やClaude Sonnet-4.5がトップレベルの検証ツールに匹敵する性能を示した。ただし、終了予測の証拠となる有効な根拠を提供するには課題が残っており、プログラムの規模が大きくなるほど性能が低下する傾向にある。今後の研究でLLMを用いた決定不能問題へのアプローチが期待される。
---
## 翻訳:
arXiv:2601.18987v1 で Type: new として発表。
抽象: プログラムが終了するかどうかを決定することは、コンピュータサイエンスにおける中心的な問題です。チューリングの基礎的な結果は、停止問題を決定不能として確立し、すべてのプログラムと入力に対して終了を普遍的に決定するアルゴリズムは存在しないことを示しました。その結果、自動検証ツールは終了を近似しますが、時には証明または反証に失敗します。これらのツールは、問題固有のアーキテクチャと抽象化に依存し、通常は特定のプログラミング言語に依存しています。大規模言語モデル(LLM)の最近の成功と進歩は、次の疑問を提起します:LLMはプログラムの終了を信頼性を持って予測できますか?この研究では、国際ソフトウェア検証コンペティション(SV-Comp)2025のTerminationカテゴリの多様なCプログラムでLLMを評価します。私たちの結果は、LLMがプログラムの終了を予測する能力において驚くほど優れていることを示しており、GPT-5とClaude Sonnet-4.5は、テスト時間スケーリングを用いたトップランクのツールにわずかに劣り、Code World Model (CWM) は2位のツールにわずかに劣るという結果となりました。LLMはプログラムの終了を予測するのに効果的ですが、多くの場合、有効な証拠を証明として提供することには失敗します。さらに、LLMの性能はプログラムの長さが増加するにつれて低下します。これらの洞察は、プログラムの終了と決定不能な問題について推論するためのLLMのより広範な可能性に関する今後の研究を促進することを願っています。
[📰 原文はこちら](https://arxiv.org/abs/2601.18987)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。