ページ

2026年1月1日木曜日

LLMの整合性-精度関係を分析するフレームワーク「CAT」の提案

#aidexx #news

2026年01月01日




## 要約:
本研究では、大規模言語モデル(LLM)の精度と整合性の関係を評価・可視化するフレームワーク「CAT」を提案します。 提案フレームワークは、入力の変化に対するモデルの応答の整合性と精度を分析し、「整合性-精度関係(CAR)」曲線を用いて、整合性の要件に対する精度の変化を可視化します。 さらに、精度と整合性のトレードオフを定量化する指標「整合性志向のロバスト性推定値(CORE)」も導入しました。

---

## 翻訳:
arXiv:2512.23711v1 Announce Type: new
Abstract: 本研究では、大規模言語モデル(LLM)の精度と整合性の関係を評価・可視化するフレームワーク「CAT」を提案します。 「CAT」は、複数選択ベンチマークをケーススタディとして用い、制御可能な入力変動の下で、LLMの精度と応答の整合性の相互作用を評価・可視化するように設計されています。 現在の評価手法は主に、モデルの能力である精度やベンチマークスコアに焦点が当てられており、最近では、整合性を測定することが、高リスクのリアルワールドアプリケーションへのLLMの展開にとって不可欠な特性として考慮されるようになっています。 本論文では、精度と整合性の両側面は個別に評価されるべきである一方、より詳細なLLMの評価には、両者の相互依存関係も考慮する必要があると主張します。 「CAT」の中核となるのは、「整合性-精度関係(CAR)」曲線であり、これは、「最小整合性精度(MCA)」指標によって定義される整合性の要件が増加するにつれて、モデルの精度がどのように変化するかを可視化します。 さらに、「整合性志向のロバスト性推定値(CORE)」という、CAR曲線の面積と形状を組み合わせて精度と整合性のトレードオフを定量化するグローバルな指標を提案します。 本研究では、多様な汎用およびドメイン固有のLLMを、複数の複数選択ベンチマークで評価した際のフレームワークの実用的なデモンストレーションを提示します。 また、「CAT」が、適応可能なスコアリング関数を通じて、複数選択タスクを超えて、長文形式の自由形式の評価をサポートするためにどのように拡張できるかについても説明します。

[📰 原文はこちら](https://arxiv.org/abs/2512.23711)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

Xの運用開始からフォロワー1000人を集めるための30日間ロードマップ

#aidexx #X運用 #AIノウハウ 【保存版】 Xの運用開始からフォロワー1000人を集めるための30日間ロードマップ 1. 今日から30日間、毎日Xに最低3本の投稿を行う。 2. 最初の7日間は、自身の専門分野に関連するキーワードを5つずつ調査し、...