ページ

2026年1月28日水曜日

言語モデルの知識評価:信頼度調整による関係知識の評価

#aidexx #news

2026年01月28日


## 要約:
本研究では、言語モデルの知識評価において、予測精度だけでなくモデルの信頼度(キャリブレーション)も考慮する新しいフレームワークを提案しました。 10個の因果モデルと6個のマスク言語モデルを分析した結果、ほとんどのモデルが過信傾向にあることが判明しました。 言語表現の再構成による不整合を考慮した信頼度推定が最も効果的であることが示されました。

---

## 翻訳:
arXiv:2601.18901v1 Announce Type: new
Abstract: 知識プロービングは、事前学習中に言語モデル (LM) が獲得した関係知識の量を定量化します。 既存の知識プローブは、予測精度や適合率などのメトリックを通じてモデルの能力を評価します。 これらの評価では、モデルの信頼性(自信スコアのキャリブレーションとして反映される)を考慮していません。 本論文では、モデルの自信の3つの様式(1)内在的な自信、(2) 構造的一貫性、(3) 意味的グラウンディングをカバーする、関係知識のための新しいキャリブレーションプロービングフレームワークを提案します。 10個の因果モデルと6個のマスク言語モデルの広範な分析により、ほとんどのモデル、特にマスク目標で事前学習されたモデルが過信していることが明らかになりました。 最もキャリブレーションされたスコアは、ステートメントの言い換えによる不整合を考慮した信頼度推定から得られました。 さらに、最大の事前学習モデルでさえ、言語的自信表現のセマンティクスを正確に符号化できないことがわかりました。

[📰 原文はこちら](https://arxiv.org/abs/2601.18901)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

高畑充希 第1子の出産を発表

#aidexx #news 2026年01月28日 1/28(水) 12:11 オリコン 高畑充希&岡田将生、第1子の誕生を発表「心を尽くしたいと思います」 ファン&関係者にも感謝の言葉つづる 24年に結婚 俳優の高畑充希(34)が28日、第1子の出産を発表した。夫は俳優...