2025年12月25日

## 要約:
本研究では、大規模言語モデルの能力不足(モデルギャップ)とベンチマークの不均衡(ベンチマークギャップ)を特定する新しい手法を提案しました。スパースオートエンコーダーを用いて、モデルの内部表現に基づいた評価を行い、既存の文献で指摘されている能力不足や、ベンチマークの偏りを自動的に検出しました。この手法は、モデルのスコアの理由やベンチマークの改善に役立つ概念レベルの詳細を提供します。
---
## 翻訳:
arXiv:2512.20638v1 公告タイプ: 新規。
要旨:大規模言語モデル(LLM)の評価は、標準化されたベンチマークに大きく依存しています。これらのベンチマークは、特定の能力に対する有用な集計メトリックを提供しますが、それらの集計メトリックは(i)LLMが弱い特定のサブ領域(「モデルギャップ」)や(ii)ベンチマーク自体における不均衡なカバレッジ(「ベンチマークギャップ」)を覆い隠してしまう可能性があります。本研究では、スパースオートエンコーダー(SAE)を使用して、この2種類のギャップを自動的に特定する新しい方法を提案します。SAEの概念アクティベーションを抽出し、ベンチマークデータ全体で重み付きの重要度スコアを計算することで、この方法は評価をモデルの内部表現に根ざし、ベンチマーク間での比較を可能にします。アプローチの例として、2つの人気のオープンソースモデルと10のベンチマークにこの方法を適用しました。これらのモデルは、アメバ的行動(リクエストを丁寧に拒否したり、境界線を主張したりする)と、安全性に関する議論に関連する概念に対して一貫して性能が低いことがわかりました。これらのモデルギャップは、以前に文献で指摘された観察結果と一致しています。当社の自動化された教師なし学習法は、手動による監督なしでそれらを回復できました。また、ベンチマークギャップも確認しました。評価された多くのベンチマークは、服従、権威、または指示に従うことに関連する概念を過剰に表現する一方で、意図された範囲に含まれるはずの重要な概念が欠けていることがわかりました。要するに、当社の方法は、評価に表現に基づいたアプローチを提供し、ベンチマークスコアの概念レベルでの分解を可能にします。従来の集計メトリックに代わるものではなく、CGはそれらを補完し、モデルがどのようにスコアしたのか、およびベンチマークが意図された範囲をより適切に反映するようにどのように進化できるかを明らかにすることができます。コードはhttps://competency-gaps.github.ioで利用可能です。
[📰 原文はこちら](https://arxiv.org/abs/2512.20638)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。