2026年01月29日
## 要約:
大規模言語モデルの事前学習データ検出において、既存手法の課題を克服するため、トップ1予測とターゲットトークンの確率ギャップに着目したGap-K%という新しい手法を提案します。この手法は、モデルのトレーニング過程における勾配信号の分析に基づき、ローカルな相関も考慮することで、より優れた性能を発揮します。WikiMIAやMIMIRのベンチマークテストで、既存手法を上回る結果を示しました。
---
## 翻訳:
arXiv:2601.19936v1 Announce Type: new
Abstract: 大規模言語モデル(LLM)における大規模な事前学習コーパスの不透明性は、プライバシーと著作権に関する重大な懸念を引き起こし、事前学習データ検出を重要な課題にしています。既存の最先端の手法は、通常、トークンの尤度(token likelihood)に依存していますが、モデルのトップ1予測からの乖離や、隣接するトークン間のローカルな相関を十分に考慮していません。本研究では、LLMの事前学習の最適化ダイナミクスに基づいた新しい事前学習データ検出手法であるGap-K%を提案します。次のトークンの予測目標を分析した結果、モデルのトップ1予測とターゲットトークンとの間の不一致は、トレーニング中に明示的にペナルティとして課される強力な勾配信号を誘発することに気づきました。この点をモチベーションとして、Gap-K%はトップ1で予測されたトークンとターゲットトークンの対数確率ギャップを利用し、ローカル相関を捉え、トークンレベルの変動を緩和するために、スライディングウィンドウ戦略を取り入れています。WikiMIAとMIMIRのベンチマークでの広範な実験により、Gap-K%は最先端の性能を達成し、さまざまなモデルサイズと入力長に対して、既存のベースラインを常に上回ることが示されました。
[📰 原文はこちら](https://arxiv.org/abs/2601.19936)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。