2026年01月28日
## 要約:
大規模言語モデルの推測型デコーディングの学習において、ターゲットモデルの予測分布が平坦なトークンは、尖った分布のトークンよりも重要であることが判明しました。
この知見に基づき、平坦性の指標を導入し、データ蒸留手法SFDDを開発しました。
SFDDはデータ量を削減しつつ、学習速度を向上させ、最終モデルの推論速度も大幅に低下させることなく実現しました。
---
## 翻訳:
arXiv:2601.18902v1 Announce Type: new
Abstract: 推測型デコーディング(SD)は、大規模言語モデル(LLM)の推論を高速化するための重要な技術ですが、通常は大量のデータセットでドラフトモデルを学習する必要があります。私たちは、データ中心的な視点からこの問題に取り組み、すべてのトレーニングサンプルがSDの受諾率に等しく貢献するわけではないことを発見しました。具体的には、私たちの理論分析と実証的検証により、ターゲットモデルからより平坦な予測分布を引き起こすトークンは、鋭く尖った分布を引き起こすトークンよりも価値があることが明らかになりました。この洞察に基づいて、平坦性という新しい指標を導入し、この特性を定量化し、サンプルレベルの平坦性に基づいたデータセット蒸留(SFDD)アプローチを開発しました。EAGLEフレームワークでの実験により、SFDDはデータ量の50%のみを使用するだけで、2倍以上のトレーニング速度向上を達成できることが示され、最終モデルの推論速度向上はフルデータセットのベースラインから4%以内に維持されます。この研究は、推測型デコーディングのトレーニング効率を大幅に改善する効果的なデータ中心的なアプローチを導入します。私たちのコードはhttps://anonymous.4open.science/r/Flatnessで入手可能です。
[📰 原文はこちら](https://arxiv.org/abs/2601.18902)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。