2026年02月25日

## 要約:
本研究では、計算リソースに応じてLLMの量子化精度を動的に変更する「弾性LLM」の課題に対処するため、MoBiQuantという新しい量子化フレームワークを提案します。MoBiQuantは、トークンごとの感度に基づいて重み精度を調整し、トークン外れ値の影響を改善することで、再キャリブレーションなしで高性能を維持します。これにより、LLMの弾性と一般化性能を向上させます。
---
## 翻訳:
arXiv:2602.20191v1発表 Type: new
抽象:クラウドやエッジデバイスでの実行時の複雑さを変更するには、弾性大規模言語モデル(LLM)の展開が必要であり、LLMは利用可能な計算リソースに基づいてさまざまな量子化精度で推論できます。しかし、量子化のキャリブレーションパラメータは通常、特定の精度に関連付けられており、実行時の弾性精度キャリブレーションと精度切り替えには課題が生じます。本研究では、さまざまなキャリブレーションパラメータの根源を精度依存の外れ値移行現象によって引き起こされるトークンレベルの感度の変化に起因すると考えます。この観察に基づいて、トークン感度に基づいて弾性LLM推論の重み精度を調整する新しいビット混合量子化フレームワークである exttt{MoBiQuant}を提案します。具体的には、より高精度な重みを反復的に再構築できるmany-in-one recursive residual quantizationと、残余ビットスライスの数を動的に選択するトークン認識ルーターを提案します。MoBiQuantは、トークン外れ値の分布に対して一般化を改善しながら、スムーズな精度切り替えを可能にします。実験結果は、MoBiQuantが強い弾性を示し、再キャリブレーションなしでLLaMA3-8Bのビット固有にキャリブレーションされたPTQの性能に匹敵することを示しています。
[📰 原文はこちら](https://arxiv.org/abs/2602.20191)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。