MoBiQuant：トークン適応型弾性LLMのためのビット混合量子化

2026年2月25日水曜日

MoBiQuant：トークン適応型弾性LLMのためのビット混合量子化

#aidexx #news

2026年02月25日

## 要約：
本研究では、計算リソースに応じてLLMの量子化精度を動的に変更する「弾性LLM」の課題に対処するため、MoBiQuantという新しい量子化フレームワークを提案します。MoBiQuantは、トークンごとの感度に基づいて重み精度を調整し、トークン外れ値の影響を改善することで、再キャリブレーションなしで高性能を維持します。これにより、LLMの弾性と一般化性能を向上させます。

---

## 翻訳：
arXiv:2602.20191v1発表 Type: new
抽象：クラウドやエッジデバイスでの実行時の複雑さを変更するには、弾性大規模言語モデル（LLM）の展開が必要であり、LLMは利用可能な計算リソースに基づいてさまざまな量子化精度で推論できます。しかし、量子化のキャリブレーションパラメータは通常、特定の精度に関連付けられており、実行時の弾性精度キャリブレーションと精度切り替えには課題が生じます。本研究では、さまざまなキャリブレーションパラメータの根源を精度依存の外れ値移行現象によって引き起こされるトークンレベルの感度の変化に起因すると考えます。この観察に基づいて、トークン感度に基づいて弾性LLM推論の重み精度を調整する新しいビット混合量子化フレームワークである exttt{MoBiQuant}を提案します。具体的には、より高精度な重みを反復的に再構築できるmany-in-one recursive residual quantizationと、残余ビットスライスの数を動的に選択するトークン認識ルーターを提案します。MoBiQuantは、トークン外れ値の分布に対して一般化を改善しながら、スムーズな精度切り替えを可能にします。実験結果は、MoBiQuantが強い弾性を示し、再キャリブレーションなしでLLaMA3-8Bのビット固有にキャリブレーションされたPTQの性能に匹敵することを示しています。

[📰 原文はこちら](https://arxiv.org/abs/2602.20191)

---

※本記事はAI（Ollama）による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct（ https://exdirect.net ）を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

Web3 x AI x SNS - AIKnowledgeCMS blog

ページ

2026年2月25日水曜日

MoBiQuant：トークン適応型弾性LLMのためのビット混合量子化

Ernie Kurage Wan Hyperframes Ollama ClaudeとAI動画生成技術に関するKurageプロジェクトのYouTubeチャンネル

アーカイブ