2025年12月24日

## 要約:
CodeGEMMは、量子化LLMの推論において、コードブックを利用し、中間和を事前に計算したテーブルを使用することで、従来のコードブックベースの方法よりも大幅な高速化を実現する新しいGEMMカーネルです。 このアプローチは、要素ごとのルックアップを排除し、メモリ占有量を削減することで、Llama-3モデルにおいて大幅な性能向上と効率化をもたらします。 推論時の待ち時間とメモリ使用量のバランスを調整できます。
---
## 翻訳:
arXiv:2512.17970v1 Announce Type: new
Abstract: 量子化LLMの推論におけるメモリボトルネックを緩和するために、重みのみ量子化が広く使用されています。コードブックベースの方法は、この傾向をさらに進歩させ、極端に低いビット精度(例:2ビット)で高い精度を達成します。しかし、現在のカーネルは、待ち行列化(dequantization)に依存しており、セントロイドを繰り返しフェッチし、重みを再構築するため、著しい待ち行列時間とキャッシュ圧力を引き起こします。我々は、軽量のPsumbookに格納されたセントロイドと活性化との事前計算された内積で待ち行列化を置き換える、コードブック中心のGEMMカーネルであるCodeGEMMを紹介します。推論時、コードインデックスは直接これらの部分和を収集し、要素ごとのルックアップを排除し、オンチップの占有量を削減します。このカーネルは、統一された実装下で、待ち行列時間とメモリと精度とのトレードオフを体系的に探求できます。Llama-3モデルにおいて、CodeGEMMは、同程度の精度で、最先端のコードブックベースの量子化と比較して、2ビット構成で8Bモデルで1.83倍、70Bモデルで8.93倍の高速化を実現し、さらに計算効率とメモリサブシステムの利用率を向上させます。
[📰 原文はこちら](https://arxiv.org/abs/2512.17970)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。