2026年02月26日

## 要約:
腾讯Hunyuanチームが開発したAngelSlimは、量子化、推測デコーディング、トークンプルーニング、蒸留など最先端の圧縮アルゴリズムを統合したツールキットです。 量子化の精度向上、推測デコーディングのスループット向上、そして疎結合なアテンション機構によるTTFTの改善など、大規模モデルの産業規模での展開を容易にします。 2ビットモデルHY-1.8B-int2も実現しました。
---
## 翻訳:
arXiv:2602.21233v1 Announce Type: new
Abstract: 本技術レポートでは、腾讯Hunyuanチームが開発した包括的で汎用的な大規模モデル圧縮ツールキットAngelSlimを紹介します。 量子化、推測デコーディング、トークンプルーニング、蒸留など、最先端のアルゴリズムを統合することで、モデル圧縮から産業規模の展開への移行を合理化する統一パイプラインを提供します。 効率的な高速化を容易にするため、最先端のFP8およびINT8Post-Training Quantization (PTQ)アルゴリズムに加えて、画期的な超低ビット領域の研究を統合し、最初の工業的に実行可能な2ビット大規模モデルであるHY-1.8B-int2を特徴としています。 量子化を超えて、マルチモーダルアーキテクチャおよび最新の推論エンジンと互換性のあるトレーニングに合わせた推測デコーディングフレームワークを提案し、出力の正確性を損なうことなく1.8倍から2.0倍のスループットゲインを達成します。 さらに、モデルアーキテクチャから疎結合カーネルを切り離すための静的パターンと動的トークン選択のハイブリッドを使用したトレーニングフリーな疎結合アテンションフレームワークを開発し、長文脈のシナリオにおけるTime-to-First-Token (TTFT) を削減します。 マルチモーダルモデルの場合、AngelSlimはMaximal Marginal Relevanceによるビジョン トークンを最適化するためのIDPrunerや、アダプティブオーディオ トークンマージとプルーニングのためのSampという特殊なプルーニング戦略を取り込みます。 これらの圧縮戦略を低レベルの実装から統合することで、AngelSlimはアルゴリズムに重点を置いた研究とツール支援による展開を可能にします。
[📰 原文はこちら](https://arxiv.org/abs/2602.21233)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。