2026年01月27日
## 要約:
本研究では、大規模言語モデルのファインチューニングにおいて、パラメータ数を削減するLoRAの課題を解決するため、スパース認識低ランク表現(SALR)を提案します。SALRは、フローズンなベースウェイトをスパース化し、残りの情報を低ランクアダプタで復元することで、モデルサイズと推論速度を改善します。実験結果から、性能を維持しながらモデルサイズを2倍に削減し、最大1.7倍の推論速度向上を実現しました。
---
## 翻訳:
arXiv:2601.16991v1 Announce Type: new
Abstract: 大規模事前学習済み言語モデルをダウンストリームタスクに適応させるには、しばしば数百万のパラメータをファインチューニングしたり、高価な密な重み更新をデプロイしたりする必要がありますが、これはリソースが限られた環境での使用を妨げます。低ランク適応(LoRA)は、重み更新を因子化することで学習可能なパラメータ数を削減しますが、基盤となる密な重みは依然として高いストレージと計算コストを課します。マグニチュードベースのプルーニングはスパースなモデルを生成できますが、単純に適用するとLoRAの性能を低下させます。本論文では、厳密な二乗平均誤差フレームワークの下で低ランク適応とスパースプルーニングを統合した新しいファインチューニングパラダイムであるSALR(スパース認識低ランク表現)を紹介します。統計的にフローズンなベースウェイトのみをプルーニングすると、プルーニング誤差の上限を最小限に抑えることができることを証明し、削除された残りの情報を切り捨てられたSVD低ランクアダプタを介して復元します。これは、(1 - r/min(d,k))の因子で1エントリあたりのMSEを減少させることが証明されています。ハードウェア効率を最大化するために、複数の低ランクアダプタを単一の連結されたGEMMに融合し、2段階のパイプライン化されたデコード+GEMM設計を備えたビットマップベースのエンコードを採用して、真のモデル圧縮と高速化を実現します。経験的に、SALRはさまざまなLLMで50%のスパース性を達成しながら、GSM8KおよびMMLUでLoRAと同等の性能を発揮し、モデルサイズを2倍削減し、最大1.7倍の推論速度向上を実現しました。
[📰 原文はこちら](https://arxiv.org/abs/2601.16991)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。