2026年02月06日

## 要約:
本論文では、モデルパラメータに柔軟にオフロード/マージ可能な新しいパラメータメモリ「Locas」を提案します。 LocasはFFNブロックのデザインを共有し、効率的な継続学習を可能にします。特に、モデルパラメータの再利用による適切な初期化が、高速な収束、汎化性能向上、そして破滅的忘却の防止に不可欠であることを示しました。
---
## 翻訳:
本論文では、テスト時間でのトレーニングとパラメータメモリを接続する新しい手法を提案します。提案手法であるLocasは、最新のTransformerモデルで使用されるFFNブロックのデザインを共有し、モデルパラメータへの柔軟なオフロード/マージを可能にし、効率的な継続学習をサポートします。Locasには、より明確な理論的保証を持つ従来の2層MLPデザインのものと、最先端のLLMで使用されるGLU-FFN構造を共有し、パラメータ効率的かつ計算効率的な継続学習を可能にするものが存在します。重要な点として、低ランクのsideway-FFNスタイルメモリの適切な初期化(モデルパラメータ、活性化関数、および/または勾配を再利用することで実行)は、高速な収束、改善された汎化、そして破滅的忘却の防止に不可欠であることが示されました。PG-19全書籍言語モデル化タスクとLoCoMo長文対話質問応答タスクで、提案されたメモリメカニズムを検証しました。最も低いケースでは、わずか0.02%の追加パラメータで、Locas-GLUは過去のコンテキスト情報を保存しながら、はるかに小さいコンテキストウィンドウを維持できます。さらに、Locasを使用して全書籍を記憶させた後のモデルの一般的な能力損失を、比較MMLU評価を通じてテストしました。その結果、Locasは破滅的な忘却を最小限に抑えながら、過去のコンテキストをパラメータ知識として恒久化する有望な能力を示しました。
[📰 原文はこちら](https://arxiv.org/abs/2602.05085)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。