2026年02月02日
## 要約:
大規模言語モデル(LLM)は、文脈学習(ICL)において、入力シーケンスの表現を直線的な軌道に整列させる傾向がある。しかし、その挙動はタスクの種類によって異なり、予測タスクでは直線化が予測精度向上と相関する一方、構造化されたタスクでは直線化は不規則に発生する。本研究は、ICLが単一のプロセスではなく、タスク構造に応じて様々な戦略を使い分ける「万能ツール」のような機能を持っていることを示唆する。
---
## 翻訳:
arXiv:2601.22364v1 Announce Type: new
Abstract: 大規模言語モデル(LLM)は、入力シーケンスの表現を深層において直線的なニューラル軌道へと組織化することが示されており、線形外挿を介して次のトークン予測を促進すると仮定されてきた。言語モデルはまた、多様なタスクに適応し、文脈で新しい構造を学習することができ、最近の研究では、この文脈学習(ICL)が表現の変化として反映されることが示されている。本研究では、これらの2つの研究を組み合わせ、ICL中に表現の直線化が発生するかどうかを探求する。我々は、Gemma 2モデルで多様な文脈タスクにわたって表現の直線化を測定し、LLMの表現が文脈内でどのように変化するかに関する二分法を発見した。継続的な予測設定(例:自然言語、グリッドワールドの移動タスク)では、文脈の増加が増加するニューラルシーケンス軌道の直線性と相関しており、モデル予測の改善と相関している。対照的に、構造化された予測設定(例:数ショットタスク)では、直線化は一貫性がない。それは、明示的な構造を持つタスクの段階(例:テンプレートの繰り返し)でのみ存在し、それ以外の場所では消滅する。これらの結果は、ICLが単一のプロセスではないことを示唆している。むしろ、我々はLLMがスイスアーミーナイフのようなものであると提案する。タスク構造に応じて、LLMは戦略を選択し、その一部だけが表現の直線化をもたらす。
[📰 原文はこちら](https://arxiv.org/abs/2601.22364)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。