2026年01月28日
## 要約:
従来の言語モデルの推論評価は大人前提であり、赤ちゃんの言語モデルの特性を適切に反映していない。BabyReasoningBenchは、発達心理学の古典的なパラダイムに基づいた19の推論タスクで構成され、赤ちゃんの言語モデルの推論能力を評価する。評価結果から、大人とは異なる推論能力の発達過程やメカニズムを分析できる。
---
## 翻訳:
arXiv:2601.18933v1 Announce Type: new
Abstract: 従来の言語モデルの推論能力評価は、広範な世界知識、複雑な指示の理解、成熟した意図疎通能力を前提とする大人中心のベンチマークによって支配されてきました。これらの前提は、子供向けの音声や幼児の物語といった発達的に妥当な入力で学習された赤ちゃん言語モデルと一致せず、そのような制約下でどのような推論能力(もしあれば)が生まれるのかを覆い隠しています。私たちは、BabyReasoningBenchという、GPT-5.2によって生成された19の推論タスクのベンチマークを導入します。これは、心の理論、類推的および関係推論、因果推論と介入選択、そして記憶や意図疎通によって混乱しやすい基本的な推論の素などの、発達心理学の古典的なパラダイムに基づいています。2つのGPT-2ベースの赤ちゃん言語モデル(子供向けの音声テキスト10Mと100Mで事前学習)は、全体的に低いが不均一なパフォーマンスを示しました。タスクファミリーごとの違いが見られました。スケールアップにより、いくつかの因果的および物理的な推論タスクが改善されましたが、信念帰属や意図疎通に敏感なタスクは依然として困難でした。BabyReasoningBenchは、子供のような学習分布によってどのような種類の推論がサポートされるかを分析し、そのような能力がどのように生まれるかというメカニズムに関する仮説を検証するための、発達段階に基づいたレンズを提供します。
[📰 原文はこちら](https://arxiv.org/abs/2601.18933)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。