2026年04月01日

## 要約:
大規模言語モデル(LLM)の安全性向上のための学習において、自己認識の帰属を抑制しても、心の理論(ToM)といった関連する認知能力は損なわれていないことが判明した。ただし、安全学習を受けたモデルは、非人間動物への心の帰属が抑制され、精神的な信仰心が薄れる傾向がある。このことは、非人間動物の心の存在に関する多様な視点も抑制される可能性がある。
---
## 翻訳:
arXiv:2603.28925v1 新規発表
概要:大規模言語モデル(LLM)の安全性向上学習は、モデルが自身の意識を主張したり、感情を経験していると主張するような有害な心の帰属を抑制することを目的とする。本研究では、心の帰属傾向の抑制が、心の理論(Theory of Mind, ToM)といった密接に関連する社会認知能力を低下させるかどうかを調査する。安全性アブレーションと表現の類似性メカニズム分析を通じて、LLMが自身や技術的アーティファクトに心の帰属をする性質と、ToM能力は行動的およびメカニズム的に分離可能であることが示された。しかしながら、安全学習を受けたモデルは、人間ベースラインと比較して、非人間動物への心の帰属が少なく、精神的な信仰心を抱く可能性が低く、非人間動物の心の分布と性質に関する広く共有されている視点を抑制する。
[📰 原文はこちら](https://arxiv.org/abs/2603.28925)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。