2026年04月04日

## 要約:
本研究では、科学的な主張と多Modalな証拠の一貫性を評価するための大規模データセット「M2-Verify」を構築した。PubMedとarXivから収集した469,000件以上の事例を含み、専門家による厳格な検証を実施。既存モデルの性能が複雑な状況下で大きく低下すること、そして幻覚(ハルシネーション)が発生していることも明らかになった。
---
## 翻訳:
抄録:科学的な議論を評価するには、主張とその根拠となる多Modalな証拠との厳密な一貫性を評価する必要があります。しかし、既存のベンチマークは、この整合性を現実的に評価するために必要な規模、ドメインの多様性、視覚的な複雑さの欠如に直面しています。このギャップに対処するために、私たちは科学的な主張の一貫性をチェックするための大規模な多ModalデータセットであるM2-Verifyを紹介します。PubMedとarXivから調達されたM2-Verifyは、16のドメインにわたる469,000件以上のインスタンスを提供し、専門家による監査を通じて厳格に検証されています。広範なベースライン実験により、最先端のモデルでさえ、堅牢な整合性を維持することが難しいことがわかります。トップモデルは、低複雑な医療の摂動に対して最大85.8%のMicro-F1を達成しますが、解剖学的シフトのような高複雑な課題に対しては、性能が61.6%に低下します。さらに、専門家による評価は、モデルが整合の決定のために科学的な説明を生成するときに幻覚が発生することを示唆しています。最後に、私たちはデータセットの有用性を示し、包括的な使用ガイドラインを提供します。
[📰 原文はこちら](https://arxiv.org/abs/2604.01306)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。