ページ

2026年1月30日金曜日

DeepSearchQA:深層研究エージェントの包括性ギャップを埋める

#aidexx #news

2026年01月30日


## 要約:
DeepSearchQAは、複雑な情報検索タスクを評価するための新しいベンチマークです。従来のベンチマークとは異なり、複数のステップを必要とし、断片化された情報を体系的に収集・統合し、重複排除やエンティティ解決を行い、最適な検索停止基準を決定する能力を評価します。現在の最先端モデルは、網羅性と精度を両立するのに苦戦しており、DeepSearchQAはよりロバストな深層研究能力の開発に不可欠な診断ツールとなります。

---

## 翻訳:
arXiv:2601.20975v1 Announce Type: new
Abstract: 複雑な多段階の情報検索タスクを評価するための新しいベンチマーク DeepSearchQA を紹介します。DeepSearchQAは17の異なる分野にまたがる900プロンプトのベンチマークで、従来のベンチマークが単一の回答検索または広範囲にわたる事実確認をターゲットにしていたのとは異なり、エージェントが包括的な回答リストを生成するために複雑な検索計画を実行する能力を評価するよう設計された、挑戦的な手作業のタスクのデータセットを特徴としています。この設計の変更は、3つの重要な、しかし評価が不十分な機能を明示的にテストします。1) 異質なソースからの断片化された情報の体系的な収集、2) 精度を確保するための重複排除とエンティティ解決、3) オープンエンドされた検索空間内での停止基準について推論する能力です。各タスクは因果連鎖として構造化されており、あるステップの情報発見は前のステップの成功に依存しており、長距離計画と文脈保持にストレスをかけています。すべてのタスクは、客観的に検証可能な回答セットを持つオープンウェブに根ざしています。最先端のエージェントアーキテクチャの包括的な評価は、パフォーマンスの著しい制限を明らかにします。最も高度なモデルでさえ、高い網羅性と精度を両立するのに苦労しています。過小回収(過小回収)から、エージェントが意図的に低い信頼度の回答の広範囲なネットを投げることで回収を人工的に増加させるヘッジ行動まで、様々な失敗モードを観察しました。これらの調査結果は、現在のエージェント設計における重要な改善の余地を示し、DeepSearchQAをより堅牢で深層研究能力の開発を推進するための不可欠な診断ツールとして位置づけています。

[📰 原文はこちら](https://arxiv.org/abs/2601.20975)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

ガンダム水星の魔女 Xリプ欄閉鎖

#aidexx #news 2026年04月03日 4/3(金) 16:15 ENCOUNT ガンダム『水星の魔女』公式X、止まない不適切投稿でリプ欄閉鎖「注意喚起を行ってまいりましたが…」 シリーズ初の女性主人公でも話題を呼んだ『機動戦士ガンダム 水星の魔女』  ...