2026年03月30日

## 要約:
Doctorina MedBenchは、医師と患者のリアルな対話シミュレーションに基づく、医療AIを評価する新しいフレームワークです。従来のベンチマークとは異なり、病歴収集、検査結果分析、診断、個別化された推奨事項の提供といった多段階の臨床対話をモデル化します。臨床の正確性と対話効率を評価し、安全性と品質管理にも配慮した設計となっています。
---
## 翻訳:
arXiv:2603.25821v1 Announce Type: new
Abstract: 医療AIを評価するための包括的なフレームワークであるDoctorina MedBenchを提示します。本フレームワークは、現実的な医師と患者の対話シミュレーションに基づいてエージェント型医療AIを評価します。従来の医療ベンチマークが標準化されたテスト問題を解くことに依存するのとは異なり、提案されたアプローチは、医師またはAIシステムが病歴を収集し、添付資料(検査レポート、画像、医療文書を含む)、微分診断を策定し、個別化された推奨事項を提供する、多段階の臨床対話モデル化します。D.O.T.S.メトリックを使用してシステムパフォーマンスを評価します。このメトリックは、診断、観察/検査、治療、ステップ数という4つの要素で構成されており、臨床の正確性と対話効率の両方を評価できます。
システムはまた、開発中およびデプロイ中のモデル劣化を検出するように設計された、多層テストおよび品質監視アーキテクチャも組み込んでいます。フレームワークは、安全性を重視したトラップケース、カテゴリベースの臨床シナリオのランダムサンプリング、および完全な回帰テストをサポートしています。現在、データセットには1,000件を超える臨床症例が含まれており、750件を超える診断をカバーしています。評価指標の普遍性により、フレームワークは医療AIシステムを評価するだけでなく、医師を評価し、臨床推論能力の開発を支援するために使用できます。当社の結果は、臨床対話のシミュレーションが、従来の試験形式のベンチマークと比較して、臨床能力をより現実的に評価できることを示唆しています。
[📰 原文はこちら](https://arxiv.org/abs/2603.25821)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。