
## 要約:
中国の医学試験において、47Bパラメータの混合モデルが671Bパラメータの密集型モデルを上回り、心血管や神経学など7つの医学分野での性能差が確認された。
---
## 翻訳:
大型言語モデル(LLM)の急速な進展により、医学分野への潜在的な応用が注目を集めています。この論文では、心血管から呼吸器医まで7つの医学領域を対象に、27種類の最先端のLLMが中国の医学試験問題に対する性能を評価しました。評価は、診療医と高年次医師の難易度レベルによって区別され、複数の医学分野でのモデル能力の違いが明らかになりました。実証的な分析では、ミックストレーラル-8x7Bが最高精度74.25%を達成し、次にディープシーク-R1-671Bが64.07%でした。また、モデルサイズと性能との間には一貫した関連性は見られず、小さな混合モデルアーキテクチャも強力なパフォーマンスを示しました。さらに、診療医と高年次医師レベルの間での上位モデルの性能劣化が少ないことも確認されました。このベンチマークは、LLMによる医学教育や臨床支援システムへの展開にとって重要な洞察を提供し、これらの技術が専門的な医学分野においても限られた能力を持っていることを示しています。
[📰 原文はこちら](https://arxiv.org/abs/2511.21701)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
BittensorManがお勧めするメーカーリスト
http://exbridge.jp/xdirect/
動画の最後にお得な情報がありますので、
最後までご覧ください。