2026年01月08日

## 要約:
本研究では、医療現場での利用を考慮したオンデバイス大規模言語モデル(gpt-oss-20b, gpt-oss-120b)をベンチマークし、最新のプロプライエタリモデルと比較した。結果は、オンデバイスモデルが優れた性能を示し、微調整によってGPT-5に近い精度を達成した。これにより、プライバシー保護と臨床現場でのLLMの導入が現実的な道が開かれる。
---
## 翻訳:
arXiv:2601.03266v1を発表型: 新規
概要: 大規模言語モデル(LLMs)は、臨床意思決定において急速に進化していますが、プロプライエタリシステムの展開は、プライバシーに関する懸念とクラウドベースのインフラストラクチャへの依存によって妨げられています。オープンソースの代替手段はローカル推論を可能にしますが、多くの場合、リソースが限られた臨床環境での使用を制限する大きなモデルサイズが必要です。ここでは、gpt-oss-20b と gpt-oss-120b という 2 つのオンデバイス LLM を、一般的な疾患診断、専門分野(眼科)の診断と管理、および人間の専門家による格付けと評価のシミュレーションという 3 つの代表的な臨床タスクにわたってベンチマークします。これらのモデルのパフォーマンスを、最先端のプロプライエタリモデル(GPT-5 と o4-mini)および主要なオープンソースモデル(DeepSeek-R1)と比較し、さらに一般診断データで gpt-oss-20b を微調整することで、オンデバイスシステムの適応性を評価します。タスク全体で、gpt-oss モデルは大幅に小さいにもかかわらず、DeepSeek-R1 と o4-mini 以上のパフォーマンスを達成しました。さらに、微調整は gpt-oss-20b の診断精度を著しく向上させ、GPT-5 のパフォーマンスに近づけることを可能にしました。これらの知見は、正確で適応性が高く、プライバシーを保護する臨床意思決定支援を提供するためのオンデバイス LLM の可能性を強調し、臨床実践における LLM のより広範な統合のための実用的な道筋を提供します。
[📰 原文はこちら](https://arxiv.org/abs/2601.03266)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。