JAMA Network Open
美國醫學期刊JAMA Network Open於本週發布的研究指出,現成大型語言模型(Large Language Models, LLMs)在臨床推理中仍存在明顯限制,特別是在早期的鑑別診斷階段,錯誤率普遍超過80%。
JAMA Network Open為美國醫學會(American Medical Association,AMA)旗下的開放取用醫學期刊,採同儕審查機制,在醫學界具一定權威性。不過,本次研究屬於以標準化病例模擬(clinical vignettes)進行的橫斷式評估,主要用於測試AI模型在臨床推理流程中的表現,並非基於真實病患的臨床試驗結果,仍需進一步實證驗證其在實際醫療場景中的適用性。
該研究評估21款主流大型語言模型,包括GPT-5、Claude 4.5 Opus、Gemini 3系列與Grok 4,透過29個標準化臨床案例,模擬醫療決策流程,涵蓋鑑別診斷、檢查選擇、最終診斷、治療管理,以及其他臨床推理等五個階段。
結果顯示,各模型整體表現仍有差距,但在不同診療階段呈現明顯不均。研究發現,AI在「最終診斷」與「治療管理」的準確率相對較高,而「檢查選擇」與其他臨床推理則居中,但在最早期的「鑑別診斷」表現最差,錯誤率普遍超過80%,成為各模型共同的弱點。
進一步分析指出,AI較擅長在資訊已較完整的情況下給出答案,但在資訊不足、需要逐步推理的早期階段,容易過早收斂至單一結論。相較之下,臨床醫師通常會在初期保留多種可能性,並隨著檢查與資料累積逐步修正判斷。研究認為,這種在不確定情境下推理能力的不足,是目前AI尚難直接應用於臨床決策的關鍵限制。