美國醫學期刊研究顯示AI早期診斷錯誤率逾80%

圖片來源:

JAMA Network Open

美國醫學期刊JAMA Network Open於本週發布的研究指出，現成大型語言模型（Large Language Models, LLMs）在臨床推理中仍存在明顯限制，特別是在早期的鑑別診斷階段，錯誤率普遍超過80%。

JAMA Network Open為美國醫學會（American Medical Association，AMA）旗下的開放取用醫學期刊，採同儕審查機制，在醫學界具一定權威性。不過，本次研究屬於以標準化病例模擬（clinical vignettes）進行的橫斷式評估，主要用於測試AI模型在臨床推理流程中的表現，並非基於真實病患的臨床試驗結果，仍需進一步實證驗證其在實際醫療場景中的適用性。

該研究評估21款主流大型語言模型，包括GPT-5、Claude 4.5 Opus、Gemini 3系列與Grok 4，透過29個標準化臨床案例，模擬醫療決策流程，涵蓋鑑別診斷、檢查選擇、最終診斷、治療管理，以及其他臨床推理等五個階段。

結果顯示，各模型整體表現仍有差距，但在不同診療階段呈現明顯不均。研究發現，AI在「最終診斷」與「治療管理」的準確率相對較高，而「檢查選擇」與其他臨床推理則居中，但在最早期的「鑑別診斷」表現最差，錯誤率普遍超過80%，成為各模型共同的弱點。

進一步分析指出，AI較擅長在資訊已較完整的情況下給出答案，但在資訊不足、需要逐步推理的早期階段，容易過早收斂至單一結論。相較之下，臨床醫師通常會在初期保留多種可能性，並隨著檢查與資料累積逐步修正判斷。研究認為，這種在不確定情境下推理能力的不足，是目前AI尚難直接應用於臨床決策的關鍵限制。

美國醫學期刊研究顯示AI早期診斷錯誤率逾80%

相關文章

從「零信任網路」到「雙零安全」

Google推Gemini Enterprise Agent Platform，Vertex AI服務整併至新企業AI代理平臺

AI趨勢周報第288期：Google Cloud 喊出代理型企業元年

Checkmarx供應鏈攻擊事故擴大，密碼管理解決方案公司Bitwarden證實NPM套件遭駭