​AI模型難應付複雜醫療情境 美新基準測驗逾七成流程失敗 

商傳媒|方承業/綜合外電報導美國AI公司actAVA.ai於週三發布全球首個針對人工智慧(AI)代理在醫療領域長程應用所設計的基準測試CHI-Bench,結果顯示,來自Anthropic、OpenAI及谷歌(Google)等主要業者所開發的頂尖AI模型,在美國實際醫療工作流程中,有高達72%的機率無法順利完成任務。

CHI-Bench基準測試涵蓋75個醫療工作流程及30個前沿AI代理,每個測試案例模擬4至6個臨床階段,包含60至80個步驟,並透過超過200種醫療協調流程(MCP)工具和一份厚達1,279頁的操作手冊,模擬真實的醫療環境。研究發現,表現最佳的AI代理,在三個相同案例重複測試時,通過率仍未超過20%;在耐久性測試中,即使是最佳系統也僅完成不到4%的案例,顯示其穩定性與可靠性仍面臨嚴峻挑戰。特別是在一個AI提交預先授權申請、另一個AI擔任審核者的端對端情境下,所有任務均未能成功通過。

actAVA.ai首席人工智慧長Weiran Yao指出,過往的醫療AI基準測試多聚焦於狹窄的臨床知識,例如回答醫學考試問題或從單一文件提取資訊,然而真實世界的醫療操作,需要AI代理能跨部門、跨角色、多步驟地長時間處理複雜流程。舉例而言,一個用藥審查案例可能需要AI閱讀醫師臨床筆記、應用保險公司特定醫療政策、查詢藥物資料庫、生成符合規範的決定書,並將結果傳送至正確的後續團隊,且所有環節皆須在無人介入下完成。

CHI-Bench的共同作者Haolin Chen表示,這些工作流程漫長、涉及多重角色且受政策約束,AI代理必須像入院櫃檯人員、護理審查員和醫療主任般,在六十多個步驟中扮演不同角色,其中任何一個環節出錯都可能導致一連串的失敗。Weiran Yao強調:「我們需要知道AI代理能否在沒有錯誤的情況下,端對端地完成一個真實案例,CHI-Bench就是為此而建。」這項基準測試獲得約翰·霍普金斯大學、Wellstar、耶魯大學、史丹佛大學、卡內基美隆大學、牛津大學、南加州大學及聖地牙哥加利福尼亞大學等20多個機構的合作支持,並已在GitHub上開源發布,接受社群提交的結果。

這項研究結果對台灣推動醫療人工智慧的發展具有重要參考價值。台灣醫療體系在導入AI應用時,應借鏡美國經驗,除應加強針對多步驟、跨部門複雜流程的AI模型進行嚴謹的效能與可靠性驗證外,亦需投入資源開發符合在地法規與實務需求的評測標準,確保人工智慧工具的導入能真正提升醫療品質,而非帶來額外風險。

     

相關新聞

您可能有興趣

即時新聞

熱門新聞