AI模型難應付複雜醫療情境美新基準測驗逾七成流程失敗

2026-05-21 08:26

商傳媒｜方承業／綜合外電報導美國AI公司actAVA.ai於週三發布全球首個針對人工智慧（AI）代理在醫療領域長程應用所設計的基準測試CHI-Bench，結果顯示，來自Anthropic、OpenAI及谷歌（Google）等主要業者所開發的頂尖AI模型，在美國實際醫療工作流程中，有高達72%的機率無法順利完成任務。

CHI-Bench基準測試涵蓋75個醫療工作流程及30個前沿AI代理，每個測試案例模擬4至6個臨床階段，包含60至80個步驟，並透過超過200種醫療協調流程（MCP）工具和一份厚達1,279頁的操作手冊，模擬真實的醫療環境。研究發現，表現最佳的AI代理，在三個相同案例重複測試時，通過率仍未超過20%；在耐久性測試中，即使是最佳系統也僅完成不到4%的案例，顯示其穩定性與可靠性仍面臨嚴峻挑戰。特別是在一個AI提交預先授權申請、另一個AI擔任審核者的端對端情境下，所有任務均未能成功通過。

actAVA.ai首席人工智慧長Weiran Yao指出，過往的醫療AI基準測試多聚焦於狹窄的臨床知識，例如回答醫學考試問題或從單一文件提取資訊，然而真實世界的醫療操作，需要AI代理能跨部門、跨角色、多步驟地長時間處理複雜流程。舉例而言，一個用藥審查案例可能需要AI閱讀醫師臨床筆記、應用保險公司特定醫療政策、查詢藥物資料庫、生成符合規範的決定書，並將結果傳送至正確的後續團隊，且所有環節皆須在無人介入下完成。

CHI-Bench的共同作者Haolin Chen表示，這些工作流程漫長、涉及多重角色且受政策約束，AI代理必須像入院櫃檯人員、護理審查員和醫療主任般，在六十多個步驟中扮演不同角色，其中任何一個環節出錯都可能導致一連串的失敗。Weiran Yao強調：「我們需要知道AI代理能否在沒有錯誤的情況下，端對端地完成一個真實案例，CHI-Bench就是為此而建。」這項基準測試獲得約翰·霍普金斯大學、Wellstar、耶魯大學、史丹佛大學、卡內基美隆大學、牛津大學、南加州大學及聖地牙哥加利福尼亞大學等20多個機構的合作支持，並已在GitHub上開源發布，接受社群提交的結果。

這項研究結果對台灣推動醫療人工智慧的發展具有重要參考價值。台灣醫療體系在導入AI應用時，應借鏡美國經驗，除應加強針對多步驟、跨部門複雜流程的AI模型進行嚴謹的效能與可靠性驗證外，亦需投入資源開發符合在地法規與實務需求的評測標準，確保人工智慧工具的導入能真正提升醫療品質，而非帶來額外風險。

前一篇新聞

輝達財報前晶片股領漲美股大漲逾1% 台積電ADR躍進

下一篇新聞

摩根士丹利：數據驅動健康管理崛起穿戴與直面檢測前景看好

AI模型難應付複雜醫療情境美新基準測驗逾七成流程失敗

相關新聞

OpenAI傳本週提交上市申請估值上看兆美元掀波瀾

Google AI重塑搜尋與助理服務推出Gemini Spark及智慧型眼鏡

OwlTing集團將推AI訂房引擎旅遊交易邁向自動化

谷歌推出 Gemini AI 虛擬分身功能兩分鐘複製用戶聲形

糖尿病神經病變症狀有哪些？中醫談麻木、灼熱感與日常照護

Xbox 延攬資深分析師 Matthew Ball 掌策略長強化遊戲業務發展

您可能有興趣

OpenAI傳本週提交上市申請估值上看兆美元掀波瀾

Google AI重塑搜尋與助理服務推出Gemini Spark及智慧型眼鏡

OwlTing集團將推AI訂房引擎旅遊交易邁向自動化

谷歌推出 Gemini AI 虛擬分身功能兩分鐘複製用戶聲形

糖尿病神經病變症狀有哪些？中醫談麻木、灼熱感與日常照護

Xbox 延攬資深分析師 Matthew Ball 掌策略長強化遊戲業務發展

即時新聞

OpenAI傳本週提交上市申請估值上看兆美元掀波瀾

Google AI重塑搜尋與助理服務推出Gemini Spark及智慧型眼鏡

OwlTing集團將推AI訂房引擎旅遊交易邁向自動化

谷歌推出 Gemini AI 虛擬分身功能兩分鐘複製用戶聲形

糖尿病神經病變症狀有哪些？中醫談麻木、灼熱感與日常照護

熱門新聞

加熱菸審查疑被技術性卡關　陳瑩要國建署公開會議內容遭拒

張耀元公開人生書單　閱讀成為度過低谷的心靈力量

LifeWear再進化！UNIQLO打造春夏百搭衣櫥

鳳凰颱風影響桃園各醫院門診時段異動一次看

MODEL GAYDAR力挺同志遊行！《初戀》重磅回歸彩虹市集預感引爆搶購熱潮

關於我們

投稿須知

隱私權保護政策

您可能錯過的好新聞

「蕭亞軒牛配王彩樺餅乾」脆上夯話題魔性撞臉梗帶動相關商品大熱銷

寶吉祥集團仁欽多吉仁波切受邀「公益臺北愛心平台感恩會」長期低調行善不遺餘力　獲臺北市長蔣萬安親頒感謝狀

「洗完像髮根燙」網友推爆！屈臣氏熱賣蓬鬆洗髮掀搶購潮

​AI模型難應付複雜醫療情境 美新基準測驗逾七成流程失敗

📚 你可能會感興趣的文章

相關新聞

您可能有興趣

即時新聞

熱門新聞

.tdi_113{margin-top:10px!important} body .tdi_114{text-align:left}body .tdi_114:after{margin-left:0;margin-right:auto}.tdi_114{font-size:18px!important;line-height:1.2!important;font-weight:600!important}.tdi_114:after{width:100%;height:2px;margin-top:4px}投稿須知

.tdi_116{margin-top:10px!important;margin-bottom:10px!important} body .tdi_117{text-align:left}.tdi_117{font-size:18px!important;line-height:1.2!important;font-weight:600!important}隱私權保護政策

.tdi_124{margin-top:10px!important} body .tdi_125{text-align:left}body .tdi_125:after{margin-left:0;margin-right:auto}.tdi_125{font-size:18px!important;line-height:1.2!important;font-weight:600!important}.tdi_125:after{width:100%;height:2px;margin-top:4px}您可能錯過的好新聞

AI模型難應付複雜醫療情境美新基準測驗逾七成流程失敗

投稿須知

隱私權保護政策

您可能錯過的好新聞