
商傳媒|何映辰/台北報導微軟研究人員近期透過一項新研究示警,當前領先的大型人工智慧模型(LLMs)在處理文件時,會「靜默」地引入錯誤並改寫內容,導致高達四分之一的文件資訊遭到損毀。這項發現對日益普及的AI自主代理(AI agents)應用,投下嚴峻挑戰。
該研究團隊開發了「DELEGATE-52」基準測試,旨在模擬涵蓋金融會計、軟體工程、晶體學及音樂符號等多達52個專業領域的多步驟自主工作流程。這項測試透過「往返接力模擬」方法,自動測量文件內容在長時間、連續20次互動中劣化的程度,免除了昂貴的人工審查需求。基準測試共包含310個工作環境,每個環境採用2,000至5,000個符號的真實文本作為起始文件,並要求模型執行5到10項複雜的編輯任務。為提高真實性,測試還在每個任務情境中引入8,000至12,000個符號的無關干擾文件。
研究人員針對來自OpenAI、Anthropic、Google、Mistral和xAI等19個不同大型語言模型進行測試。結果顯示,經過20次連續編輯互動的模擬後,所有模型的平均文件內容劣化高達50%。即使是表現最佳的頂尖模型,例如Google的Gemini 3.1 Pro、Anthropic的Claude 4.6 Opus,以及OpenAI的GPT 5.4,也平均損毀了25%的文件內容。在52個專業領域中,Python程式語言領域是唯一多數模型能達到98%或更高「準備就緒」分數的項目。
微軟資深研究員菲利普·拉班(Philippe Laban)指出,大型語言模型在處理文件時,若無法編寫有效的程式來精準操作檔案,便會退而求其次,透過重新讀取與改寫整個文件。他表示,這種方式不僅效率低下,也更容易出錯。研究發現,高達80%的內容劣化來自於「大規模嚴重故障」,即模型在單次互動中會突然遺失至少10%的文件內容。雖然頂尖模型能延遲這類災難性故障的發生,卻未能更好地避免小型錯誤。更令人擔憂的是,賦予模型「代理工具」(如程式碼執行和檔案讀寫權限),反而會讓內容劣化程度平均增加6%。此外,文件越大或工作區增加更多干擾文件,內容劣化也會越嚴重。
菲利普·拉班強調,業界對於檢索增強生成(RAG)管線的評估,應該透過多步驟工作流程而非單一檢索基準來進行,以避免低估不精確檢索所帶來的損害。他建議,人工智慧應用應圍繞「短暫、透明」的任務來建構,而非仰賴複雜的「長程代理」。對於希望安全部署自主代理的組織,DELEGATE-52方法提供了一套實際的測試藍圖。儘管GPT系列模型在18個月內,從不到20%的得分進步到約70%,顯示技術進展迅速,但拉班提醒,企業環境遠比此基準測試更為複雜。他表示,組織仍需持續投入客製化、領域專屬的工具,以確保自主代理的可靠性。


