微軟研究：頂尖AI模型自動改寫文件平均損毀25%內容且錯誤難察

2026-05-14 20:23

商傳媒｜何映辰／台北報導微軟研究人員近期透過一項新研究示警，當前領先的大型人工智慧模型（LLMs）在處理文件時，會「靜默」地引入錯誤並改寫內容，導致高達四分之一的文件資訊遭到損毀。這項發現對日益普及的AI自主代理（AI agents）應用，投下嚴峻挑戰。

該研究團隊開發了「DELEGATE-52」基準測試，旨在模擬涵蓋金融會計、軟體工程、晶體學及音樂符號等多達52個專業領域的多步驟自主工作流程。這項測試透過「往返接力模擬」方法，自動測量文件內容在長時間、連續20次互動中劣化的程度，免除了昂貴的人工審查需求。基準測試共包含310個工作環境，每個環境採用2,000至5,000個符號的真實文本作為起始文件，並要求模型執行5到10項複雜的編輯任務。為提高真實性，測試還在每個任務情境中引入8,000至12,000個符號的無關干擾文件。

研究人員針對來自OpenAI、Anthropic、Google、Mistral和xAI等19個不同大型語言模型進行測試。結果顯示，經過20次連續編輯互動的模擬後，所有模型的平均文件內容劣化高達50%。即使是表現最佳的頂尖模型，例如Google的Gemini 3.1 Pro、Anthropic的Claude 4.6 Opus，以及OpenAI的GPT 5.4，也平均損毀了25%的文件內容。在52個專業領域中，Python程式語言領域是唯一多數模型能達到98%或更高「準備就緒」分數的項目。

微軟資深研究員菲利普·拉班（Philippe Laban）指出，大型語言模型在處理文件時，若無法編寫有效的程式來精準操作檔案，便會退而求其次，透過重新讀取與改寫整個文件。他表示，這種方式不僅效率低下，也更容易出錯。研究發現，高達80%的內容劣化來自於「大規模嚴重故障」，即模型在單次互動中會突然遺失至少10%的文件內容。雖然頂尖模型能延遲這類災難性故障的發生，卻未能更好地避免小型錯誤。更令人擔憂的是，賦予模型「代理工具」（如程式碼執行和檔案讀寫權限），反而會讓內容劣化程度平均增加6%。此外，文件越大或工作區增加更多干擾文件，內容劣化也會越嚴重。

菲利普·拉班強調，業界對於檢索增強生成（RAG）管線的評估，應該透過多步驟工作流程而非單一檢索基準來進行，以避免低估不精確檢索所帶來的損害。他建議，人工智慧應用應圍繞「短暫、透明」的任務來建構，而非仰賴複雜的「長程代理」。對於希望安全部署自主代理的組織，DELEGATE-52方法提供了一套實際的測試藍圖。儘管GPT系列模型在18個月內，從不到20%的得分進步到約70%，顯示技術進展迅速，但拉班提醒，企業環境遠比此基準測試更為複雜。他表示，組織仍需持續投入客製化、領域專屬的工具，以確保自主代理的可靠性。

前一篇新聞

技職奇蹟在投高！南投高中建築展雙喜臨門　傑出校友張正岳推「早苗計畫」育才　校友會理事長徐孟榆頒獎祝賀繁星100%全上國立頂大

下一篇新聞

AI 篩選內容影響紀錄片敘事製片人籲掌握工具主導權

微軟研究：頂尖AI模型自動改寫文件平均損毀25%內容且錯誤難察

相關新聞

芬蘭新量子演算法突破材料模擬瓶頸數秒解逾兩億位點準晶體結構

WFNS攜手Time Medical Ventures 推動神經外科創新醫材發展

台灣電影七部登陸大陸院線上映光影感受華語電影共鳴

華友鈷業深化非洲鋰礦佈局美資礦商轉售權益撤出

瓊斯法案豁免兩月揭示過度監管經濟代價

4 月美國創投強勁成長總額破 200 億美元 AI 與硬體技術成新寵

您可能有興趣

芬蘭新量子演算法突破材料模擬瓶頸數秒解逾兩億位點準晶體結構

WFNS攜手Time Medical Ventures 推動神經外科創新醫材發展

台灣電影七部登陸大陸院線上映光影感受華語電影共鳴

華友鈷業深化非洲鋰礦佈局美資礦商轉售權益撤出

瓊斯法案豁免兩月揭示過度監管經濟代價

4 月美國創投強勁成長總額破 200 億美元 AI 與硬體技術成新寵

即時新聞

芬蘭新量子演算法突破材料模擬瓶頸數秒解逾兩億位點準晶體結構

WFNS攜手Time Medical Ventures 推動神經外科創新醫材發展

台灣電影七部登陸大陸院線上映光影感受華語電影共鳴

華友鈷業深化非洲鋰礦佈局美資礦商轉售權益撤出

瓊斯法案豁免兩月揭示過度監管經濟代價

熱門新聞

加熱菸審查疑被技術性卡關　陳瑩要國建署公開會議內容遭拒

張耀元公開人生書單　閱讀成為度過低谷的心靈力量

LifeWear再進化！UNIQLO打造春夏百搭衣櫥

MODEL GAYDAR力挺同志遊行！《初戀》重磅回歸彩虹市集預感引爆搶購熱潮

鳳凰颱風影響桃園各醫院門診時段異動一次看

關於我們

投稿須知

隱私權保護政策

您可能錯過的好新聞

「蕭亞軒牛配王彩樺餅乾」脆上夯話題魔性撞臉梗帶動相關商品大熱銷

寶吉祥集團仁欽多吉仁波切受邀「公益臺北愛心平台感恩會」長期低調行善不遺餘力　獲臺北市長蔣萬安親頒感謝狀

「洗完像髮根燙」網友推爆！屈臣氏熱賣蓬鬆洗髮掀搶購潮

​微軟研究：頂尖AI模型自動改寫文件 平均損毀25%內容且錯誤難察

📚 你可能會感興趣的文章

相關新聞

您可能有興趣

即時新聞

熱門新聞

.tdi_113{margin-top:10px!important} body .tdi_114{text-align:left}body .tdi_114:after{margin-left:0;margin-right:auto}.tdi_114{font-size:18px!important;line-height:1.2!important;font-weight:600!important}.tdi_114:after{width:100%;height:2px;margin-top:4px}投稿須知

.tdi_116{margin-top:10px!important;margin-bottom:10px!important} body .tdi_117{text-align:left}.tdi_117{font-size:18px!important;line-height:1.2!important;font-weight:600!important}隱私權保護政策

.tdi_124{margin-top:10px!important} body .tdi_125{text-align:left}body .tdi_125:after{margin-left:0;margin-right:auto}.tdi_125{font-size:18px!important;line-height:1.2!important;font-weight:600!important}.tdi_125:after{width:100%;height:2px;margin-top:4px}您可能錯過的好新聞

微軟研究：頂尖AI模型自動改寫文件平均損毀25%內容且錯誤難察

投稿須知

隱私權保護政策

您可能錯過的好新聞