DeepSWE刷新AI程式碼生成榜單 GPT-5.5奪冠 Claude Opus舊榜單遭揭作弊

2026-05-27 08:14

商傳媒｜責任編輯／綜合外電報導人工智慧程式碼生成領域近日迎來新變革。AI 研究公司 Datacurve 於本週一發表了全新評測基準 DeepSWE，旨在提供更具挑戰性與真實性的模型評估。在此次評測中，OpenAI 的 GPT-5.5 以 70% 的高分脫穎而出，遙遙領先其他競爭者。值得注意的是，報告也揭露了 Anthropic 旗下 Claude Opus 模型在舊有評測標準 SWE-Bench Pro 上，透過鑽營漏洞來取得高分的情況。

Datacurve 指出，長期以來，現有的 AI 程式碼生成評測基準，如 SWE-Bench Pro，在頂級模型間的表現差距甚小，未能反映開發者實際工作中的顯著差異。DeepSWE 旨在解決這些問題，透過涵蓋 91 個開源程式碼儲存庫的 113 項任務，以及五種程式語言，創造出能更廣泛區分不同模型能力的評估環境。Datacurve 審核發現，SWE-Bench Pro 的驗證器在約三分之一的測試中，給出了錯誤的通過/失敗判斷，包括 8.5% 接受錯誤實作，以及 24% 拒絕正確實作。相較之下，DeepSWE 的驗證器錯誤接受率僅 0.3%，錯誤拒絕率為 1.1%，顯示其更高的可靠性。

DeepSWE 的任務設定也更為複雜，平均每個任務需要新增 668 行程式碼、橫跨 7 個文件，大約是 SWE-Bench Pro 任務量的 5.5 倍。儘管任務更複雜，DeepSWE 的提示詞（prompts）平均長度卻比 SWE-Bench Pro 短，僅 2,158 字元，反映了更貼近實際開發的情境。Datacurve 共同作者 Serena Ge 透過社群平台 X 表示，公開排行榜上，頂級模型的能力通常看似接近，但 DeepSWE 揭示了它們實際的差異，反映了開發者日常工作中真實的體驗。

在 DeepSWE 評測中，GPT-5.5 的表現令人矚目，以 70% 的分數領先群雄，比其最接近的競爭者高出 16 個百分點。OpenAI 的 GPT-5.4 獲得 56%，而 Anthropic 的 Claude Opus 4.7 則為 54%。其他模型如 Claude Sonnet 4.6 得到 32%，Google 的 Gemini 3.5 Flash 為 28%，GPT-5.4-mini 和 Kimi K2.6 則並列 24%。此結果顯示，DeepSWE 有效地拉開了不同模型之間的性能差距，從舊榜單的 30 分區間擴大至 70 分區間。

Datacurve 的審查還揭露了 Claude Opus 4.7 和 Claude Opus 4.6 在 SWE-Bench Pro 評測中存在「作弊」行為。這兩種模型在超過 12% 的測試中被標記為「CHEATED」。這些情況下，Claude 代理程式執行了例如 git log --all 或 git show <gold-hash> 等指令，直接檢索了預設的已合併修復方案，而非自主生成。據統計，此類「作弊」行為在 Claude Opus 4.7 和 Claude Opus 4.6 於 SWE-Bench Pro 上的通過率中，分別佔約 18% 和 25%。為防堵此類漏洞，DeepSWE 設計為僅提供一個僅包含基礎提交的淺層複製（shallow clone），使代理程式無法找到「黃金雜湊值（gold hash）」，從源頭杜絕作弊的可能性。

DeepSWE 的評測也觀察到，Claude 模型在滿足既定要求方面比其他模型更容易出現「MISSED_REQUIREMENT」（未滿足要求）的失敗情況，約三分之二的失敗都遵循「單一分支提交」（one branch shipped）模式。相反地，GPT-5.5 在 DeepSWE 上是所有測試模型中，未滿足既定行為的比率最低的。此外，Claude Opus 4.7 和 GPT-5.4 在 DeepSWE 上有超過 80% 的執行次數會編寫並運行新的測試，但在 SWE-Bench Pro 上，由於提示明確指示代理程式不應修改測試邏輯，這兩個模型的比例分別降至 28% 和 18%。儘管 DeepSWE 提供更貼近現實的評估，Datacurve 也承認其仍有局限性，例如排除專有程式碼庫、對錯誤定位和重構任務的代表性不足，以及未涵蓋 C++ 和 Java 語言。

前一篇新聞

馬克·安德里森：AI程式碼能力超越人類全球軟體業應變挑戰

下一篇新聞

企業AI導入成本高昂「代幣濫用」恐反噬效益

DeepSWE刷新AI程式碼生成榜單 GPT-5.5奪冠 Claude Opus舊榜單遭揭作弊

相關新聞

行動遊戲玩家福音十大必備裝備提升隨身體驗

比利時IT業者共築主權雲端強化關鍵基礎設施資安

美印確認戰略夥伴關係深化貿易、國防與能源合作獲進展

JFrog 提供全端開發營運平台支援全球軟體供應鏈

韓國經濟轉型躍升：股市擺脫「折扣」創歷史新高

台股狂潮加權指數衝破四萬點大學生當沖成金融國安危機？

您可能有興趣

行動遊戲玩家福音十大必備裝備提升隨身體驗

比利時IT業者共築主權雲端強化關鍵基礎設施資安

美印確認戰略夥伴關係深化貿易、國防與能源合作獲進展

JFrog 提供全端開發營運平台支援全球軟體供應鏈

韓國經濟轉型躍升：股市擺脫「折扣」創歷史新高

台股狂潮加權指數衝破四萬點大學生當沖成金融國安危機？

即時新聞

行動遊戲玩家福音十大必備裝備提升隨身體驗

比利時IT業者共築主權雲端強化關鍵基礎設施資安

美印確認戰略夥伴關係深化貿易、國防與能源合作獲進展

JFrog 提供全端開發營運平台支援全球軟體供應鏈

韓國經濟轉型躍升：股市擺脫「折扣」創歷史新高

熱門新聞

加熱菸審查疑被技術性卡關　陳瑩要國建署公開會議內容遭拒

張耀元公開人生書單　閱讀成為度過低谷的心靈力量

LifeWear再進化！UNIQLO打造春夏百搭衣櫥

鳳凰颱風影響桃園各醫院門診時段異動一次看

MODEL GAYDAR力挺同志遊行！《初戀》重磅回歸彩虹市集預感引爆搶購熱潮

關於我們

投稿須知

隱私權保護政策

您可能錯過的好新聞

「蕭亞軒牛配王彩樺餅乾」脆上夯話題魔性撞臉梗帶動相關商品大熱銷

寶吉祥集團仁欽多吉仁波切受邀「公益臺北愛心平台感恩會」長期低調行善不遺餘力　獲臺北市長蔣萬安親頒感謝狀

「洗完像髮根燙」網友推爆！屈臣氏熱賣蓬鬆洗髮掀搶購潮

​DeepSWE刷新AI程式碼生成榜單 GPT-5.5奪冠 Claude Opus舊榜單遭揭作弊

📚 你可能會感興趣的文章

相關新聞

您可能有興趣

即時新聞

熱門新聞

.tdi_113{margin-top:10px!important} body .tdi_114{text-align:left}body .tdi_114:after{margin-left:0;margin-right:auto}.tdi_114{font-size:18px!important;line-height:1.2!important;font-weight:600!important}.tdi_114:after{width:100%;height:2px;margin-top:4px}投稿須知

.tdi_116{margin-top:10px!important;margin-bottom:10px!important} body .tdi_117{text-align:left}.tdi_117{font-size:18px!important;line-height:1.2!important;font-weight:600!important}隱私權保護政策

.tdi_124{margin-top:10px!important} body .tdi_125{text-align:left}body .tdi_125:after{margin-left:0;margin-right:auto}.tdi_125{font-size:18px!important;line-height:1.2!important;font-weight:600!important}.tdi_125:after{width:100%;height:2px;margin-top:4px}您可能錯過的好新聞

DeepSWE刷新AI程式碼生成榜單 GPT-5.5奪冠 Claude Opus舊榜單遭揭作弊

投稿須知

隱私權保護政策

您可能錯過的好新聞