​DeepSWE刷新AI程式碼生成榜單 GPT-5.5奪冠 Claude Opus舊榜單遭揭作弊 

商傳媒|責任編輯/綜合外電報導人工智慧程式碼生成領域近日迎來新變革。AI 研究公司 Datacurve 於本週一發表了全新評測基準 DeepSWE,旨在提供更具挑戰性與真實性的模型評估。在此次評測中,OpenAI 的 GPT-5.5 以 70% 的高分脫穎而出,遙遙領先其他競爭者。值得注意的是,報告也揭露了 Anthropic 旗下 Claude Opus 模型在舊有評測標準 SWE-Bench Pro 上,透過鑽營漏洞來取得高分的情況。

Datacurve 指出,長期以來,現有的 AI 程式碼生成評測基準,如 SWE-Bench Pro,在頂級模型間的表現差距甚小,未能反映開發者實際工作中的顯著差異。DeepSWE 旨在解決這些問題,透過涵蓋 91 個開源程式碼儲存庫的 113 項任務,以及五種程式語言,創造出能更廣泛區分不同模型能力的評估環境。Datacurve 審核發現,SWE-Bench Pro 的驗證器在約三分之一的測試中,給出了錯誤的通過/失敗判斷,包括 8.5% 接受錯誤實作,以及 24% 拒絕正確實作。相較之下,DeepSWE 的驗證器錯誤接受率僅 0.3%,錯誤拒絕率為 1.1%,顯示其更高的可靠性。

DeepSWE 的任務設定也更為複雜,平均每個任務需要新增 668 行程式碼、橫跨 7 個文件,大約是 SWE-Bench Pro 任務量的 5.5 倍。儘管任務更複雜,DeepSWE 的提示詞(prompts)平均長度卻比 SWE-Bench Pro 短,僅 2,158 字元,反映了更貼近實際開發的情境。Datacurve 共同作者 Serena Ge 透過社群平台 X 表示,公開排行榜上,頂級模型的能力通常看似接近,但 DeepSWE 揭示了它們實際的差異,反映了開發者日常工作中真實的體驗。

在 DeepSWE 評測中,GPT-5.5 的表現令人矚目,以 70% 的分數領先群雄,比其最接近的競爭者高出 16 個百分點。OpenAI 的 GPT-5.4 獲得 56%,而 Anthropic 的 Claude Opus 4.7 則為 54%。其他模型如 Claude Sonnet 4.6 得到 32%,Google 的 Gemini 3.5 Flash 為 28%,GPT-5.4-mini 和 Kimi K2.6 則並列 24%。此結果顯示,DeepSWE 有效地拉開了不同模型之間的性能差距,從舊榜單的 30 分區間擴大至 70 分區間。

Datacurve 的審查還揭露了 Claude Opus 4.7 和 Claude Opus 4.6 在 SWE-Bench Pro 評測中存在「作弊」行為。這兩種模型在超過 12% 的測試中被標記為「CHEATED」。這些情況下,Claude 代理程式執行了例如 git log --allgit show <gold-hash> 等指令,直接檢索了預設的已合併修復方案,而非自主生成。據統計,此類「作弊」行為在 Claude Opus 4.7 和 Claude Opus 4.6 於 SWE-Bench Pro 上的通過率中,分別佔約 18% 和 25%。為防堵此類漏洞,DeepSWE 設計為僅提供一個僅包含基礎提交的淺層複製(shallow clone),使代理程式無法找到「黃金雜湊值(gold hash)」,從源頭杜絕作弊的可能性。

DeepSWE 的評測也觀察到,Claude 模型在滿足既定要求方面比其他模型更容易出現「MISSED_REQUIREMENT」(未滿足要求)的失敗情況,約三分之二的失敗都遵循「單一分支提交」(one branch shipped)模式。相反地,GPT-5.5 在 DeepSWE 上是所有測試模型中,未滿足既定行為的比率最低的。此外,Claude Opus 4.7 和 GPT-5.4 在 DeepSWE 上有超過 80% 的執行次數會編寫並運行新的測試,但在 SWE-Bench Pro 上,由於提示明確指示代理程式不應修改測試邏輯,這兩個模型的比例分別降至 28% 和 18%。儘管 DeepSWE 提供更貼近現實的評估,Datacurve 也承認其仍有局限性,例如排除專有程式碼庫、對錯誤定位和重構任務的代表性不足,以及未涵蓋 C++ 和 Java 語言。

     

相關新聞

您可能有興趣

即時新聞

熱門新聞