Gate News 消息,3 月 25 日,SWE-rebench 基準測試維護者 Ibragim 于 3 月 23 日公布榜單更新。SWE-rebench 是一個每月從 GitHub 抽取全新軟體工程任務的即時基準測試,模型無法提前針對題目優化。本次更新取消了此前的範例演示和 80 步操作限制,新增輔助評估任務。
最新前十排名:1. Claude Opus 4.6(65.3%);2. GPT-5.2 medium(64.4%);3. GLM-5(62.8%);4. GPT-5.4 medium(62.8%);5. Gemini 3.1 Pro Preview(62.3%);6. DeepSeek-V3.2(60.9%);7. Claude Sonnet 4.6(60.7%);8. Claude Sonnet 4.5(60.0%);9. Qwen3.5-397B-A17B(59.9%);10. Step-3.5-Flash(59.6%)。
智譜 AI 的開源模型 GLM-5(MIT 協議)以 62.8% 排名第三,是榜上最高的開源模型。中國模型佔前十中四席,除 GLM-5 外,還有深度求索 DeepSeek-V3.2(第六)、阿里通義千問 Qwen3.5-397B-A17B(第九)以及階躍星辰 Step-3.5-Flash(第十)。智譜 Z.ai 全球負責人李子玄表示,上一次 SWE-rebench 更新時中國模型全部落在前十之外。