SWE-rebench 最新榜單：中國 AI 模型佔前十四席，GLM-5 排名第三

GateNews

2026-03-25 05:55:32

Gate News 消息，3 月 25 日，SWE-rebench 基準測試維護者 Ibragim 于 3 月 23 日公布榜單更新。SWE-rebench 是一個每月從 GitHub 抽取全新軟體工程任務的即時基準測試，模型無法提前針對題目優化。本次更新取消了此前的範例演示和 80 步操作限制，新增輔助評估任務。

最新前十排名：1. Claude Opus 4.6（65.3%）；2. GPT-5.2 medium（64.4%）；3. GLM-5（62.8%）；4. GPT-5.4 medium（62.8%）；5. Gemini 3.1 Pro Preview（62.3%）；6. DeepSeek-V3.2（60.9%）；7. Claude Sonnet 4.6（60.7%）；8. Claude Sonnet 4.5（60.0%）；9. Qwen3.5-397B-A17B（59.9%）；10. Step-3.5-Flash（59.6%）。

智譜 AI 的開源模型 GLM-5（MIT 協議）以 62.8% 排名第三，是榜上最高的開源模型。中國模型佔前十中四席，除 GLM-5 外，還有深度求索 DeepSeek-V3.2（第六）、阿里通義千問 Qwen3.5-397B-A17B（第九）以及階躍星辰 Step-3.5-Flash（第十）。智譜 Z.ai 全球負責人李子玄表示，上一次 SWE-rebench 更新時中國模型全部落在前十之外。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言