Новости Gate News, 25 марта. Обновление рейтинга SWE-rebench было опубликовано 23 марта его создателем Ибрагимом. SWE-rebench — это ежемесячный реальный бенчмарк, который извлекает новые задачи из GitHub, и модели не могут заранее оптимизировать ответы под конкретные задания. В этом обновлении отменены предыдущие демонстрационные примеры и ограничение в 80 шагов, добавлены вспомогательные оценочные задачи.
Последняя топ-10 рейтинга: 1. Claude Opus 4.6 (65,3%); 2. GPT-5.2 medium (64,4%); 3. GLM-5 (62,8%); 4. GPT-5.4 medium (62,8%); 5. Gemini 3.1 Pro Preview (62,3%); 6. DeepSeek-V3.2 (60,9%); 7. Claude Sonnet 4.6 (60,7%); 8. Claude Sonnet 4.5 (60,0%); 9. Qwen3.5-397B-A17B (59,9%); 10. Step-3.5-Flash (59,6%).
Открытая модель GLM-5 от Zhipu AI (лицензия MIT) занимает третье место с результатом 62,8%, являясь самой высокой среди открытых моделей. В топ-10 вошли четыре модели из Китая: кроме GLM-5, также DeepSeek-V3.2 (шестое место), Qwen3.5-397B-A17B от Alibaba (девятое) и Step-3.5-Flash (десятое). Руководитель глобального направления Z.ai Ли Цзсянсюань отметил, что при предыдущем обновлении SWE-rebench все китайские модели оказались за пределами топ-10.