Gate News Noticias, el 25 de marzo, el mantenedor de la prueba de referencia SWE-rebench, Ibragim, anunció la actualización de la lista el 23 de marzo. SWE-rebench es una prueba de referencia en tiempo real que extrae nuevas tareas de ingeniería de software de GitHub cada mes, y el modelo no puede optimizarse previamente para las tareas. En esta actualización se eliminaron las demostraciones de ejemplo y la restricción de 80 pasos, además de añadirse tareas de evaluación auxiliares.
Las diez mejores posiciones más recientes son: 1. Claude Opus 4.6 (65.3%); 2. GPT-5.2 medium (64.4%); 3. GLM-5 (62.8%); 4. GPT-5.4 medium (62.8%); 5. Gemini 3.1 Pro Preview (62.3%); 6. DeepSeek-V3.2 (60.9%); 7. Claude Sonnet 4.6 (60.7%); 8. Claude Sonnet 4.5 (60.0%); 9. Qwen3.5-397B-A17B (59.9%); 10. Step-3.5-Flash (59.6%).
El modelo de código abierto de Zhipu AI, GLM-5 (licencia MIT), ocupa el tercer lugar con un 62.8%, siendo el modelo de código abierto mejor clasificado en la lista. Cuatro modelos chinos están en el top ten, además de GLM-5, incluyendo DeepSeek-V3.2 (sexto), Qwen3.5-397B-A17B de Alibaba Tongyi Qianwen (noveno) y Step-3.5-Flash (décimo). Li Zixuan, responsable global de Z.ai de Zhipu AI, afirmó que en la última actualización de SWE-rebench, todos los modelos chinos estaban fuera del top ten.