Classement SWE-rebench le plus récent : les modèles d'IA chinois occupent les 14 premières places, GLM-5 classé troisième

Gate News, le 25 mars, le mainteneur du benchmark SWE-rebench, Ibragim, a publié la mise à jour du classement le 23 mars. SWE-rebench est un benchmark en temps réel qui extrait chaque mois de nouvelles tâches d’ingénierie logicielle depuis GitHub, et le modèle ne peut pas être optimisé à l’avance pour ces tâches. Cette mise à jour a supprimé les démonstrations d’exemples précédentes ainsi que la limite de 80 étapes d’opération, et a ajouté de nouvelles tâches d’évaluation assistée.

Le top dix actuel : 1. Claude Opus 4.6 (65,3 %) ; 2. GPT-5.2 medium (64,4 %) ; 3. GLM-5 (62,8 %) ; 4. GPT-5.4 medium (62,8 %) ; 5. Gemini 3.1 Pro Preview (62,3 %) ; 6. DeepSeek-V3.2 (60,9 %) ; 7. Claude Sonnet 4.6 (60,7 %) ; 8. Claude Sonnet 4.5 (60,0 %) ; 9. Qwen3.5-397B-A17B (59,9 %) ; 10. Step-3.5-Flash (59,6 %).

Parmi les modèles open source de Zhipu AI, le modèle GLM-5 (licence MIT) se classe troisième avec 62,8 %, ce qui en fait le modèle open source le mieux classé. Quatre modèles chinois figurent dans le top dix, en plus de GLM-5 : DeepSeek-V3.2 (sixième), Qwen3.5-397B-A17B (neuvième), et Step-3.5-Flash (dixième). Li Zixuan, responsable mondial de Z.ai, a déclaré qu’à la dernière mise à jour de SWE-rebench, tous les modèles chinois étaient hors du top dix.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire