Le cadre d'optimisation automatique par IA place les performances du terminal Haiku 4.5 en tête : Lin Junyang affirme que c'est précisément le tournant de « la conception de l'environnement » qu'il avait prévu.

BlockBeatNews

D’après le suivi de 1M AI News, des chercheurs de Stanford, du MIT et de l’entreprise de jeux sud-coréenne KRAFTON ont publié Meta-Harness, une méthode permettant à l’IA d’optimiser automatiquement un cadre d’exécution (harness, c’est-à-dire un « échafaudage » qui enveloppe le modèle et pilote les actions de l’Agent, incluant la conception des prompts, l’appel d’outils et la gestion du contexte). Contrairement aux cadres d’exécution écrits à la main, Meta-Harness permet à un Agent de codage de lire le code, les journaux d’exécution et les scores de plusieurs cadres candidats, puis d’itérer automatiquement pour les améliorer.

Sur le banc d’essai d’exécution en terminal TerminalBench-2, Meta-Harness porte le taux de réussite de Claude Haiku 4.5 à 37,6 %, dépassant Goose (35,5 %) et Claude Code (27,5 %), et se classe au premier rang parmi tous les cadres d’exécution Haiku 4.5 rapportés. Sur Claude Opus 4.6, le taux de réussite atteint 76,4 %, et se classe deuxième.

Le responsable technique de Qwen, Lin Junyang, a relayé le billet des auteurs de l’article et commenté : « “Modèle + cadre d’exécution” a désormais dépassé “on ne regarde que le modèle”. Les performances de l’Agent seront nettement influencées par la conception et la qualité du cadre. Je pense vraiment que c’est une direction correcte ». Dans un long billet (désormais supprimé) publié le 27 mars, Lin Junyang avait déjà anticipé que la conception de l’environnement passerait d’un sous-projet à une véritable catégorie de produit pour startup. Meta-Harness confirme ce jugement par des données expérimentales : avec le même modèle, changer pour un cadre d’exécution optimisé par l’IA peut créer un écart de résultats allant jusqu’à 10 points de pourcentage.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire