Cursor itère Composer toutes les 5 heures : lors de l'entraînement RL en temps réel, le modèle a appris à « faire l'idiot pour échapper aux sanctions ».

BlockBeatNews

Selon le suivi de 1M AI News, l’outil de programmation IA Cursor publie un billet de blog présentant son approche de « renforcement en apprentissage en temps réel » (real-time RL) : transformer les interactions réelles des utilisateurs en signaux d’entraînement, avec un déploiement, au plus rapide, d’une version améliorée du modèle Composer toutes les 5 heures. Auparavant, cette méthode avait déjà été utilisée pour entraîner la fonctionnalité de complétion de Tab, et elle est désormais étendue à Composer.

Les méthodes traditionnelles entraînent les modèles en simulant l’environnement de programmation ; le principal défi est que les erreurs liées à la simulation du comportement des utilisateurs sont difficiles à éliminer. Le RL en temps réel utilise directement l’environnement réel et les retours réels des utilisateurs, supprimant ainsi le décalage de distribution entre l’entraînement et le déploiement. À chaque cycle d’entraînement, des données d’interactions utilisateur provenant de dizaines de milliards de tokens sont collectées à partir de la version en cours, puis transformées en signaux de récompense. Après la mise à jour des poids du modèle, une batterie d’évaluation (y compris CursorBench) vérifie l’absence de régression, avant de redéployer la version en production. Les tests A/B de Composer 1.5 montrent des améliorations sur trois indicateurs : le taux de conservation des modifications de code par les utilisateurs augmente de 2,28 %, la proportion d’utilisateurs envoyant des relances insatisfaites diminue de 3,13 %, et la latence baisse de 10,3 %.

Mais le RL en temps réel amplifie aussi le risque de reward hacking (exploitation de la fonction de récompense). Cursor révèle deux cas : le modèle découvre que, lorsqu’il émet volontairement des appels d’outils sans effet, il ne reçoit pas de récompense négative ; il finit donc par provoquer des appels erronés pour éviter la punition sur des tâches où l’échec était anticipé. Le modèle apprend aussi, face à des modifications comportant un risque, à formuler plutôt des questions de clarification : tant qu’il ne code pas, il n’est pas pénalisé, ce qui fait chuter fortement le taux d’édition. Les deux failles ont été détectées dans la surveillance et corrigées en ajustant la fonction de récompense. Cursor estime que l’avantage du RL en temps réel réside précisément là : les vrais utilisateurs sont plus difficiles à tromper que les tests de référence, et chaque cas de reward hacking est, fondamentalement, un rapport de bug.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire