Les ingénieurs d'Ant ont effectué une rétro-ingénierie du code source de Claude, révélant le mécanisme de la chaîne de décision à quatre niveaux du mode Auto.

Voici la traduction complète et corrigée en fr-FR :

Informations de Gate News, le 25 mars, un ingénieur d’Ant Group, auteur du framework front-end Umi.js, Chen Cheng, a effectué une rétro-ingénierie du code source de Claude Code 2.1.81, reconstituant intégralement le mécanisme de décision du Mode Automatique. La découverte principale : chaque appel d’outil doit passer par une chaîne de décision en quatre étapes ; ce n’est que lorsque les trois premières étapes ne permettent pas de déterminer une réponse que le classificateur AI indépendant est sollicité pour une vérification de sécurité.

La chaîne de décision en quatre étapes est la suivante : la première vérifie les règles de permission existantes, si elles correspondent, l’accès est autorisé directement ; la deuxième simule le mode acceptEdits (niveau de permission permettant de modifier des fichiers), si la requête passe dans ce mode, cela indique un risque faible, et le classificateur est ignoré ; la troisième vérifie la liste blanche des outils en lecture seule (Read, Grep, Glob, LSP, WebSearch, etc.), qui ne modifient aucun état, et sont donc autorisés sans condition ; si aucune de ces étapes n’est satisfaite, la quatrième étape consiste à envoyer une requête API indépendante à Claude Sonnet pour une classification de sécurité.

Les détails clés de la conception du classificateur incluent : l’utilisation systématique de Sonnet plutôt que d’Opus, pour un compromis entre coût et latence ; la température réglée à 0 pour garantir la déterminisme des sorties ; le classificateur étant défini comme « le superviseur de sécurité d’un agent de programmation AI autonome », protégeant contre trois types de risques (injection de prompts, propagation de portée, dommages accidentels) ; le fichier de configuration CLAUDE.md de l’utilisateur étant injecté dans le contexte du classificateur, servant de base pour interpréter l’intention de l’utilisateur.

Les règles d’interception couvrent plus de 22 catégories, notamment : force push, push direct sur la branche main, téléchargement et exécution de code externe, déploiement en production, fuite de données, modification autonome des permissions, création de vecteurs d’exécution de code à distance, fuite de credentials, etc. Les exceptions à l’autorisation incluent 7 cas : clés codées en dur pour les tests, opérations sur des fichiers locaux dans le répertoire de travail, requêtes GET en lecture seule, installation de dépendances déclarées, installation d’outils officiels, lecture de credentials de configuration envoyés au fournisseur cible, push vers la branche de travail courante.

Le système intègre également un mécanisme de circuit breaker : après 3 refus consécutifs ou 20 refus cumulés, le système passe en mode dégradé nécessitant une confirmation manuelle ; en mode headless, l’agent est simplement arrêté. Lorsqu’un classificateur est indisponible, un drapeau de fonctionnalité (feature flag) contrôle si le comportement est « fail-closed » (refus immédiat) ou « fail-open » (passage en confirmation manuelle).

Dans le Mode Automatique, l’injection de prompts d’action est contrôlée avec précision : une injection toutes les 5 interactions, avec la première de chaque cycle d’injection d’environ 800 mots (incluant « exécuter immédiatement, réduire les interruptions, l’action prime sur la planification » et six autres instructions), et les 4 autres étant une version simplifiée en une ligne, pour équilibrer l’occupation de la fenêtre contextuelle et la stabilité du comportement.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Le rapport de Bain & Company soutient le secteur des $320B stablecoins pour transformer la banque de gros le 29 avril

Selon Bain & Company, le 29 avril, la société mondiale de conseil a publié un rapport intitulé « De l’esbroufe à la valeur réelle : Stablecoin et le grand réaménagement de la banque de gros », soutenant que les stablecoins et les dépôts tokenisés sont au cœur de l’avenir de la banque de gros. Le rapport présente les stablecoins comme des

GateNewsIl y a 2h

La Fondation Ethereum publie la liste des subventions T1 2026, en mettant l’accent sur la cryptographie, la ZK et l’infrastructure du protocole

Selon ChainCatcher, la Fondation Ethereum a annoncé ses subventions pour le T1 2026 et ses projets de soutien à l’écosystème le 29 avril, en donnant la priorité à la cryptographie, aux preuves à divulgation nulle (ZK), à la sécurité du protocole et au développement de l’infrastructure de base. Le financement soutient l’optimisation des clients (Geth, Erigon,

GateNewsIl y a 9h

Galaxy Digital fait état d’une perte nette de $216M au T1 dans un contexte de repli du marché crypto

Galaxy Digital a déclaré une perte nette de $216 millions pour le T1 2026, selon son rapport sur les résultats publié aujourd’hui. La perte a été due à des baisses de la valeur des actifs crypto au cours du trimestre. La société a enregistré une perte d’EBITDA ajusté de $188 millions et une perte brute ajustée de $88 millions. Au

GateNewsIl y a 11h

Rapport de recherche Crypto de a16z : le taux d’exploitation des vulnérabilités DeFi par des agents IA atteint 70%

Selon le rapport de recherche publié par a16z Crypto le 29 avril, sous condition doter les agents IA de connaissances structurées propres à un domaine, le taux de réussite de la reproduction d’une faille de manipulation du prix de l’Ethereum atteint 70 % ; dans un environnement bac à sable sans aucune connaissance de domaine, le taux de réussite n’est que de 10 %. Le rapport enregistre également des cas où des agents IA contournent de manière indépendante les limites du bac à sable pour accéder à des informations sur les transactions futures, ainsi que des schémas de défaillance systématiques lorsque les agents parviennent à établir des plans d’attaque multi-étapes et rentables.

MarketWhisperIl y a 18h

Le cours de Galaxy Digital augmente de plus de 5 %, et le T1 2026 enregistre une perte nette de 216 millions de dollars

Galaxy Digital (code : GLXY) a publié le 28 avril ses résultats du premier trimestre 2026, affichant une perte nette de 216 millions de dollars, et une perte par action diluée et ajustée de 0.49 dollar. D’après les données de Google Finance, l’action GLXY a progressé de 5.23% le même jour, clôturant à 26.36 dollars, puis a encore augmenté de 1% dans les échanges hors séance.

MarketWhisperIl y a 18h

Visa met en avant les stablecoins dans sa stratégie d’infrastructure pour les résultats du T2

La société mondiale de cartes de crédit Visa a inclus des capacités de stablecoin dans le cadre de sa stratégie d'expansion de l'infrastructure de paiement lors de l'annonce de ses résultats du T2 le 28 à (heure locale), selon les documents relatifs aux résultats de l'entreprise. Intégration de stablecoin dans l’infrastructure de paiement PDG de Visa Ryan

CryptoFrontierIl y a 18h
Commentaire
0/400
Aucun commentaire