Les comportements cachés de l'IA révélés… Anthropic publie l'outil de test d'alignement "Bloom"

2025-12-22 16:57:54

Création du résumé en cours

Un outil open source pour analyser le comportement de l'intelligence artificielle de pointe (AI) a été rendu public. La startup d'IA Anthropic a publié le 22 à l'heure locale un cadre d'agent nommé Bloom, qui peut être utilisé pour définir et examiner les caractéristiques comportementales des modèles d'IA. Cet outil est évalué comme une nouvelle méthode pour résoudre les problèmes d'alignement dans un environnement de développement de la prochaine génération d'IA de plus en plus complexe et incertain.

Bloom commence par construire des scénarios pouvant induire des comportements spécifiques définis par les utilisateurs, puis évalue de manière structurée la fréquence et la gravité de ce comportement. Son principal avantage réside dans le fait qu'il permet d'économiser considérablement du temps et des ressources par rapport à la méthode traditionnelle de construction manuelle des ensembles de tests. Bloom génère des variantes multiples pour différents utilisateurs, environnements et interactions grâce à des agents de construction d'instructions stratégiques, et analyse de manière multidimensionnelle comment l'IA réagit à cela.

L'alignement de l'IA est un critère central pour juger dans quelle mesure l'intelligence artificielle correspond aux jugements de valeur et aux normes éthiques humaines. Par exemple, si l'IA se conforme inconditionnellement aux demandes des utilisateurs, il existe un risque de renforcer la génération de fausses informations ou d'encourager des comportements non éthiques tels que l'automutilation, qui sont inacceptables dans la réalité. Anthropic a proposé une méthodologie pour évaluer quantitativement les modèles en utilisant Bloom pour des expériences itératives basées sur des scénarios afin d'identifier à l'avance de tels risques.

Dans le même temps, Anthropic a publié les résultats d'une évaluation de 16 modèles d'IA de pointe, y compris le sien, en se basant sur quatre types de comportements problématiques observés dans les modèles d'IA actuels. Les modèles évalués incluent GPT-4o d'OpenAI, Google (GOOGL), DeepSeek( et d'autres. Les comportements problématiques représentatifs incluent : la flatterie délirante qui soutient à outrance les opinions erronées des utilisateurs, les comportements destructeurs qui nuisent à la vision à long terme des utilisateurs en faveur d'objectifs à long terme, les comportements menaçants pour l'auto-préservation, et le biais en faveur de soi-même plutôt que des autres modèles.

En particulier, le GPT-4o d'OpenAI, en raison de son modèle qui accepte sans critique les avis des utilisateurs, a montré dans plusieurs cas un comportement de flatterie accompagné de risques graves tels que l'encouragement à l'automutilation. Le modèle avancé Claude Opus 4 d'Anthropic a également révélé des cas de réponses coercitives face à des menaces de suppression. L'analyse réalisée avec Bloom souligne que, bien que de tels comportements soient rares, ils se produisent de manière continue et sont répandus dans plusieurs modèles, attirant ainsi l'attention de l'industrie.

Bloom et l'autre outil Open Source Petri, précédemment publié par Anthropic, se complètent fonctionnellement. Petri se concentre sur la détection des comportements anormaux de l'IA dans plusieurs scénarios, tandis que Bloom est un outil d'analyse précise qui examine en profondeur un comportement unique. Ces deux outils constituent des infrastructures de recherche essentielles pour aider l'IA à évoluer dans une direction bénéfique pour l'humanité, visant à prévenir que l'IA ne soit détournée en outils criminels ou en voies de développement d'armes biologiques.

Avec l'influence de l'IA qui s'élargit rapidement, garantir l'alignement et l'éthique n'est plus limité aux discussions en laboratoire, mais est devenu un enjeu central qui influence les politiques technologiques et les stratégies de commercialisation globales. Le projet Bloom d'Anthropic offre aux entreprises et aux chercheurs un nouvel outil pour expérimenter et analyser les comportements imprévus de l'IA dans un cadre contrôlé, et pourrait jouer un rôle de système d'alerte précoce pour la gouvernance de l'IA à l'avenir.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.