Les pionniers de l’apprentissage profond, Yoshua Bengio, l’auteur de manuels d’IA Stuart Russell, l’ambassadeur sans portefeuille de Taïwan, Audrey Tang, et 25 autres chercheurs de premier plan ont co-signé un article, expliquant de manière systématique les 7 grands modes de menace que l’IA pose aux systèmes démocratiques et sociaux. L’argument central est que même si chaque modèle est parfaitement « aligné » sur les valeurs humaines, l’effet de taille de l’IA finira par détruire de l’intérieur le fonctionnement de la gouvernance démocratique.
(Contexte : lorsque même je ne peux prouver que je ne suis pas une IA, un expert en identification suggère : établissez un code secret avec vos amis et votre famille.)
(Contexte supplémentaire : Anthropic a lancé un tableau de bord des impacts de l’IA : saisissez votre profession et découvrez en quelques secondes combien votre travail risque d’être remplacé par l’IA.)
Table des matières
Toggle
Le titre de cet article publié le 25 mars est « L’IA pose des risques pour les systèmes démocratiques et sociaux », et l’équipe d’auteurs est très impressionnante. En plus de Yoshua Bengio, lauréat du prix Turing 2018, Stuart Russell de l’Université de Californie à Berkeley, Bernhard Schölkopf de l’Institut Max Planck, il y a aussi Audrey Tang de l’Institut d’éthique de l’IA d’Oxford, ainsi que des chercheurs de renom de l’Université de Toronto, de l’ETH Zurich, de l’Université du Michigan, etc.
L’angle d’approche de cet article est différent de la plupart des recherches sur la sécurité de l’IA, car les recherches sur la sécurité de l’IA actuellement dominantes se concentrent sur des problèmes au « niveau du modèle », tels que les hallucinations, les sorties toxiques, les comportements de refus, ou encore des scénarios plus extrêmes comme l’apocalypse de l’IA.
Cependant, cet article souligne qu’une grande catégorie de risques a été négligée, à savoir les dommages « au niveau systémique » que le déploiement massif de l’IA peut causer aux institutions sociales et à la gouvernance démocratique.
Un modèle produisant un contenu toxique peut être traité par des techniques d’alignement ; mais un million de soumissions conformes, polies et totalement conformes aux politiques peuvent suffire à paralyser la capacité des agences gouvernementales à traiter l’opinion publique, ce qui dépasse les problèmes que l’alignement peut résoudre.
Nous allons légèrement expliquer cet article, qui décompose les menaces de l’IA sur la gouvernance en 7 modes de défaillance (T1 à T7), le long d’une « boucle de rétroaction de gouvernance ». Nous pouvons comprendre que la société humaine envoie habituellement des signaux d’entrée au système (expression politique) → le système traite ces signaux (débat public) → le système renvoie les décisions à la société (législation), mais l’IA pourrait constituer un facteur de rupture à chaque étape.
À l’extrémité de la « croyance publique », il y a deux menaces.
Homogénéisation des croyances (T1) : c’est lorsque la majorité des gens utilisent des modèles entraînés similaires pour penser et écrire, la diversité des discours publics sera comprimée, car les méthodes de post-formation telles que RLHF systématiquement répriment la diversité d’opinion dans les sorties des modèles.
Renforcement des croyances (T2) : les assistants IA personnalisés vont flatter les opinions existantes des utilisateurs, la fonction de mémoire à long terme permet à cette flatterie de s’accumuler, formant une boucle d’auto-confirmation. Les données citées dans l’étude montrent que lorsque GPT-4 obtient des données démographiques sociales de l’utilisateur, la probabilité de persuader l’utilisateur d’accepter ses arguments augmente de plus de 80%.
À l’extrémité du « traitement institutionnel », il y a deux risques :
Engorgement bureaucratique (T3) : l’IA permet à quiconque de générer un grand volume d’opinions publiques uniques et apparemment raisonnables à un coût proche de zéro, paralysant la capacité de traitement des institutions.
Inondation cognitive (T4) : le coût de production de contenu crédible est désormais bien inférieur au coût de vérification et de correction, l’écosystème de l’information est submergé.
À l’extrémité de la « responsabilité institutionnelle », Autorité non révisable (T5) : l’opacité des décisions de l’IA, l’ampleur et les obstacles d’accès écrasent les mécanismes de surveillance existants.
Centralisation des normes (T6) : lorsque le gouvernement acquiert des modèles IA avancés, les valeurs des développeurs sont également transférées dans les infrastructures publiques, ce qui équivaut à transférer le pouvoir normatif d’agents élus à un nombre restreint de développeurs.
Enfin, Concentration du pouvoir (T7) traverse tous les aspects.
L’IA remplace simultanément le travail humain et la participation dans les domaines économique, idéologique, politique et militaire, affaiblissant les atouts que les citoyens utilisent pour contrebalancer le système.
Historiquement, la concentration du pouvoir dans un domaine est généralement équilibrée par des forces de contrepoids dans d’autres domaines, mais la particularité de l’IA est qu’elle peut affaiblir simultanément les leviers citoyens dans tous les domaines.
Audrey Tang a contribué plusieurs passages clés à l’article, affirmant qu’au lieu de se défendre passivement contre les chocs institutionnels causés par l’IA, il vaut mieux redessiner fondamentalement la structure de la gouvernance participative.
Pour faire face à l’engorgement bureaucratique (T3), Audrey Tang propose une « plateforme de délibération structurée » comme alternative. Ces plateformes utilisent des techniques de réduction de dimension pour agréger les opinions publiques, permettant ainsi l’émergence d’un consensus, au lieu de laisser les voix les plus fortes dominer. Parce que les participants votent sur les déclarations existantes plutôt que de soumettre librement des textes, le système récompense structurellement l’agrégation des positions plutôt que les discours divisifs, et est plus résistant aux attaques par inondation de contenu synthétique que les systèmes de commentaires ouverts.
Avec un système de tirage au sort (un groupe de citoyens choisis au hasard), la vérification d’identité se fait par « sélection » plutôt que par « auto-nomination », rendant la substitution massive structurellement difficile.
Pour faire face à l’inondation cognitive (T4), Audrey Tang cite un exemple pratique : la stratégie « L’humour bat la rumeur » durant la pandémie de COVID-19 à Taïwan, où les agences gouvernementales produisaient du contenu vérifié en quelques minutes après avoir identifié de fausses informations, rivalisant avec les fausses informations en termes de rapidité et de transmissibilité, plutôt que de se contenter de les supprimer.
Pour faire face à la centralisation des normes (T6), Audrey Tang souligne que la recherche émergente sur l’« IA constitutionnelle collective » a prouvé que, grâce à un processus délibératif, un échantillon représentatif du public peut rédiger une constitution pour l’IA, le modèle produit ayant des performances de sécurité comparables tout en manifestant moins de biais que les lignes de base conçues par les développeurs.
L’essentiel est que ce processus devrait être fédéral, différentes gouvernances peuvent raisonnablement arriver à des priorités normatives différentes, une seule constitution ne devrait pas exclure cette variabilité.
L’exemple le plus concret dans l’article apparaît dans la recommandation R7 (investir dans les infrastructures de gouvernance délibérative pour l’IA).
En 2024, les publicités Deepfake prétendant représenter des personnalités publiques se sont répandues massivement sur les réseaux sociaux, le ministère des Affaires numériques de Taïwan a convoqué 447 citoyens tirés au sort pour discuter en ligne dans 44 salles de délibération virtuelles, le moteur de dialogue de l’IA a synthétisé leurs propositions le même jour. Ce congrès citoyen a focalisé son attention sur « la régulation des acteurs et des actions », y compris la responsabilité conjointe des plateformes pour les publicités Deepfake non autorisées, l’obligation d’étiqueter les publicités non signées, et le ralentissement des services non conformes, plutôt que de passer par une ligne de censure de contenu.
Le projet de loi interdisant ces publicités a reçu un soutien bipartisan et a entraîné une baisse de 94 % des publicités usurpatrices en un an.
L’article propose 7 recommandations pour répondre aux risques centraux :
L’article répond également directement à deux objections courantes. La première objection est de croire que « la société s’adaptera d’elle-même à l’IA », mais l’article souligne que l’IA concentre les rentes économiques tout en érodant les capacités politiques et organisationnelles sur lesquelles repose l’auto-correction des institutions, la vitesse d’accumulation des dommages pourrait surpasser celle de l’adaptation.
La deuxième objection est de penser que « l’alignement de l’IA sur la société suffira », l’article convient que l’alignement est nécessaire, mais souligne que certains modes de défaillance (comme les attaques par congestion à coût asymétrique, ou l’affaiblissement des leviers citoyens dû au remplacement du travail) se produiront aussi dans le cas d’un alignement parfait des modèles.
La conclusion de l’article mentionne que la résilience institutionnelle n’a pas besoin d’être construite à partir de zéro, les initiatives de technologie citoyenne actuelles ont déjà prouvé que la délibération structurée et la gouvernance participative peuvent fonctionner à l’échelle nationale, mais l’adaptation de ces outils à la gouvernance de l’IA reste un défi de recherche encore très ouvert.