Vendre son visage pour entraîner l'IA, mais devenir victime de deepfake, la sombre vérité de l'industrie grise de l'IA dans le monde.

AI灰色產業

Une enquête approfondie du Guardian britannique révèle une industrie grise mondiale en pleine expansion : des milliers de personnes ordinaires en provenance d’Afrique du Sud, d’Inde et des États-Unis échangent leur voix, leur visage, des vidéos de leur démarche et des enregistrements d’appels privés contre des frais de formation en IA. Étant donné que la demande des entreprises d’IA pour des données humaines de haute qualité dépasse désormais l’offre disponible sur le web public, des plateformes de collecte payantes comme Kled AI, Silencio et Neon Mobile ont vu le jour.

Deux cas réels : qui se vend et pourquoi

Cette ruée mondiale vers les données AI est particulièrement directe dans les pays en développement.

Jacobus Louw, un jeune homme de 27 ans de Cape Town, en Afrique du Sud, a effectué une tâche de « navigation urbaine » sur Kled AI, échangeant une vidéo de marche contre 14 dollars, soit environ 10 fois le salaire minimum local. Il admet être conscient du coût de la vie privée, mais en raison d’une maladie neurologique de longue date, il ne peut pas travailler et a accumulé 500 dollars en vendant des vidéos quotidiennes pour s’inscrire à un cours de formation de masseur. « En tant qu’Afrique du Sud, recevoir des dollars vaut plus que ce que les gens imaginent », dit Louw.

Sahil Tigga, un étudiant de 22 ans à Ranchi, en Inde, vend des enregistrements de bruit ambiant via Silencio pour un revenu mensuel de plus de 100 dollars ; Ramelio Hill, un apprenti soudeur de 18 ans à Chicago, aux États-Unis, vend environ 11 heures d’enregistrements d’appels privés à Neon Mobile pour 0,50 dollar par minute, gagnant environ 200 dollars. Sa logique est simple et directe : les entreprises technologiques détiennent déjà une grande quantité de ses données personnelles, autant qu’il en tire également un bénéfice.

Comment la pénurie de données AI a donné naissance à cette industrie grise

Les améliorations des IA génératives comme ChatGPT et Gemini dépendent d’une masse de données humaines de haute qualité, mais des jeux de données ouverts mainstream comme C4, RefinedWeb et Dolma ont commencé à restreindre l’utilisation commerciale. Les chercheurs estiment que les entreprises d’IA pourraient épuiser les textes frais et de haute qualité d’ici 2026. Retraiter les données synthétiques générées par l’IA pour la formation a été prouvé comme entraînant des modèles produisant une « boue » pleine d’erreurs et provoquant des effondrements, augmentant encore la rareté des données humaines réelles.

Les plateformes de collecte payantes qui en résultent ont formé un nouvel écosystème de travail numérique couvrant le monde :

Kled AI : acquisition de photos et vidéos quotidiennes par tâche

Silencio : collecte de sons environnementaux par crowdsourcing, réglée en tokens cryptographiques

Neon Mobile : acquisition de dialogues et d’enregistrements d’appels à 0,50 dollar par minute

Luel AI (soutenu par Y Combinator) : collecte de dialogues multilingues à environ 0,15 dollar par minute

ElevenLabs : permet aux utilisateurs de cloner numériquement leur voix, taux de base de 0,02 dollar par minute

Bouke Klein Teeselink, professeur d’économie au King’s College de Londres, souligne que le travail de formation en IA est une nouvelle catégorie d’emploi émergente qui va croître considérablement. Les entreprises d’IA paient activement pour la collecte afin d’éviter les conflits de droits d’auteur qui pourraient découler d’une dépendance totale à l’exploration web.

Deepfake et autorisations irrévocables : le coût réel de l’industrie grise

Les risques juridiques de ces plateformes sont presque inconnus des utilisateurs. Enrico Bonadio, professeur de droit à l’Université St George de Londres, indique que les accords de licence confèrent généralement aux plateformes des droits « mondiaux, exclusifs, irrévocables, transférables et sans redevance », leur permettant de vendre, d’afficher, de stocker et de créer des œuvres dérivées, tandis que les fournisseurs ont presque aucun moyen de retirer leur consentement ou de renégocier.

L’expérience de l’acteur new-yorkais Adam Coy est l’un des cas les plus représentatifs. Il a cédé son image à un logiciel de montage vidéo AI, Captions, pour 1 000 dollars, l’accord stipulant clairement qu’il ne devait pas être utilisé pour la propagande politique ou le contenu pornographique, pour une durée d’un an. Peu après, un ami a découvert sur Instagram une vidéo avec des millions de vues dans laquelle « il » se présente comme un « médecin des vagins », promouvant des suppléments médicaux non vérifiés pour les femmes enceintes. « La section des commentaires était étrange, car ils commentaient mon apparence, mais ce n’était pas moi », dit Coy. Depuis, il n’a plus accepté aucun travail de données AI.

Mark Graham, professeur à l’Université d’Oxford, conclut que ce travail est structurellement « instable, sans possibilités d’avancement, et c’est en réalité une impasse », les seuls gagnants à long terme étant « les plateformes de l’hémisphère nord qui captent toute la valeur durable ».

Questions Fréquemment Posées

Qu’est-ce que l’industrie grise de la formation en IA et pourquoi est-elle qualifiée de “grise” ?

L’industrie grise de la formation en IA désigne une série de plateformes de collecte payantes qui achètent des voix, des visages, des vidéos et des enregistrements d’appels en rémunérant des utilisateurs ordinaires, pour la formation de modèles IA. Elle est qualifiée de « grise » car les transactions semblent légales, mais l’utilisation finale des données est opaque, les conditions de licence sont extrêmement asymétriques, et il existe des risques potentiels d’abus, tels que l’utilisation pour des deepfakes, naviguant entre la conformité et l’exploitation.

Quels risques juridiques spécifiques les fournisseurs encourent-ils en vendant des données personnelles pour former des IA ?

Les fournisseurs cèdent souvent des droits d’utilisation irrévocables des données biométriques à la plateforme sans comprendre pleinement les conditions. Jennifer King, chercheuse à l’Université de Stanford, souligne que les consommateurs font face au risque que les données soient réutilisées « d’une manière qu’ils n’apprécient pas, ne comprennent pas ou n’avaient pas anticipée, et à ce moment-là, il y a presque aucun recours ». L’incident de faille de sécurité de Neon Mobile a déjà prouvé que, suite à une fuite de données, la plateforme pourrait même ne pas informer les utilisateurs concernés.

Quel lien existe-t-il entre cette industrie grise et l’écosystème des cryptomonnaies ?

Certaines plateformes de formation en IA (comme Silencio) rémunèrent en tokens cryptographiques, utilisant des paiements décentralisés pour réduire les seuils de réception transfrontalière, permettant ainsi aux utilisateurs des pays en développement de recevoir directement des revenus sous forme de stablecoins ou de tokens natifs. Cela fait du marché des données AI une branche importante des applications réelles des cryptomonnaies, tout en soulevant des considérations multiples en matière d’évaluation de tokens, de liquidité et d’éthique des données.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire