Neue graue Industrie: Tausende Menschen weltweit verkaufen gerade ihr eigenes Training für KI – aber was ist der Preis dafür?

CryptoCity

Tausende Menschen weltweit verkaufen ihre Stimmen, Gesichter und Telefonaufzeichnungen, um KI zu füttern und Einkommen zu erzielen, übernehmen jedoch die Risiken von Deepfakes und unwiderruflichen Lizenzen.

Shenchao Einleitung: Eine Untersuchung des britischen Guardian enthüllt eine schnell wachsende Grauwirtschaft: Tausende von Menschen weltweit verdienen Geld, indem sie ihre Stimmen, Gesichter, Telefonaufzeichnungen und Alltagsvideos verkaufen, um KI-Trainingskosten zu decken. Es handelt sich nicht um eine allgemeine Diskussion über Datenschutzstreitigkeiten, sondern um eine Untersuchung mit realen Personen, realen Beträgen und realen Konsequenzen – ein Schauspieler, der sein Gesicht verkauft hat, sah später auf Instagram „sich selbst“, der ein unbekanntes medizinisches Produkt bewirbt, während die Kommentarsektion über sein „Aussehen“ urteilt. Wenn die Datenhungrigkeit von KI-Unternehmen mit den globalen wirtschaftlichen Ungleichheiten zusammenfällt, entsteht ein ungleicher Handel.

Der gesamte Text lautet wie folgt:

An einem Morgen im vergangenen Jahr ging Jacobus Louw, der in Kapstadt, Südafrika, lebt, wie gewohnt spazieren und fütterte die Möwen auf dem Weg. Doch diesmal nahm er einige Videos auf – er filmte seine Schritte und seine Sicht auf dem Gehweg. Dieses Video brachte ihm 14 Dollar ein, etwa das Zehnfache des Mindestlohns im Land und entspricht den Lebenshaltungskosten dieses 27-jährigen jungen Mannes für ein halbes Woche.

Dies war eine „Stadt-Navigations“-Aufgabe, die Louw auf Kled AI abgeschlossen hat. Kled AI ist eine Anwendung, die Benutzer bezahlt, um Fotos, Videos und andere Daten hochzuladen, um KI-Modelle zu trainieren. In nur wenigen Wochen hat Louw durch das Hochladen von Fotos und Videos aus seinem Alltag 50 Dollar verdient.

Tausende Kilometer entfernt, in Ranchi, Indien, verdient der 22-jährige Student Sahil Tigga regelmäßig Geld mit Silencio – einer Anwendung, die Audio-Daten für das KI-Training crowdsourct und auf das Mikrofon seines Handys zugreift, um Umgebungsgeräusche in Restaurants oder an belebten Kreuzungen aufzuzeichnen. Er lädt auch Aufnahmen seiner eigenen Stimme hoch. Sahil geht gezielt zu einzigartigen Orten, wie zum Beispiel zu Hotel-Lobbys, die auf der Silencio-Karte noch nicht erfasst sind. Er verdient damit monatlich über 100 Dollar, genug, um seine gesamten Essensausgaben zu decken.

In Chicago hat der 18-jährige Schweißerlehrling Ramelio Hill seine privaten Handy-Chats mit Freunden und Familie an Neon Mobile verkauft – eine Plattform für dialogorientiertes KI-Training, die 0,50 Dollar pro Minute bezahlt – und hat damit Hunderte von Dollar verdient. Für Hill ist die Rechnung einfach: Er glaubt, dass Tech-Unternehmen ohnehin bereits viele seiner privaten Daten besitzen, also kann er auch davon profitieren.

Diese „KI-Trainingsjobs“ – das Hochladen von Umgebungsaufnahmen, eigenen Fotos, Videos und Audio – stehen an vorderster Front eines globalen neuen Datenrauschens. Angesichts des Verlangens des Silicon Valley nach hochwertigen menschlichen Daten, das über das hinausgeht, was aus dem offenen Web erfasst werden kann, ist ein florierender Datenmarkt entstanden, der diese Lücke schließt. Von Kapstadt bis Chicago geben Tausende ihre biometrische Identität und privaten Daten in Lizenz an die nächste Generation von KI.

Doch diese neue Gig-Economy kommt mit einem Preis. Die wenigen Dollar, die sie verdienen, sind der Treibstoff für eine Industrie, die möglicherweise letztendlich ihre Fähigkeiten obsolet macht, während sie sich gleichzeitig den zukünftigen Risiken von Deepfakes, Identitätsdiebstahl und digitaler Ausbeutung aussetzt – und sie beginnen gerade erst, dies zu verstehen.

Die Räder der KI am Laufen halten

KI-Sprachmodelle wie ChatGPT und Gemini benötigen riesige Mengen an Lernmaterial, um kontinuierlich verbessert zu werden, stehen jedoch vor einem Datenmangel. Die am häufigsten verwendeten Trainingsdatenquellen – C4, RefinedWeb und Dolma – nehmen ein Viertel der besten Datensätze im Internet ein und schränken heute die Verwendung ihrer Daten für das Training von Modellen durch generative KI-Unternehmen ein. Forscher schätzen, dass KI-Unternehmen möglicherweise bis 2026 die verfügbaren neuen hochwertigen Texte erschöpfen werden. Obwohl einige Labore bereits damit begonnen haben, synthetische Daten, die von KI selbst erzeugt werden, für das Training zu verwenden, führt dieser rekursive Prozess dazu, dass Modelle mit fehlerhaften „Müll“ überflutet werden, was zu einem Zusammenbruch führen kann.

Bildquelle: The Guardian

Anwendungen wie Kled AI und Silencio treten hier in Erscheinung. In diesen Datenmärkten verkaufen Millionen von Menschen ihre Identitätsdaten, um KI zu füttern und zu trainieren. Neben Kled AI, Silencio und Neon Mobile haben KI-Trainer viele andere Optionen: Luel AI, unterstützt von dem bekannten Inkubator Y-Combinator, erwirbt mehrsprachige Konversationsmaterialien für etwa 0,15 Dollar pro Minute; ElevenLabs ermöglicht es Ihnen, Ihre eigene Stimme digital zu klonen und anderen für einen Basispreis von 0,02 Dollar pro Minute zur Verfügung zu stellen.

Bouke Klein Teeselink, Professor für Wirtschaft an der King’s College London, erklärt, dass KI-Trainingsjobs eine aufstrebende Arbeitskategorie sind, die erheblich wachsen wird.

KI-Unternehmen wissen, dass die Zahlung von Lizenzgebühren für Daten dazu beiträgt, mögliche Urheberrechtsstreitigkeiten zu vermeiden, die aus einer vollständigen Abhängigkeit von Web-Crawling-Inhalten resultieren könnten, sagt Teeselink. Der KI-Forscher Veniamin Veselovsky erklärt, dass diese Unternehmen auch hochwertige Daten benötigen, um neue, verbesserte Verhaltensweisen für Systeme zu modellieren. „Derzeit ist menschliche Daten das Goldstandard, das außerhalb der Modellverteilung entnommen wird“, fügt Veselovsky hinzu.

Die Menschen, die diese Maschinen antreiben – insbesondere Menschen aus Entwicklungsländern – benötigen oft das Geld und haben kaum eine andere Wahl. Für viele KI-Trainingsjobs ist die Ausübung dieser Tätigkeit eine pragmatische Reaktion auf wirtschaftliche Ungleichheiten. In Ländern mit hoher Arbeitslosigkeit und abgewerteten Währungen ist es oft stabiler und rentabler, Dollar zu verdienen, als lokale Arbeit zu finden. Einige haben Schwierigkeiten, Einstiegsjobs zu finden, und müssen aus wirtschaftlichen Gründen KI-Training durchführen. Selbst in wohlhabenderen Ländern hat der Anstieg der Lebenshaltungskosten das Verkaufen des eigenen Körpers zu einer logischen finanziellen Wahl gemacht.

Der KI-Trainer Louw aus Kapstadt ist sich der Datenschutzkosten bewusst. Obwohl sein Einkommen unregelmäßig ist und nicht ausreicht, um seine gesamten monatlichen Ausgaben zu decken, ist er bereit, diese Bedingungen in Kauf zu nehmen, um Geld zu verdienen. Er hat jahrelang an einer neurologischen Erkrankung gelitten und konnte keinen Job finden, aber das Geld, das er auf dem KI-Datenmarkt (einschließlich Kled AI) verdient hat, hat ihm ermöglicht, 500 Dollar zu sparen, um sich für einen Ausbildungskurs im Bereich Wellness anzumelden und Masseur zu werden.

„Als Südafrikaner ist der Erhalt von Dollar wertvoller, als andere denken“, sagt Louw.

Mark Graham, Professor für Internetgeographie an der Universität Oxford und Autor von „Feeding the Machine“, gibt zu, dass dieses Geld für Einzelpersonen in Entwicklungsländern kurzfristig von praktischer Bedeutung sein kann, warnt jedoch: „Strukturell ist dieser Job instabil, hat keinen Aufstiegsmöglichkeiten und ist tatsächlich eine Sackgasse.“

Graham fügt hinzu, dass der KI-Datenmarkt auf „Wettbewerbsdruck auf Löhne“ und „vorübergehende Nachfrage nach menschlichen Daten“ angewiesen ist. Sobald diese Nachfrage abnimmt, „werden die Arbeiter keine Sicherheit haben, keine übertragbaren Fähigkeiten und kein Sicherheitsnetz“.

Graham erklärt, dass die einzigen Gewinner die „Plattformen auf der Nordhalbkugel sind, die den gesamten dauerhaften Wert erlangen“.

Bildquelle: The Guardian

Vollständig lizenziert

Der KI-Trainer Hill aus Chicago hat gemischte Gefühle dabei, seine privaten Handygespräche an Neon Mobile zu verkaufen. Rund 11 Stunden Gesprächsinhalt haben ihm 200 Dollar eingebracht, aber er sagt, die Anwendung sei oft offline und die Zahlungen verzögert. „Neon war für mich immer verdächtig, aber ich habe es trotzdem weiter genutzt, nur um ein bisschen mehr Taschengeld zu verdienen, um meine Rechnungen zu bezahlen“, sagt Hill.

Jetzt beginnt er, die Frage zu überdenken, ob das Geld wirklich so leicht zu verdienen ist. Im September letzten Jahres, nur wenige Wochen nach dem Start von Neon Mobile, wurde die Anwendung offline genommen, nachdem TechCrunch eine Sicherheitslücke entdeckt hatte, die es jedem ermöglichte, auf die Telefonnummern, Anrufaufzeichnungen und Textnachrichten der Benutzer zuzugreifen. Hill sagt, Neon Mobile habe ihn nie über diese Situation informiert, und jetzt befürchtet er, dass seine Stimme im Internet missbraucht werden könnte.

Jennifer King, Datenprivatsphäreforscherin am Stanford Institute for Human-Centered AI, äußert Bedenken, dass der KI-Datenmarkt nicht klar ist, wie die Benutzerdaten verwendet werden und wo sie verwendet werden. Sie fügt hinzu, dass Verbraucher, die sich ihrer Rechte nicht bewusst sind und nicht darüber verhandeln können, „dem Risiko ausgesetzt sind, dass ihre Daten auf Weise wiederverwendet werden, die sie nicht mögen, nicht verstehen oder nicht vorhersehen konnten, und dass sie dann kaum über irgendwelche Abhilfemaßnahmen verfügen“.

Wenn KI-Trainer ihre Daten auf Neon Mobile und Kled AI teilen, gewähren sie eine umfassende Lizenz (weltweit, exklusiv, unwiderruflich, übertragbar und gebührenfrei), die es der Plattform erlaubt, ihr Bild zu verkaufen, zu verwenden, öffentlich offenzulegen und zu speichern, sogar um abgeleitete Werke zu schaffen.

Avi Patel, Gründer von Kled AI, erklärt, dass die Datenvereinbarung seines Unternehmens die Verwendung auf KI-Training und Forschungszwecke beschränken wird. „Das gesamte Geschäftsmodell hängt vom Vertrauen der Nutzer ab. Wenn die Beitragsleistenden glauben, dass ihre Daten missbraucht werden könnten, kann die Plattform nicht betrieben werden.“ Er sagt, das Unternehmen überprüfe Käufer, bevor sie Datensätze verkaufen, um die Zusammenarbeit mit „verdächtigen“ Institutionen wie der Pornoindustrie und mit Regierungsbehörden zu vermeiden, von denen sie glauben, dass sie die Daten auf eine Weise verwenden könnten, die dieses Vertrauen untergräbt.

Neon Mobile hat nicht auf Anfragen um Stellungnahme reagiert.

Enrico Bonadio, Professor für Rechtswissenschaften an der City University of London, weist darauf hin, dass diese Vereinbarungen den Plattformen und ihren Kunden „nahezu alles mit dem Material ermöglichen, dauerhaft, ohne zusätzliche Zahlungen, und die Beitragsleistenden haben keine praktische Möglichkeit, ihre Zustimmung zurückzuziehen oder neu zu verhandeln“.

Noch besorgniserregender sind die Risiken, dass die Daten der Trainer verwendet werden, um Deepfakes und Identitätsbetrug zu erstellen. Obwohl der Datenmarkt behauptet, vor dem Verkauf Daten von Identifizierungsinformationen (wie Namen und Standorten) zu trennen, ist die biometrische Identifizierung von Natur aus schwierig, um substantielle Anonymisierung durchzuführen, fügt Bonadio hinzu.

Bedauern der Verkäufer

Selbst wenn KI-Trainer in der Lage sind, detailliertere Schutzmaßnahmen in Bezug auf die Datennutzung auszuhandeln, könnten sie dennoch bereuen. Im Jahr 2024 verkaufte der Schauspieler Adam Coy aus New York sein Bild für 1000 Dollar an Captions – eine KI-Videobearbeitungssoftware, die jetzt in Mirage umbenannt wurde. In seiner Vereinbarung wurde festgelegt, dass seine Identität nicht für politische Zwecke verwendet wird, nicht zur Werbung für Alkohol, Tabak oder pornografische Inhalte, und dass die Lizenzdauer ein Jahr beträgt.

Captions hat nicht auf Anfragen um Stellungnahme reagiert.

Bald darauf begannen Adams Freunde, Videos zu teilen, die sie online fanden, in denen sein Gesicht und seine Stimme verwendet wurden, mit Millionen von Aufrufen. In einem der Instagram-Videos bezeichnete sich Adams KI-Kopie als „Vaginarzt“ und bewirbt nicht bestätigte medizinische Ergänzungen für schwangere und nachgebärende Frauen.

„Es ist peinlich, das anderen zu erklären“, sagt Coy.

„Die Kommentarsektion ist seltsam, weil sie über mein Aussehen urteilen, aber das bin überhaupt nicht ich“, fügt Coy hinzu. „Als ich die Entscheidung traf, (mein Bild zu verkaufen), dachte ich, dass die meisten Modelle sowieso Daten und Bilder online crawlen, also warum nicht dafür bezahlt werden.“

Coy sagt, dass er seitdem keinen weiteren KI-Datenjob angenommen hat. Nur wenn ein Unternehmen signifikante Vergütung bietet, würde er in Betracht ziehen, wieder zu arbeiten.

  • Dieser Artikel wurde mit Genehmigung von: Shenchao TechFlow übernommen
  • Originaltitel: „Tausende Menschen verkaufen ihre Identitäten, um KI zu trainieren – aber zu welchem Preis?“
  • Originalautor: Shubham Agarwal, The Guardian
  • Übersetzung: Shenchao TechFlow
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare