Há 15 anos que você tem treinado IA para o Google — só que você nunca soube

PANews

Cada vez que clica em “Reconhecer semáforo” ou “Selecionar todas as passadeiras”, pensa que está apenas a provar que não é um robô. Mas na realidade, está a marcar dados de treino gratuitamente para o sistema de IA do Google. Esta prática dura há mais de 15 anos, envolvendo centenas de milhões de utilizadores em todo o mundo, e acabou por construir a capacidade de reconhecimento visual do Google Maps, assim como a empresa de condução autónoma Waymo, avaliada em 45 mil milhões de dólares. Durante todo este processo, ninguém lhe pediu autorização, ninguém lhe revelou a verdade, e ninguém lhe pagou um cêntimo.

@sharbel

编译:大钳子 | PANews 龙虾 50 mil horas de trabalho manual gratuito. Todos os dias. Contribuído por aqueles que pensam que só estão a fazer login na conta bancária.

reCAPTCHA é uma das maiores operações de recolha de dados invisíveis na história da internet. No auge, 200 milhões de pessoas completavam a sua verificação diariamente. Quase ninguém sabe realmente o que está a construir.

Waymo — a empresa de veículos autónomos do Google — avaliada em 45 mil milhões de dólares, obtém uma parte significativa dos seus dados de treino de si. Gratuito. De cada site que visita.

Aqui está toda a história.

Ponto de partida: uma ideia inteligente

Em 2000, os bots de spam estavam a destruir a internet. Fóruns eram inundados por spam, caixas de correio sobrecarregadas. Os sites precisavam urgentemente de uma forma de distinguir humanos de máquinas.

O professor Louis von Ahn, da Carnegie Mellon, resolveu o problema. Inventou o CAPTCHA: um texto distorcido que só humanos conseguem ler. Os bots não passam, os humanos sim.

Mas Ahn viu mais possibilidades. Milhões de pessoas gastam energia cognitiva nestas verificações. E se essa energia pudesse ser usada para fazer duas coisas ao mesmo tempo?

Em 2007, lançou o reCAPTCHA. A sua genialidade estava no facto de mostrar não um código aleatório, mas duas palavras. Uma delas já conhecida, a outra proveniente de livros digitalizados que os computadores ainda não conseguiam reconhecer. A sua resposta ajudava a digitalizar esses livros.

Estes livros vêm do arquivo do The New York Times e do Google Books — envolvendo até 130 milhões de volumes.

Você pensa que está a fazer login, mas na verdade está a ajudar a digitalizar a maior biblioteca digital do mundo com OCR (Reconhecimento Óptico de Caracteres).

Em 2009, o Google adquiriu o reCAPTCHA.

图像

O Google mudou as regras do jogo

A era do texto distorcido terminou por volta de 2012.

O Google enfrentou um novo desafio. Os carros de Street View estavam a fotografar todas as estradas do planeta, mas as fotos eram apenas dados brutos. Para que a IA fosse realmente útil, precisava de entender o que “via”: sinais de trânsito, passadeiras, semáforos, letreiros.

Assim, o Google redesenhou o reCAPTCHA v2. A verificação passou a ser uma grade de imagens: “Clique em todas as caixas que contêm semáforos.” “Selecione todas as passadeiras.” “Identifique os letreiros.”

Estas imagens vêm diretamente do Street View do Google.

E cada clique seu é uma marcação. Cada seleção ensina ao modelo de visão computacional do Google: este pixel é um semáforo, esta forma é uma passadeira.

Você não está a fazer um teste, está a construir um conjunto de dados.

图像

Escala que ninguém fala

No auge, 200 milhões de reCAPTCHA eram completados por dia.

Cada verificação leva cerca de 10 segundos, o que equivale a 2 bilhões de segundos de trabalho manual por dia — ou seja, 500 mil horas diárias.

O mercado de marcação de dados profissionais cobra entre 10 e 50 dólares por hora. Com o valor mínimo, isso equivale a um valor de trabalho gratuito de até 5 milhões de dólares por dia.

E o reCAPTCHA não está limitado a uma aplicação. Está presente em todos os bancos, portais governamentais, plataformas de e-commerce, páginas de login na internet. Você não tem escolha. Quer aceder à sua conta? Precisa de marcar dados primeiro.

O Google nunca pediu a sua opinião, nunca pagou por isso, e nem sequer lhe contou a verdade.

图像

O que tudo isto constrói

Estes dados são enviados diretamente para dois produtos.

Google Maps. A ferramenta de navegação mais usada no mundo. A sua capacidade de ler sinais, localizar negócios, entender a geografia das cidades, baseia-se em bilhões de marcações feitas por pessoas que tentaram fazer login em sites.

E também a Waymo.

A Waymo, projeto de veículos autónomos do Google, tornou-se uma subsidiária independente em 2016. Para navegar com segurança, os veículos autónomos precisam de reconhecer quase perfeitamente milhares de padrões visuais: semáforos, passadeiras, peões, sinais de estacionamento.

Os dados de treino reais necessários para esses reconhecimentos? São marcados por milhões de pessoas através do reCAPTCHA — sem que elas saibam.

Em 2024, a Waymo completou mais de 4 milhões de viagens pagas, operando atualmente em São Francisco, Los Angeles e Phoenix, e continua a expandir-se. Avaliada em 45 mil milhões de dólares.

E a base de tudo é construída por aqueles que só querem enviar e receber emails — utilizadores da internet que nunca assinaram um contrato.

Por que ninguém consegue copiar tudo isto

O custo de marcação de dados é elevado. Empresas como Scale AI, Appen, Labelbox existem precisamente para resolver esse problema. Contratam dezenas de milhares de trabalhadores para marcar imagens, muitas vezes por menos de um dólar por hora.

O Google resolveu de uma forma completamente diferente: tornou a marcação obrigatória. Sem pagamento, sem consentimento, como uma “taxa de entrada” para aceder a cada site na internet.

Resultado: bilhões de imagens marcadas, cobrindo o mundo inteiro, com diferentes condições climáticas, em todos os momentos do dia, em todas as cidades do planeta.

Nenhuma empresa de marcação consegue fazer isso. A própria internet é a fábrica, e cada utilizador é um trabalhador sem contrato.

图像

O que ainda fazes hoje

O reCAPTCHA v3, lançado em 2018, não apresenta qualquer desafio de verificação. Ele observa a forma como move o rato, como rola a página, quanto tempo fica a passar o cursor. A sua impressão digital comportamental diz-lhe se é humano.

Estes dados comportamentais também são enviados ao sistema de IA do Google.

Nunca optou por participar, nunca houve uma caixa de seleção para marcar. E, na maioria dos sites que visita hoje, continua a fazer exatamente isso.

Uma ironia que todos deviam refletir

A ideia original de Louis von Ahn foi genial: redirecionar a energia cognitiva que as pessoas gastam a filtrar spam para uma tarefa valiosa — digitalizar livros do mundo, resolvendo um problema real.

Mas a forma como o Google usa essa ideia é outra história.

Eles pegaram num mecanismo de segurança que os utilizadores não têm escolha senão usar, e implantaram-no em toda a internet, colhendo os frutos e construindo produtos comerciais valiosos em dezenas de bilhões de dólares.

Os utilizadores não recebem nada, nem sequer têm conhecimento do que está a acontecer.

A maior ironia é: você passou anos a provar que é humano — fazendo trabalhos de reconhecimento visual que a IA da altura nem conseguia fazer. E, quando a IA aprendeu a fazer essa tarefa, a marcação visual humana tornou-se redundante.

Você provou que é humano, ao mesmo tempo que se tornou substituível.

Fonte: Carnegie Mellon University, blog do Google (2009), WebProNews, MakeUseOf, MIT Technology Review, documentos públicos da Waymo.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário