semáforos, livros e o trabalho grátis por trás do teste

Uma das experiências mais frustrantes da internet é se submeter aos testes de CAPTCHA. O usuário está tentando entrar em um site, concluir um cadastro ou fazer uma compra, mas antes precisa provar que é humano.

E para provar que você, um humano, é um humano mesmo, é necessário clicar em quadrados, identificar objetos camuflados, selecionar imagens repetidas. Parece uma tarefa banal, mas quase sempre irrita.

As empresas justificam que é um dispositivo de segurança. No entanto, não explicam o motivo da escolha e a recorrência de determinadas figuras. Mas, há anos, sabe-se que esse esforço humano é usado também para treinar sistemas de inteligência artificial.

A maior parte dos usuários ignora,que o incômodo teste serviu para ajudar a digitalizar livros e jornais antigos, aproveitando as respostas dos usuários para decifrar palavras que os computadores não conseguiam ler sozinhos. Você trabalhou de graça, e nem soube.

Já a repetição insistente de semáforos, faixas e outros elementos urbanos passou a alimentar a suspeita de que esses testes também serviriam para treinar sistemas de inteligência artificial para carros autônomos. Hipótese que o Google desmente.

Como surgiu o CAPTCHA

O CAPTCHA nasceu no começo dos anos 2000 como resposta a um problema real da internet. Sites precisavam se proteger de programas automatizados, os chamados bots, que criavam contas em massa, invadiam formulários, fraudavam votações e espalhavam spam.

A ideia era criar um teste que uma pessoa comum conseguisse resolver com facilidade, mas que fosse difícil para um programa de computador. Em 2003, pesquisadores da Carnegie Mellon formalizaram esse conceito em um artigo científico que se tornou referência.

O nome CAPTCHA vem de uma sigla em inglês para algo como “teste público e automático para diferenciar computadores de humanos”. O projeto ficou fortemente associado ao pesquisador Luis von Ahn, em parceria com outros cientistas, entre eles Manuel Blum.

Uma ideia inovadora para seu tempo

Naquele contexto, o CAPTCHA foi uma inovação. A ferramenta ajudou a conter abusos em um momento em que a internet crescia rapidamente e ainda não tinha os filtros sofisticados de hoje. Resolver um teste visual era um preço relativamente baixo para evitar invasões automatizadas em larga escala.

O problema é que essa barreira de segurança também abriu espaço para outra possibilidade. Se milhões de pessoas já estavam dedicando alguns segundos para decifrar imagens ou palavras, por que não aproveitar esse esforço para fazer outro tipo de trabalho útil? Foi exatamente isso que aconteceu.

O salto para o reCAPTCHA

Em 2007, surgiu o reCAPTCHA, uma evolução do sistema original. A proposta mantinha a lógica de verificar se o usuário era humano, mas acrescentava um segundo objetivo: usar a inteligência humana para ajudar computadores a ler palavras que máquinas ainda não conseguiam reconhecer sozinhas.

Essas palavras vinham, em grande parte, de livros e jornais antigos digitalizados. Quando uma obra impressa era escaneada, programas de OCR, tecnologia de reconhecimento óptico de caracteres, tentavam converter aquelas imagens em texto pesquisável. Nem sempre dava certo.

As falhas eram comuns em materiais antigos, com manchas, fontes incomuns, papel degradado ou impressão ruim. Nesses casos, o sistema separava palavras que não conseguia identificar com segurança. E então entrava o usuário da internet.

Você trabalhou de graça e nem percebeu

O reCAPTCHA exibia, em geral, duas palavras. Uma delas já era conhecida pelo sistema. A outra era justamente a palavra duvidosa, retirada de um livro ou jornal que o computador não conseguira ler corretamente.

Se a pessoa acertasse a palavra de controle, o sistema ganhava confiança para considerar também a resposta dada à palavra desconhecida. Quando muitas pessoas diferentes davam a mesma resposta, o termo era validado.

Milhões de usuários passaram a ajudar a transcrever acervos inteiros sem receber nada por isso e, muitas vezes, sem saber o que estavam fazendo. O gesto que parecia um simples teste de segurança também servia para digitalizar bibliotecas.

Essa história foi descrita em artigo científico publicado em 2008 na revista Science. À época, os pesquisadores informaram que o sistema já ajudava a transcrever centenas de milhões de palavras e alcançava precisão superior a 99%.

O Google entra em cena

Em 2009, o Google comprou o reCAPTCHA. Ao anunciar a aquisição, a empresa deixou claro o interesse na tecnologia. Disse que o sistema ajudava a decifrar palavras de livros antigos e de jornais arquivados, colaborando com a digitalização de material impresso.

A compra consolidou uma mudança importante. O CAPTCHA deixava de ser apenas uma barreira contra bots e se transformava também em uma engrenagem de aproveitamento de trabalho humano distribuído em escala global.

O usuário continuava achando que só estava preenchendo uma exigência de segurança. Mas contribuía para um projeto tecnológico mais amplo, com utilidade comercial e operacional para uma das maiores empresas do mundo.

Do texto para as imagens

Com o avanço da inteligência artificial e da visão computacional, os desafios mudaram. As palavras distorcidas foram perdendo espaço. Em 2014, o Google lançou o chamado “No CAPTCHA reCAPTCHA”, o famoso quadrado com a frase “não sou um robô”.

A promessa era tornar a verificação mais simples. Em muitos casos, bastava um clique. Mas esse clique não era tão simples assim. O sistema já analisava uma série de sinais do comportamento do usuário, antes mesmo de decidir se seria necessário aplicar um desafio extra.

Quando ainda havia dúvida, entravam os testes com imagens. E é aí que aparecem os semáforos, ônibus, bicicletas, hidrantes e faixas de pedestre que tanta gente aprendeu a odiar.

De onde vem a suspeita sobre carros autônomos

A suspeita de que os testes com semáforos serviriam para treinar IA de direção autônoma ganhou força por um motivo simples. Semáforos, faixas e placas são exatamente o tipo de objeto que sistemas de condução precisam reconhecer com enorme precisão.

A insistência em semáforos chama atenção por uma razão óbvia. Eles são um excelente objeto de treinamento para máquinas. Estão por toda parte, mudam de cor, aparecem em ângulos diversos e sofrem interferência de sombra, chuva, reflexo, distância e luminosidade.

Para um ser humano, identificar um semáforo costuma ser uma tarefa simples. Para um sistema de visão computacional, isso exige milhares ou milhões de exemplos rotulados com precisão. O mesmo vale para placas, cones, faixas e outros elementos do trânsito.

Empresas de direção autônoma, como a Waymo, reconhecem que seus veículos precisam entender sinais de trânsito, cores de semáforos e objetos temporários na via. Isso ajuda a explicar por que essas imagens têm tanto valor estratégico para a inteligência artificial.

Criador sugere outros usos

Luis von Ahn, um dos nomes centrais na criação do CAPTCHA e do reCAPTCHA, já havia indicado em entrevistas que a lógica da ferramenta poderia ser usada para resolver outros problemas difíceis para computadores, como o reconhecimento de áudio e de imagens.

A Cloudflare, empresa conhecida na área de infraestrutura e segurança da internet, também abordou o tema ao explicar por que trocou o reCAPTCHA pelo hCaptcha. Em texto de 2020, afirmou que o Google oferecia o serviço em troca de dados usados para treinar algoritmos de reconhecimento visual.

Outro registro relevante aparece em documentos ligados ao W3C, consórcio internacional de padrões da web. Em discussões sobre acessibilidade, o reCAPTCHA foi descrito como uma ferramenta que aproveita o tempo do usuário para rotular imagens, melhorar mapas e resolver problemas difíceis de IA.

O que o Google admite

Um ponto importante dessa história está em um texto publicado pelo Google em 2014. A empresa explicou que tecnologias do Street View e do reCAPTCHA estavam sendo usadas em conjunto para melhorar a localização de endereços no Google Maps.

Segundo o próprio Google, o sistema ajudava a identificar números de casas e estabelecimentos a partir de imagens do Street View. A meta era relacionar melhor o que aparecia nas fachadas com os endereços registrados no mapa.

Isso não é uma admissão de que usuários estavam treinando carros autônomos. Mas mostra, com clareza, que o reCAPTCHA já estava integrado a tarefas de visão computacional aplicadas ao espaço urbano.

O que o Google nega

Ao mesmo tempo, o Google não confirma publicamente que o reCAPTCHA com semáforos exista para treinar IA de carros autônomos. A empresa sustenta que a ferramenta tem foco em segurança, prevenção a fraudes e identificação de comportamento suspeito.

A explicação é que o reCAPTCHA coleta sinais, atribui notas de risco e ajuda sites a distinguir usuários legítimos de atividades automatizadas ou maliciosas.

O CAPTCHA também virou sistema de vigilância

Com o tempo, o reCAPTCHA passou a depender menos da resposta certa a um desafio e mais da análise do comportamento do usuário. Hoje, parte da checagem acontece de forma quase invisível, com coleta de sinais sobre navegação e interação.

Pesquisas acadêmicas recentes questionam esse modelo. Alguns estudos apontam que o sistema se tornou irritante para pessoas comuns, pouco eficaz contra bots mais sofisticados e valioso sobretudo como mecanismo de coleta de dados comportamentais.

Autor: Gazeta do Povo

Em Alta

Economia

Em Foco

Politica

Panorama Paraná

Em Alta

Economia

Em Foco

Politica

Panorama Paraná

semáforos, livros e o trabalho grátis por trás do teste

Como surgiu o CAPTCHA

Uma ideia inovadora para seu tempo

O salto para o reCAPTCHA

Você trabalhou de graça e nem percebeu

O Google entra em cena

Do texto para as imagens

De onde vem a suspeita sobre carros autônomos

Criador sugere outros usos

O que o Google admite

O que o Google nega

O CAPTCHA também virou sistema de vigilância

Temas

Siga-nos

Conheça Nosso Guia de Compras

Artigos Relacionados

Acontece Paraná

Últimas Notícias

Newsletter