Milhares de pessoas estão vendendo suas identidades para treinar IA, mas a que custo?
A identidade humana sempre teve valor, mas nunca foi tão literalmente negociável como agora. Com a explosão da inteligência artificial, um novo tipo de mercado surgiu quase silenciosamente: plataformas que pagam pessoas comuns para compartilhar suas vozes, rostos, conversas e até os sons ao redor delas, tudo para alimentar os modelos que estão redesenhando o mundo digital.
Não estamos falando de ficção científica nem de algo restrito ao Vale do Silício. Essa realidade já faz parte do cotidiano de milhares de pessoas espalhadas por todos os continentes, de jovens universitários na Índia a aprendizes de soldador nos Estados Unidos. E o mais impressionante é que esse mercado cresceu tão rápido que a maioria das pessoas envolvidas ainda não entende completamente o que está em jogo.
Histórias reais de quem alimenta a máquina
Jacobus Louw, de 27 anos, mora na Cidade do Cabo, na África do Sul, e filmou suas caminhadas matinais alimentando gaivotas para uma tarefa chamada Urban Navigation no aplicativo Kled AI. Um único vídeo dos seus pés e da vista enquanto andava pela calçada rendeu 14 dólares, cerca de dez vezes o salário mínimo diário do país. Em duas semanas, acumulou 50 dólares apenas enviando fotos e vídeos do seu dia a dia. Louw enfrentou dificuldades com um distúrbio nervoso durante anos e não conseguia emprego formal, mas o dinheiro ganho em marketplaces de dados para IA permitiu que ele economizasse para um curso de massoterapia de 500 dólares.
Milhares de quilômetros dali, em Ranchi, na Índia, Sahil Tigga, um estudante de 22 anos, ganha dinheiro regularmente ao permitir que o aplicativo Silencio acesse o microfone do seu celular para capturar ruídos urbanos, como o barulho dentro de um restaurante ou o trânsito em um cruzamento movimentado. Ele também grava a própria voz e viaja para capturar cenários únicos, como lobbies de hotéis que ainda não foram documentados no mapa do aplicativo. Com isso, recebe mais de 100 dólares por mês, o suficiente para cobrir todas as suas despesas com alimentação.
E em Chicago, Ramelio Hill, um aprendiz de soldador de 18 anos, fez algumas centenas de dólares vendendo suas ligações telefônicas privadas com amigos e familiares para a Neon Mobile, uma plataforma de treinamento de IA conversacional que pagava 0,50 dólar por minuto. Para Hill, a lógica era simples: ele imaginava que as empresas de tecnologia já capturavam boa parte dos seus dados pessoais, então por que não receber pelo menos uma fatia desse lucro? 🤔
Esses três perfis não são exceções. Eles são o retrato de uma economia gig que está crescendo rápido, movida pela sede das big techs por dados humanos de qualidade e pela necessidade real de milhares de pessoas ao redor do mundo de encontrar novas formas de renda. Mas essa equação tem um lado que raramente aparece nos termos de uso dessas plataformas, e é exatamente esse lado que vale a pena entender antes de apertar qualquer botão de aceitar. 👀
Por que as empresas de IA estão desesperadas por dados humanos
Por trás de cada modelo de linguagem como o ChatGPT ou o Gemini, cada sistema de reconhecimento facial ou assistente de voz, existe uma necessidade que não tem fim: dados de treinamento. E não qualquer dado, mas dados humanos reais, ricos em contexto, diversidade e naturalidade. É isso que diferencia um modelo mediano de um modelo que realmente parece entender o que você está dizendo.
O problema é que as fontes mais utilizadas de treinamento, como os datasets C4, RefinedWeb e Dolma, que representam cerca de um quarto dos conjuntos de dados de maior qualidade disponíveis na web, estão cada vez mais restringindo o acesso de empresas de IA generativa. Pesquisadores estimam que as companhias de inteligência artificial podem ficar sem texto novo de alta qualidade para treinar seus modelos já em 2026. Alguns laboratórios tentaram contornar esse problema alimentando os modelos com dados sintéticos gerados pela própria IA, mas esse processo recursivo pode levar os sistemas a produzirem conteúdo cheio de erros e distorções, comprometendo gravemente sua qualidade.
É exatamente nesse vácuo que entram plataformas como Kled AI, Silencio e Neon Mobile. Nesses marketplaces de dados, milhões de pessoas estão monetizando suas identidades para alimentar e treinar modelos de IA. Além dessas três, existem diversas outras opções: a Luel AI, apoiada pela famosa incubadora Y-Combinator, compra conversas multilíngues por cerca de 0,15 dólar por minuto. A ElevenLabs permite que você clone digitalmente sua voz e autorize qualquer pessoa a usá-la por uma taxa base de 0,02 dólar por minuto.
Bouke Klein Teeselink, professor de economia no King’s College London, afirmou que o treinamento gig de IA é uma nova categoria de trabalho emergente e que vai crescer substancialmente. Segundo ele, as empresas de IA sabem que pagar às pessoas para licenciar seus dados ajuda a evitar disputas de direitos autorais que enfrentariam se dependessem exclusivamente de conteúdo raspado da web. Veniamin Veselovsky, pesquisador de IA, complementou dizendo que essas empresas também precisam de dados de alta qualidade para modelar novos comportamentos em seus sistemas. Para ele, dados humanos são, por enquanto, o padrão ouro para amostragem fora da distribuição do modelo. 💡
A economia gig ganhou um novo rosto
A economia gig não é novidade. Motoristas de aplicativo, entregadores e freelancers já conhecem bem o modelo de trabalho por demanda, sem vínculo formal e com remuneração variável. Mas o que está acontecendo agora com o mercado de dados para inteligência artificial representa uma evolução significativa desse modelo, porque o produto entregue não é mais um serviço físico ou uma habilidade profissional específica. É a própria identidade da pessoa, sua voz, sua imagem, seus padrões de comportamento, suas formas de se expressar. Isso muda completamente a natureza da relação entre trabalhador e plataforma, e coloca em jogo questões que a legislação trabalhista tradicional ainda não sabe responder direito.
Os humanos que alimentam essas máquinas, especialmente aqueles em países em desenvolvimento, frequentemente precisam do dinheiro e têm poucas outras opções para obtê-lo. Para muitos treinadores gig de IA, fazer esse trabalho é uma resposta pragmática à disparidade econômica. Em países com alto desemprego e moedas desvalorizadas, ganhar em dólares americanos é muitas vezes mais estável e recompensador do que empregos locais. Como o próprio Louw resumiu: como sul-africano, ser pago em dólares vale mais do que as pessoas imaginam.
Mesmo em nações mais ricas, o custo de vida crescente transformou a venda de dados pessoais em uma decisão financeira lógica para muita gente. Alguns desses trabalhadores lutam para conseguir empregos de nível básico e recorrem ao treinamento de IA por necessidade. O modelo funciona de maneira relativamente direta: as plataformas postam tarefas com instruções específicas, como gravar sua voz lendo determinadas frases, filmar suas mãos executando movimentos comuns, ou capturar sons ambientes em locais específicos. O trabalhador conclui a tarefa, envia os dados e recebe o pagamento, geralmente via PayPal ou créditos que podem ser trocados por dinheiro.
Parece simples, e para muitas pessoas funciona bem como complemento de renda. O problema começa a aparecer quando se lê com atenção o que está escrito nos termos de uso dessas plataformas. 😬
Permissões de carta branca e os riscos invisíveis
Existe uma diferença importante entre compartilhar dados passivamente, como acontece quando você usa redes sociais ou aplicativos de navegação, e vender dados ativamente como forma de trabalho. No segundo caso, a pessoa está tomando uma decisão consciente, mas nem sempre com todas as informações necessárias para avaliar as consequências de longo prazo.
Na maioria dos casos, a cessão de direitos sobre os dados é total, irrevogável e permanente. Quando treinadores de IA compartilham seus dados em plataformas como Neon Mobile e Kled AI, estão concedendo uma licença de carta branca, mundial, exclusiva, irrevogável, transferível e isenta de royalties, para vender, usar, exibir publicamente e armazenar sua imagem, e até criar obras derivadas a partir dela. Isso significa que uma gravação de voz de 20 minutos feita hoje pode alimentar um bot de atendimento ao cliente pelos próximos anos, sem que o treinador receba mais um centavo sequer.
Avi Patel, fundador da Kled AI, afirmou que os acordos de dados da sua empresa limitam o uso a fins de treinamento de IA e pesquisa. Segundo ele, todo o negócio depende da confiança dos usuários, e a empresa avalia os compradores antes de vender conjuntos de dados, evitando trabalhar com empresas de intenções questionáveis, como pornografia, ou órgãos governamentais que possam usar os dados de formas conflitantes com essa confiança.
Já a Neon Mobile não respondeu a pedidos de comentário. E talvez isso diga bastante sobre como essas plataformas encaram a transparência.
Jennifer King, pesquisadora de privacidade de dados no Stanford Institute for Human-Centered Artificial Intelligence, destaca que o mais preocupante é a falta de clareza sobre como e onde os dados dos usuários serão utilizados. Sem negociar ou conhecer seus direitos, os consumidores correm o risco de ter seus dados reaproveitados de formas que não gostam, não entenderam ou não previram, e terão pouca possibilidade de contestação legal.
Enrico Bonadio, professor de direito na City St George’s, Universidade de Londres, vai além: segundo ele, os termos desses acordos permitem que as plataformas e seus clientes façam praticamente qualquer coisa com esse material, para sempre, sem nenhum pagamento adicional e sem nenhuma forma realista de o contribuidor retirar o consentimento ou renegociar. Riscos mais graves incluem o uso dos dados para deepfakes e personificação. Mesmo que os marketplaces de dados afirmem remover identificações como nome e localização antes de vender os dados, padrões biométricos são, por natureza, difíceis de anonimizar de forma robusta.
Quando o barato sai caro: histórias de arrependimento
O caso de Ramelio Hill ilustra bem como as coisas podem dar errado. Por cerca de 11 horas de ligações telefônicas, ele ganhou 200 dólares da Neon Mobile. Mas o aplicativo frequentemente ficava fora do ar e atrasava pagamentos. Em setembro, apenas semanas após o lançamento, a plataforma saiu do ar depois que o site TechCrunch descobriu uma falha de segurança que permitia a qualquer pessoa acessar números de telefone, gravações de chamadas e transcrições dos usuários. Hill disse que a Neon Mobile nunca o informou sobre isso, e agora ele se preocupa com a forma como sua voz pode ser mal utilizada na internet.
Ainda mais emblemático é o caso de Adam Coy, um ator de Nova York que vendeu sua imagem em 2024 por 1.000 dólares para a Captions, um editor de vídeo alimentado por IA atualmente chamado Mirage. Seu contrato incluía proteções mais detalhadas: a identidade dele não poderia ser usada para fins políticos, nem para vender álcool, tabaco ou pornografia, e a licença expiraria em um ano.
Mesmo com essas salvaguardas, não demorou para que amigos começassem a encaminhar vídeos encontrados na internet com o rosto e a voz de Adam acumulando milhões de visualizações. Em um desses vídeos, um reel no Instagram, a réplica de IA de Adam se apresentava como médico ginecologista e promovia suplementos médicos não comprovados para mulheres grávidas e no pós-parto.
Foi constrangedor ter que explicar isso para as pessoas, disse Coy. Ele admitiu que a decisão de vender sua imagem partiu de uma lógica parecida com a de Hill: se a maioria dos modelos ia raspar a internet em busca de dados e imagens de qualquer forma, pelo menos que ele recebesse alguma coisa por isso. Desde então, porém, Coy não se inscreveu em nenhuma outra tarefa de dados para IA. Ele só consideraria fazer isso novamente se uma empresa oferecesse uma compensação realmente significativa.
O futuro dos trabalhadores de dados para IA
Mark Graham, professor de geografia da internet na Universidade de Oxford e autor do livro Feeding the Machine, reconheceu que para pessoas em países em desenvolvimento o dinheiro pode ser significativo no curto prazo. Mas alertou que, estruturalmente, esse trabalho é precário, não progressivo e efetivamente um beco sem saída.
Segundo Graham, os marketplaces de IA dependem de uma corrida para o fundo nos salários e de uma demanda temporária por dados humanos. Quando essa demanda mudar, e ela vai mudar, os trabalhadores ficarão sem proteções, sem habilidades transferíveis e sem rede de segurança. O único vencedor que emerge, segundo ele, são as plataformas do norte global que capturam todo o valor duradouro.
A discussão sobre regulação desse mercado está avançando em algumas regiões, mas ainda de forma bastante fragmentada. A União Europeia tem sido a mais ativa nesse campo, com o AI Act estabelecendo algumas diretrizes sobre como dados pessoais podem ser usados no treinamento de modelos de inteligência artificial. Nos Estados Unidos, o debate é mais descentralizado, com alguns estados avançando em legislações específicas enquanto o governo federal ainda busca consenso. No Brasil, a LGPD oferece uma base legal importante, mas a aplicação prática no contexto do mercado de dados para IA ainda é um território em construção, com muitas zonas cinzentas que as plataformas sabem explorar muito bem.
O resultado é que, na prática, quem vende seus dados hoje raramente tem garantias claras sobre como eles serão usados, por quanto tempo ou com quem serão compartilhados.
Por que essa conversa importa agora
O que torna essa discussão ainda mais relevante é que ela não está acontecendo em algum futuro distante. Ela está acontecendo agora, com pessoas reais fazendo escolhas reais sobre sua identidade e seus dados todos os dias. O mercado de dados para inteligência artificial já movimenta bilhões de dólares globalmente, e a demanda só tende a crescer à medida que os modelos ficam mais sofisticados e precisam de volumes maiores e mais diversificados de dados humanos para continuar evoluindo.
A nova economia gig de treinamento de IA apresenta uma barganha faustiana bastante clara: em troca de alguns dólares, seus treinadores estão alimentando uma indústria que pode eventualmente tornar suas próprias habilidades obsoletas, ao mesmo tempo em que ficam vulneráveis a um futuro de deepfakes, roubo de identidade e exploração digital que estão apenas começando a compreender.
Entender como esse mercado funciona, quem se beneficia dele e quais são os riscos envolvidos não é uma questão técnica reservada a especialistas. É uma questão que diz respeito a qualquer pessoa que tenha uma voz, um rosto e uma história, ou seja, todo mundo. 🌐
