Empresas de IA estão saqueando sites de notícias e pesquisadores documentaram tudo
A McGill University, em Montreal, acaba de soltar um estudo que está dando o que falar no mundo do jornalismo e da tecnologia. Batizado de AI News Audit, o levantamento conduzido pelos professores Taylor Owen e Aengus Bridgman, do Centre for Media, Technology and Democracy, documentou algo que muita gente já suspeitava, mas poucos tinham conseguido provar com números tão claros: os grandes modelos de Inteligência Artificial estão usando conteúdo jornalístico em larga escala, sem dar crédito adequado e sem pagar nada a quem produziu esse material.
Pensa comigo: se uma empresa fosse flagrada roubando joias ou pirateando filmes, provavelmente já estaria enfrentando um processo judicial pesado. Mas no universo das notícias e dos direitos autorais, as consequências são quase nenhuma — pelo menos por enquanto. É exatamente esse cenário que a pesquisa canadense coloca na mesa, com dados concretos, testando os modelos de IA mais populares do planeta e mostrando como o jornalismo está sendo consumido, reutilizado e reciclado por essas plataformas sem o menor reconhecimento. A pesquisa chega num momento em que a discussão sobre o futuro do jornalismo nunca foi tão urgente. 📰
O que a auditoria da McGill University descobriu
O estudo foi muito além de teoria e especulação. Os pesquisadores montaram uma metodologia bastante direta, dividida em duas frentes de investigação. A primeira examinou como conteúdo jornalístico foi utilizado para treinar os modelos de IA. A segunda analisou como esses modelos citam — ou deixam de citar — as fontes quando incorporam buscas na web às respostas que entregam aos usuários.
Para realizar os testes, foram utilizados quatro dos principais modelos de Inteligência Artificial generativa disponíveis no mercado: ChatGPT, Gemini, Claude e Grok. O conjunto de dados analisado incluiu uma amostra de 2.267 matérias jornalísticas canadenses. Os resultados foram, no mínimo, alarmantes.
Quando a funcionalidade de busca na web estava habilitada, 52% das respostas continham pelo menos um link para um site de notícias canadense. Parece razoável à primeira vista, certo? Mas o detalhe que muda tudo é este: a fonte era nomeada no corpo da resposta apenas 28% das vezes. Em outras palavras, em 82% dos casos envolvendo buscas na web, não havia qualquer atribuição de fonte. O modelo entregava a informação como se fosse conhecimento próprio, sem mencionar quem fez a apuração original.
Outro achado revelador: quando os pesquisadores perguntavam especificamente sobre uma matéria de um veículo determinado, os modelos identificavam a fonte entre 74% e 97% das vezes. Isso mostra que a tecnologia é perfeitamente capaz de dar o crédito adequado. A decisão de não fazer isso, portanto, é uma escolha de design, como o próprio estudo destaca. As empresas de IA poderiam nomear as fontes de forma consistente, mas optam por não fazer. 😬
O problema vai além da atribuição
O professor Aengus Bridgman explicou em entrevista que os chatbots exibem conteúdo jornalístico justamente porque esse conteúdo contém informações precisas e confiáveis. Isso significa que as próprias empresas de IA reconhecem o enorme valor que o jornalismo oferece. Elas estão usando esse valor em produtos voltados para o consumidor final, e Bridgman defende que deveria haver reconhecimento financeiro e institucional dessa contribuição.
Mesmo quando links são incluídos nos resumos gerados por IA, a maioria das pessoas simplesmente não clica neles. Então, na prática, as empresas de IA estão permitindo que os usuários consumam as notícias sem jamais visitar os sites que as produziram. O resultado é que a receita de assinatura e de publicidade fica com as plataformas de IA, e não com as redações que investiram em reportagem, edição e publicação.
Bridgman chegou a sugerir que a inclusão de links nas respostas pode ser, em grande parte, apenas um exercício de construção de credibilidade por parte dos chatbots. A mensagem subliminar seria algo como: confie em nós, veja nossas fontes. Mas se o usuário já recebeu a informação completa no resumo, qual a motivação para clicar?
Paywalls estão sendo furados
A auditoria também identificou casos em que os modelos de IA citaram matérias que estavam protegidas por paywalls — aquelas barreiras que exigem assinatura para acessar o conteúdo completo. Isso levanta uma suspeita séria: os mecanismos de pagamento que bloqueiam leitores humanos podem não estar funcionando da mesma maneira contra a coleta automatizada feita por bots de IA.
A equipe da McGill já está conduzindo pesquisas adicionais especificamente sobre essa questão de perfuração de paywalls. Outros estudos independentes também já identificaram que as barreiras técnicas criadas por sites de notícias para impedir a raspagem de dados por empresas de IA são amplamente ignoradas. É como colocar uma cerca num terreno e descobrir que o vizinho tem um helicóptero. 🚁
Bridgman observou que as empresas de IA estão usando abordagens diferentes para responder consultas sobre notícias. Em alguns casos, os modelos agem como uma pessoa comum tentando se informar sobre um assunto. Quando encontram um paywall, simplesmente procuram a mesma informação de graça em outros cantos da internet, reunindo fragmentos até conseguir montar o essencial de uma história.
Uma analogia que diz tudo sobre o problema
Para ilustrar o absurdo da situação, vale usar uma comparação direta. Imagine que você quisesse assistir a um filme recém-lançado no cinema sem pagar. Em vez de comprar o ingresso, você poderia procurar trailers, trechos e cenas postadas nas redes sociais. Com computadores potentes, seria possível juntar tudo isso rapidamente numa montagem que se aproxima do filme original.
Agora imagine que, sem qualquer escrúpulo, você começasse a cobrar das pessoas por essa versão Frankenstein do filme, sem pagar absolutamente nada a quem escreveu o roteiro, dirigiu, editou e atuou na produção original.
O desfecho lógico é previsível: eventualmente, não haveria mais trailers, nem trechos, nem filmes novos. Ninguém continuaria investindo numa indústria cujo produto é sistematicamente roubado e redistribuído por terceiros que ficam com todo o lucro. É exatamente esse o risco que o jornalismo local e independente está correndo neste momento. E esse tipo de jornalismo é considerado essencial para a literacia cívica e a democracia.
Direitos autorais no jornalismo: uma batalha que já começou
A discussão sobre direitos autorais no contexto da Inteligência Artificial não é nova, mas ganhou um volume muito maior nos últimos dois anos. Vários veículos de comunicação ao redor do mundo já entraram na justiça contra empresas de IA, alegando que seus conteúdos foram utilizados sem permissão para treinar modelos que agora competem diretamente com eles. O caso mais emblemático até agora envolve o The New York Times, que processou a OpenAI e a Microsoft em dezembro de 2023, alegando que milhões de artigos do jornal foram usados para treinar o ChatGPT.
O estudo da McGill University chega justamente para reforçar o argumento técnico dessas disputas judiciais. Antes, as empresas de IA podiam alegar que seus modelos simplesmente aprenderam padrões gerais de linguagem e que não haveria como determinar com precisão o que foi ou não utilizado no treinamento. Com uma metodologia que demonstra que os modelos sabem completar e reproduzir informações de matérias específicas, fica muito mais difícil sustentar esse argumento.
Os dados do estudo funcionam quase como uma impressão digital, mostrando que determinados conteúdos deixaram marcas identificáveis nos modelos — o que é evidência poderosa em qualquer discussão sobre direitos autorais. E o impacto disso não recai apenas sobre os grandes conglomerados de mídia. Os veículos menores, as agências de notícias independentes e os jornalistas freelancers também tiveram seu trabalho consumido por esses modelos, e eles raramente têm capacidade de se defender legalmente. Isso cria uma assimetria enorme entre quem produz o conteúdo e quem lucra com ele. 📊
O que o Canadá está fazendo de diferente
O Canadá é um dos poucos países que tomou medidas concretas para enfrentar essa questão. Desde 2023, está em vigor o Online News Act, uma legislação que obriga gigantes da tecnologia que lucram com notícias a compensar financeiramente os veículos que as produzem.
O Google, por exemplo, passou a pagar aos editores canadenses 100 milhões de dólares canadenses por ano. Já a Meta optou por um caminho diferente e mais agressivo: simplesmente bloqueou o acesso a notícias em suas plataformas no Canadá para evitar ter que pagar. Agora, porém, há relatos de que a Meta estaria considerando pagar a alguns veículos, mas com uma condição: que esses mesmos veículos se posicionem contra a legislação que os protege. Uma manobra que, no mínimo, levanta questionamentos éticos sérios.
Após tomar conhecimento dos resultados da auditoria da McGill, o Ministro da Cultura canadense Marc Miller declarou que o Online News Act trata de pessoas pagando sua parte justa, e que esse princípio não muda com o surgimento da IA. Ele afirmou que ter as notícias canibalizadas e regurgitadas mina o espírito do uso dessas notícias e o propósito para o qual foram criadas, e que é necessário ter uma conversa séria com as plataformas que dizem utilizá-las, incluindo empresas de IA.
E nos Estados Unidos, como está a situação?
Nos Estados Unidos, uma legislação semelhante chamada Journalism Competition and Preservation Act (JCPA) chegou a ter apoio bipartidário, mas travou no Congresso em 2023. A pressão do lobby da tecnologia e de seus aliados tem sido eficaz em barrar tentativas de garantir uma compensação justa para o jornalismo.
Pesquisadores e defensores da imprensa livre argumentam que já passou da hora de uma nova versão do JCPA ser colocada em pauta, desta vez abordando especificamente como as empresas de IA estão transformando a maneira como as pessoas consomem informação e impedindo que a indústria de notícias locais seja sufocada.
Para ajudar a impulsionar esse processo, há um apelo para que acadêmicos norte-americanos se conectem com Owen e Bridgman, da McGill, que estão dispostos a compartilhar seus modelos e metodologias para que auditorias semelhantes sejam realizadas nos Estados Unidos. Pesquisas assim podem não oferecer respostas definitivas para todas as questões em torno da IA e do jornalismo, mas certamente ajudam a construir um retrato mais nítido do que está acontecendo.
O que muda para o jornalismo a partir de agora
A publicação desse estudo pela McGill University tem o potencial de acelerar conversas que estavam acontecendo em câmera lenta. Governos e reguladores em diferentes países já estavam olhando com mais atenção para a questão dos direitos autorais na era da Inteligência Artificial, mas a velocidade com que as regulamentações avançam costuma ser bem menor do que a velocidade com que a tecnologia evolui. A União Europeia saiu na frente com o AI Act, que exige mais transparência sobre os dados utilizados no treinamento de modelos, mas ainda há muita margem para interpretação.
No Brasil, o debate também está ganhando força, ainda que de forma mais discreta. O país tem uma legislação de direitos autorais relativamente robusta, e entidades que representam jornalistas e veículos de comunicação já começaram a levantar a voz sobre o tema. O estudo canadense oferece argumentos técnicos valiosos para essas discussões locais, especialmente porque demonstra o problema de forma empírica e com resultados reproduzíveis. Quando você tem dados concretos, a conversa sai do campo do achismo e entra no campo da evidência, o que muda completamente a dinâmica de qualquer negociação ou processo regulatório.
Para o jornalismo como profissão e como indústria, o momento exige atenção redobrada. As redações que ainda não estabeleceram políticas claras sobre como seus conteúdos podem ou não ser utilizados por plataformas de Inteligência Artificial estão, na prática, deixando uma porta aberta. Alguns veículos já começaram a incluir cláusulas específicas em seus termos de uso, bloqueando o acesso de bots de rastreamento utilizados para coleta de dados de treinamento. Outros estão optando por negociar acordos de licenciamento diretamente com as empresas de IA, como fizeram o Associated Press e o Axel Springer com a OpenAI. São caminhos diferentes, mas todos partem do mesmo reconhecimento: o conteúdo jornalístico tem valor, e esse valor precisa ser respeitado. 💡
O cenário completo e o que está em jogo
Os professores da McGill resumiram a situação de forma contundente em seu relatório: as empresas de IA construíram produtos comerciais que dependem, em parte significativa, da reportagem que jornalistas canadenses produzem. Fizeram isso sem compensação, sem atribuição e sem qualquer obrigação de sustentar a infraestrutura da qual estão se alimentando. O resultado é um sistema que acelera o declínio econômico do jornalismo do qual ele próprio depende.
É um ciclo que se retroalimenta de forma destrutiva. As empresas de IA precisam de conteúdo jornalístico de qualidade para entregar respostas confiáveis. Mas ao consumir esse conteúdo sem retribuir, elas enfraquecem as redações que o produzem. E redações mais fracas significam menos reportagem investigativa, menos cobertura local, menos diversidade de fontes — e, no fim das contas, um modelo de IA que terá acesso a informações cada vez piores.
O estudo da McGill University não resolve o problema sozinho, mas coloca uma lupa sobre ele de um jeito que vai ser difícil ignorar. E no meio de tanta conversa sobre o futuro da Inteligência Artificial, é bom lembrar que esse futuro está sendo construído, em grande parte, sobre o trabalho de jornalistas que nunca foram perguntados se topavam participar dessa história.
O debate está só começando, e as próximas páginas prometem ser bem movimentadas. 🚀
