Empresas de IA estão saqueando sites de notícias, e pesquisadores documentaram tudo
Inteligência Artificial e jornalismo estão cada vez mais entrelaçados, e nem sempre de um jeito justo.
Enquanto grandes empresas de tecnologia constroem produtos milionários usando conteúdo produzido por redações ao redor do mundo, os veículos de comunicação continuam arcando com todos os custos de reportagem, edição e publicação sem ver nenhum retorno por isso.
É como se alguém gravasse um filme inteiro, pagasse o elenco, o diretor e a equipe técnica, e depois outra pessoa viesse, copiasse tudo e ainda cobrasse ingresso sem repassar um centavo sequer para quem fez o trabalho.
Parece injusto, né?
Pois é exatamente isso que uma nova pesquisa da Universidade McGill, em Montreal, no Canadá, documentou com dados concretos. Os resultados são bem reveladores e levantam uma pergunta que o setor inteiro precisa responder: quem vai pagar a conta do jornalismo na era da IA? 🤔
O Que a Auditoria de IA e Notícias da McGill Revelou
O estudo, batizado de AI News Audit, foi conduzido pelos professores Taylor Owen e Aengus Bridgman, do Centro de Mídia, Tecnologia e Democracia da Universidade McGill. A ideia era simples e direta: testar os grandes modelos de linguagem para entender o quanto eles sabem sobre notícias atuais e o quanto de crédito dão aos veículos que originalmente reportaram essas histórias.
Os pesquisadores testaram quatro modelos de IA amplamente utilizados — ChatGPT, Gemini, Claude e Grok — usando uma amostra de 2.267 matérias jornalísticas canadenses. Os resultados mostraram que esses sistemas são bastante bem informados sobre notícias recentes. Porém, quando envolviam buscas na web, 82% das respostas não traziam nenhuma atribuição de fonte. Ou seja, a informação aparecia ali, pronta e mastigada, mas sem qualquer menção a quem fez o trabalho pesado de apurar, checar e publicar aquilo.
A auditoria rodou dois tipos de teste. O primeiro examinou como o conteúdo jornalístico foi usado para treinar os modelos de IA. O segundo analisou como esses modelos citavam notícias quando incorporavam buscas na web nas respostas que entregavam aos usuários. Essa separação é importante porque mostra que o problema existe em duas frentes distintas: tanto na fase de construção quanto na fase de uso desses sistemas.
Com a busca na web habilitada, 52% das respostas tinham pelo menos um link para um site de notícias canadense, mas a fonte era nomeada no corpo do texto apenas 28% das vezes. Isso quer dizer que, na maioria dos casos, mesmo quando existia um link escondido em algum canto da resposta, o nome do veículo que produziu a reportagem simplesmente não aparecia de forma clara para o leitor.
Uma Escolha de Design, Não uma Limitação Técnica
Um dos pontos mais reveladores da pesquisa diz respeito a uma constatação técnica que muda completamente o tom da conversa. Quando os pesquisadores perguntaram aos modelos de IA sobre uma história de um veículo específico — mencionando o nome da publicação na própria pergunta —, as respostas identificaram a fonte entre 74% e 97% das vezes.
Isso demonstra algo crucial: as empresas de IA são tecnicamente capazes de nomear as fontes jornalísticas. Elas simplesmente escolhem não fazer isso na maioria das situações. Como a própria auditoria destaca, trata-se de uma escolha de design, e não de uma limitação dos sistemas.
Em entrevista, o professor Bridgman foi direto ao ponto. Ele explicou que os chatbots exibem conteúdo jornalístico justamente porque ele carrega informações precisas e verificadas. As empresas de IA reconhecem o valor enorme que o jornalismo oferece. Esses sistemas estão usando esse material em produtos voltados para o consumidor final, e deveria haver reconhecimento financeiro e de autoria por esse valor.
Bridgman ainda sugeriu que os links eventualmente incluídos nas respostas dos chatbots funcionam mais como um exercício de construção de credibilidade do que como um direcionamento real para os leitores. Algo como dizer: confie na gente, olha nossas fontes. Mas na prática, a maioria das pessoas não clica nesses links. Elas ficam com o resumo da IA e seguem em frente, sem nunca visitar o site que pagou pela reportagem.
Paywalls Podem Não Estar Funcionando Como Esperado
Outro achado preocupante da auditoria da McGill foi a identificação de casos em que modelos de IA citaram matérias que estavam protegidas por paywalls — aquelas barreiras de pagamento que os sites de notícias usam para restringir o acesso a assinantes. Isso sugere que os sistemas automatizados de coleta de dados das empresas de IA podem estar contornando essas barreiras de um jeito que leitores humanos comuns não conseguem.
O relatório aponta que paywalls podem não estar bloqueando a recuperação automatizada da mesma forma que bloqueiam leitores humanos. Pesquisas adicionais sobre essa perfuração de paywalls estão sendo conduzidas na McGill. Outros estudos independentes já encontraram evidências de que as proteções técnicas criadas pelos veículos de notícias para impedir a raspagem de dados por empresas de IA são amplamente ignoradas.
Bridgman também observou que as empresas de IA utilizam abordagens diferentes para responder a perguntas sobre notícias. Em alguns casos, elas agem como uma pessoa comum tentando se informar sobre uma história. Se encontram um paywall, podem recuar e procurar pela mesma informação em fontes gratuitas espalhadas pela internet. Com o poder computacional que possuem, conseguem reunir informações suficientes de diversas fontes abertas para fornecer o essencial de uma matéria, mesmo que a reportagem original estivesse trancada atrás de uma assinatura.
O Ciclo Que Ameaça o Jornalismo Local
Os professores Owen e Bridgman resumiram a situação de forma bastante clara em seu relatório. Segundo eles, as empresas de IA construíram produtos comerciais que dependem, em parte significativa, da reportagem que jornalistas canadenses produzem. E fizeram isso sem compensação, sem atribuição de fonte e sem qualquer obrigação de sustentar a infraestrutura da qual estão extraindo valor. O resultado é um sistema que acelera o declínio econômico do jornalismo do qual ele próprio depende.
Isso tem implicações práticas muito sérias para redações de todos os tamanhos, mas especialmente para as menores e as locais, que já operam com margens financeiras bastante apertadas. Um veículo regional que cobre política municipal, por exemplo, depende do tráfego orgânico para manter sua operação. Se as pessoas passam a perguntar para uma IA sobre o que aconteceu na câmara de vereadores e recebem uma síntese baseada no que esse veículo publicou — sem acessar o site, sem gerar impressão de anúncio, sem contribuir para a receita —, o ciclo financeiro que sustenta aquela cobertura começa a se romper.
E quando esse veículo fecha, a IA perde uma fonte de dados locais relevantes. Mas quem realmente perde são as comunidades que dependiam daquele jornalismo para se manter informadas. É uma preocupação que vem sendo levantada com frequência por especialistas em mídia, que consideram o jornalismo local essencial para a alfabetização cívica e para a democracia. 📰
O Papel da Legislação: O Que o Canadá Já Fez e o Que os EUA Ainda Não Fizeram
A legislação de mídia está correndo para acompanhar uma tecnologia que avança muito mais rápido do que os processos legislativos tradicionais conseguem acompanhar. Alguns países já deram passos importantes nessa direção, e o Canadá é um dos que mais se destacam.
Desde 2023, o Canadá exige que gigantes da tecnologia que lucram com notícias compensem os veículos de imprensa, através de uma política chamada Online News Act. O Google, por exemplo, passou a pagar 100 milhões de dólares canadenses por ano aos publishers do país. Já a Meta decidiu seguir outro caminho: bloqueou completamente o acesso a notícias em suas plataformas no Canadá para evitar ter que pagar. Agora, segundo relatos recentes, a Meta estaria considerando pagar alguns veículos, mas com a condição de que eles se posicionem contra a própria legislação. Uma jogada, digamos, bem controversa.
Após tomar conhecimento dos resultados da auditoria da McGill, o ministro da Cultura canadense, Marc Miller, afirmou que o Online News Act trata de pessoas pagando sua parte justa e que esse princípio não muda com o surgimento da IA. Ele destacou que ter as notícias canibalizadas e regurgitadas mina o espírito do uso original dessas informações e que é necessário ter uma conversa séria com as plataformas que se propõem a usar esse conteúdo, incluindo as empresas de IA.
Nos Estados Unidos, a situação é menos avançada. Uma política similar, chamada Journalism Competition and Preservation Act (JCPA), chegou a ter apoio bipartidário, mas travou no Congresso em 2023. Desde então, não houve avanço significativo, apesar de as evidências sobre o uso não autorizado de conteúdo jornalístico por sistemas de IA continuarem se acumulando.
Propriedade Intelectual no Centro do Debate
A questão da propriedade intelectual não é nova no universo digital, mas ganhou uma dimensão completamente diferente com a ascensão dos modelos de linguagem de grande escala. Por décadas, veículos de comunicação travaram batalhas jurídicas contra agregadores de conteúdo, mecanismos de busca e plataformas de redes sociais que exibiam trechos de matérias sem pagar nada em troca.
Com a IA generativa, o problema se intensifica porque o conteúdo é processado, transformado e sintetizado de uma forma que o rastro até a fonte original praticamente desaparece. Diferente de um link em um resultado de busca, onde pelo menos existe uma referência visual ao veículo de origem, as respostas geradas por IA tendem a apresentar a informação como se ela fosse um fato neutro e sem autoria.
Diversas organizações de imprensa ao redor do mundo já começaram a se movimentar juridicamente. Ações judiciais movidas por publishers têm produzido evidências similares às encontradas pela auditoria da McGill, reforçando o argumento de que estamos diante de uma apropriação sistemática de conteúdo protegido por direitos autorais. Essas ações, combinadas com pesquisas acadêmicas como a da McGill, devem pressionar as empresas de IA a negociar acordos de compensação. E caso isso não aconteça voluntariamente, a expectativa é que governos ao redor do mundo intervenham para garantir que essas empresas assumam suas responsabilidades.
A Analogia do Filme Pirata
Uma das metáforas mais interessantes que circulam nessa discussão ajuda a dimensionar o problema. Imagine que você quisesse evitar pagar pelo ingresso de um filme no cinema. Você poderia procurar trailers gratuitos e trechos postados nas redes sociais. Com computadores potentes, seria possível juntar tudo isso rapidamente em algo que se aproximasse do filme original.
Depois, se você não tivesse nenhum escrúpulo, poderia cobrar das pessoas pelo serviço de fornecer essa versão Frankenstein do filme, sem pagar absolutamente nada para quem escreveu, dirigiu, editou e atuou na produção original.
Eventualmente, não haveria mais trailers, trechos ou filmes novos. E é exatamente esse o risco que o jornalismo corre quando seus conteúdos são absorvidos por sistemas de IA sem nenhuma compensação. Se a fonte seca, a IA também fica sem material de qualidade para consumir. 💡
Publicação de Notícias na Era da IA: O Que Muda Para Todo Mundo
A forma como a publicação de notícias funciona está passando por uma transformação sem precedentes. As redações já vinham enfrentando a queda estrutural na receita publicitária com a migração das verbas para o Google e o Facebook ao longo da última década. Agora, com o crescimento do uso de assistentes de IA como ponto de entrada para informações, o risco de uma nova rodada de perda de tráfego e de receita se torna muito concreto.
Se antes a disputa era por cliques em links, agora é pela própria relevância do acesso direto ao veículo jornalístico, que pode ser completamente ignorado quando uma IA fornece a resposta pronta. As empresas de IA ficam com a receita de assinatura e de publicidade, em vez dos sites de notícias que pagaram para apurar, editar e publicar as matérias.
Mesmo quando links são incluídos nos resumos gerados por IA, a maioria das pessoas simplesmente não clica neles. Isso significa que as empresas de IA estão permitindo que os usuários consumam as notícias sem visitar os sites que as produziram. É um modelo que beneficia apenas um lado da equação.
O Que Vem Pela Frente
A pesquisa da McGill é mais um dado importante nessa conversa que está longe de terminar. Os professores Owen e Bridgman se mostraram dispostos a compartilhar seus modelos de pesquisa com acadêmicos de outros países, incentivando a produção de auditorias similares em diferentes mercados. Quanto mais esse tema ganhar visibilidade e respaldo em dados, maiores as chances de que soluções equilibradas comecem a aparecer tanto no campo jurídico quanto no tecnológico.
É claro que pesquisas como essa não vão produzir respostas definitivas para todas as questões que envolvem IA e jornalismo. Mas, como bem observou o artigo original do The Seattle Times, assim como um chatbot sem escrúpulos, elas conseguem fornecer uma ideia bem clara do que está acontecendo.
O debate sobre atribuição de fontes, propriedade intelectual e legislação de mídia aplicada à IA não é apenas uma discussão corporativa entre grandes empresas. Ele toca diretamente na saúde do ecossistema informacional como um todo, na diversidade de vozes que chegam até o público e na capacidade das sociedades democráticas de se manterem bem informadas. E quanto antes esse assunto for tratado com a seriedade que merece, melhor para todo mundo. 🗞️
