Para compartir:

Empresas de IA están saqueando sitios de noticias y los investigadores lo documentaron todo

La McGill University, en Montreal, acaba de publicar un estudio que está dando mucho de qué hablar en el mundo del periodismo y la tecnología. Bautizado como AI News Audit, el trabajo conducido por los profesores Taylor Owen y Aengus Bridgman, del Centre for Media, Technology and Democracy, documentó algo que mucha gente ya sospechaba, pero pocos habían logrado demostrar con cifras tan claras: los grandes modelos de Inteligencia Artificial están utilizando contenido periodístico a gran escala, sin dar el crédito adecuado y sin pagar nada a quienes produjeron ese material.

Piénsalo así: si una empresa fuera descubierta robando joyas o pirateando películas, probablemente ya estaría enfrentando un proceso judicial contundente. Pero en el universo de las noticias y los derechos de autor, las consecuencias son prácticamente nulas — al menos por ahora. Es exactamente ese escenario el que la investigación canadiense pone sobre la mesa, con datos concretos, probando los modelos de IA más populares del planeta y mostrando cómo el periodismo está siendo consumido, reutilizado y reciclado por estas plataformas sin el menor reconocimiento. La investigación llega en un momento en que la discusión sobre el futuro del periodismo nunca fue tan urgente. 📰

Lo que descubrió la auditoría de la McGill University

El estudio fue mucho más allá de la teoría y la especulación. Los investigadores montaron una metodología bastante directa, dividida en dos frentes de investigación. La primera examinó cómo el contenido periodístico fue utilizado para entrenar los modelos de IA. La segunda analizó cómo esos modelos citan — o dejan de citar — las fuentes cuando incorporan búsquedas en la web a las respuestas que entregan a los usuarios.

Para realizar las pruebas, se utilizaron cuatro de los principales modelos de Inteligencia Artificial generativa disponibles en el mercado: ChatGPT, Gemini, Claude y Grok. El conjunto de datos analizado incluyó una muestra de 2.267 artículos periodísticos canadienses. Los resultados fueron, como mínimo, alarmantes.

Cuando la funcionalidad de búsqueda en la web estaba habilitada, el 52% de las respuestas contenían al menos un enlace a un sitio de noticias canadiense. Parece razonable a primera vista, ¿verdad? Pero el detalle que lo cambia todo es este: la fuente era nombrada en el cuerpo de la respuesta solo el 28% de las veces. En otras palabras, en el 82% de los casos que involucraban búsquedas en la web, no había ninguna atribución de fuente. El modelo entregaba la información como si fuera conocimiento propio, sin mencionar quién hizo la investigación original.

Otro hallazgo revelador: cuando los investigadores preguntaban específicamente sobre un artículo de un medio determinado, los modelos identificaban la fuente entre el 74% y el 97% de las veces. Esto demuestra que la tecnología es perfectamente capaz de dar el crédito adecuado. La decisión de no hacerlo, por lo tanto, es una elección de diseño, como el propio estudio destaca. Las empresas de IA podrían nombrar las fuentes de forma consistente, pero eligen no hacerlo. 😬

El problema va más allá de la atribución

El profesor Aengus Bridgman explicó en una entrevista que los chatbots muestran contenido periodístico justamente porque ese contenido contiene información precisa y confiable. Esto significa que las propias empresas de IA reconocen el enorme valor que el periodismo ofrece. Están utilizando ese valor en productos orientados al consumidor final, y Bridgman defiende que debería haber un reconocimiento financiero e institucional de esa contribución.

Incluso cuando se incluyen enlaces en los resúmenes generados por IA, la mayoría de las personas simplemente no hace clic en ellos. Entonces, en la práctica, las empresas de IA están permitiendo que los usuarios consuman las noticias sin jamás visitar los sitios que las produjeron. El resultado es que los ingresos por suscripción y publicidad se quedan en las plataformas de IA, y no en las redacciones que invirtieron en reportería, edición y publicación.

Reciba el mejor contenido sobre innovación en su correo electrónico.

Todas las noticias, consejos, tendencias y recursos que buscas, directamente en tu bandeja de entrada.

Al suscribirte al boletín informativo, aceptas recibir comunicaciones de Método Viral. Nos comprometemos a proteger y respetar siempre tu privacidad.

Bridgman llegó a sugerir que la inclusión de enlaces en las respuestas puede ser, en gran parte, solo un ejercicio de construcción de credibilidad por parte de los chatbots. El mensaje subliminal sería algo como: confía en nosotros, mira nuestras fuentes. Pero si el usuario ya recibió la información completa en el resumen, ¿cuál es la motivación para hacer clic?

Los paywalls están siendo vulnerados

La auditoría también identificó casos en los que los modelos de IA citaron artículos que estaban protegidos por paywalls — esas barreras que exigen suscripción para acceder al contenido completo. Esto plantea una sospecha seria: los mecanismos de pago que bloquean a los lectores humanos podrían no estar funcionando de la misma manera contra la recolección automatizada hecha por bots de IA.

El equipo de McGill ya está realizando investigaciones adicionales específicamente sobre esta cuestión de vulneración de paywalls. Otros estudios independientes también han identificado que las barreras técnicas creadas por sitios de noticias para impedir el scraping de datos por empresas de IA son ampliamente ignoradas. Es como poner una cerca en un terreno y descubrir que el vecino tiene un helicóptero. 🚁

Bridgman observó que las empresas de IA están utilizando enfoques diferentes para responder consultas sobre noticias. En algunos casos, los modelos actúan como una persona común intentando informarse sobre un tema. Cuando encuentran un paywall, simplemente buscan la misma información gratis en otros rincones de internet, reuniendo fragmentos hasta lograr armar lo esencial de una historia.

Una analogía que lo dice todo sobre el problema

Para ilustrar lo absurdo de la situación, vale usar una comparación directa. Imagina que quisieras ver una película recién estrenada en el cine sin pagar. En lugar de comprar la entrada, podrías buscar tráilers, fragmentos y escenas publicadas en redes sociales. Con computadoras potentes, sería posible juntar todo eso rápidamente en un montaje que se aproxima a la película original.

Ahora imagina que, sin ningún escrúpulo, empezaras a cobrarle a la gente por esa versión Frankenstein de la película, sin pagar absolutamente nada a quienes escribieron el guion, dirigieron, editaron y actuaron en la producción original.

El desenlace lógico es previsible: eventualmente, ya no habría más tráilers, ni fragmentos, ni películas nuevas. Nadie seguiría invirtiendo en una industria cuyo producto es sistemáticamente robado y redistribuido por terceros que se quedan con toda la ganancia. Es exactamente ese el riesgo que el periodismo local e independiente está corriendo en este momento. Y ese tipo de periodismo es considerado esencial para la alfabetización cívica y la democracia.

Derechos de autor en el periodismo: una batalla que ya comenzó

La discusión sobre derechos de autor en el contexto de la Inteligencia Artificial no es nueva, pero ganó un volumen mucho mayor en los últimos dos años. Varios medios de comunicación alrededor del mundo ya acudieron a la justicia contra empresas de IA, alegando que sus contenidos fueron utilizados sin permiso para entrenar modelos que ahora compiten directamente con ellos. El caso más emblemático hasta ahora involucra al The New York Times, que demandó a OpenAI y Microsoft en diciembre de 2023, alegando que millones de artículos del periódico fueron usados para entrenar ChatGPT.

El estudio de la McGill University llega justamente para reforzar el argumento técnico de estas disputas judiciales. Antes, las empresas de IA podían alegar que sus modelos simplemente aprendieron patrones generales de lenguaje y que no habría forma de determinar con precisión qué fue o no utilizado en el entrenamiento. Con una metodología que demuestra que los modelos saben completar y reproducir información de artículos específicos, resulta mucho más difícil sostener ese argumento.

Los datos del estudio funcionan casi como una huella dactilar, mostrando que determinados contenidos dejaron marcas identificables en los modelos — lo cual es evidencia poderosa en cualquier discusión sobre derechos de autor. Y el impacto de esto no recae solo sobre los grandes conglomerados de medios. Los medios más pequeños, las agencias de noticias independientes y los periodistas freelance también tuvieron su trabajo consumido por estos modelos, y raramente tienen capacidad de defenderse legalmente. Esto crea una asimetría enorme entre quienes producen el contenido y quienes lucran con él. 📊

Lo que Canadá está haciendo diferente

Canadá es uno de los pocos países que tomó medidas concretas para enfrentar esta cuestión. Desde 2023, está en vigor el Online News Act, una legislación que obliga a los gigantes tecnológicos que lucran con noticias a compensar financieramente a los medios que las producen.

Google, por ejemplo, comenzó a pagar a los editores canadienses 100 millones de dólares canadienses al año. Meta, en cambio, optó por un camino diferente y más agresivo: simplemente bloqueó el acceso a noticias en sus plataformas en Canadá para evitar tener que pagar. Ahora, sin embargo, hay reportes de que Meta estaría considerando pagar a algunos medios, pero con una condición: que esos mismos medios se posicionen en contra de la legislación que los protege. Una maniobra que, como mínimo, plantea cuestionamientos éticos serios.

Tras conocer los resultados de la auditoría de McGill, el Ministro de Cultura canadiense Marc Miller declaró que el Online News Act trata de que las personas paguen lo que les corresponde, y que ese principio no cambia con la aparición de la IA. Afirmó que tener las noticias canibalizadas y regurgitadas socava el espíritu del uso de esas noticias y el propósito para el cual fueron creadas, y que es necesario tener una conversación seria con las plataformas que dicen utilizarlas, incluyendo empresas de IA.

¿Y en Estados Unidos, cómo está la situación?

En Estados Unidos, una legislación similar llamada Journalism Competition and Preservation Act (JCPA) llegó a tener apoyo bipartidista, pero se estancó en el Congreso en 2023. La presión del lobby tecnológico y de sus aliados ha sido eficaz para frenar los intentos de garantizar una compensación justa para el periodismo.

Investigadores y defensores de la prensa libre argumentan que ya es hora de que una nueva versión del JCPA sea puesta en agenda, esta vez abordando específicamente cómo las empresas de IA están transformando la manera en que las personas consumen información e evitando que la industria de noticias locales sea asfixiada.

Para ayudar a impulsar ese proceso, hay un llamado a que los académicos estadounidenses se conecten con Owen y Bridgman, de McGill, quienes están dispuestos a compartir sus modelos y metodologías para que auditorías similares se realicen en Estados Unidos. Investigaciones así pueden no ofrecer respuestas definitivas a todas las cuestiones en torno a la IA y el periodismo, pero ciertamente ayudan a construir un retrato más nítido de lo que está sucediendo.

Herramientas que usamos a diario

Qué cambia para el periodismo a partir de ahora

La publicación de este estudio por la McGill University tiene el potencial de acelerar conversaciones que venían ocurriendo en cámara lenta. Gobiernos y reguladores en diferentes países ya estaban prestando más atención a la cuestión de los derechos de autor en la era de la Inteligencia Artificial, pero la velocidad con la que las regulaciones avanzan suele ser mucho menor que la velocidad con la que la tecnología evoluciona. La Unión Europea se adelantó con el AI Act, que exige más transparencia sobre los datos utilizados en el entrenamiento de modelos, pero todavía hay mucho margen para interpretación.

En Latinoamérica, el debate también está ganando fuerza, aunque de forma más discreta. Varios países de la región cuentan con legislaciones de derechos de autor relativamente robustas, y entidades que representan a periodistas y medios de comunicación ya empezaron a alzar la voz sobre el tema. El estudio canadiense ofrece argumentos técnicos valiosos para estas discusiones locales, especialmente porque demuestra el problema de forma empírica y con resultados reproducibles. Cuando tienes datos concretos, la conversación sale del terreno de la especulación y entra en el terreno de la evidencia, lo cual cambia completamente la dinámica de cualquier negociación o proceso regulatorio.

Para el periodismo como profesión y como industria, el momento exige atención redoblada. Las redacciones que aún no establecieron políticas claras sobre cómo sus contenidos pueden o no ser utilizados por plataformas de Inteligencia Artificial están, en la práctica, dejando una puerta abierta. Algunos medios ya comenzaron a incluir cláusulas específicas en sus términos de uso, bloqueando el acceso de bots de rastreo utilizados para la recolección de datos de entrenamiento. Otros están optando por negociar acuerdos de licenciamiento directamente con las empresas de IA, como hicieron Associated Press y Axel Springer con OpenAI. Son caminos diferentes, pero todos parten del mismo reconocimiento: el contenido periodístico tiene valor, y ese valor necesita ser respetado. 💡

El panorama completo y lo que está en juego

Los profesores de McGill resumieron la situación de forma contundente en su informe: las empresas de IA construyeron productos comerciales que dependen, en parte significativa, del reportaje que los periodistas canadienses producen. Hicieron esto sin compensación, sin atribución y sin ninguna obligación de sostener la infraestructura de la cual se están alimentando. El resultado es un sistema que acelera el declive económico del periodismo del cual él mismo depende.

Es un ciclo que se retroalimenta de forma destructiva. Las empresas de IA necesitan contenido periodístico de calidad para entregar respuestas confiables. Pero al consumir ese contenido sin retribuir, debilitan las redacciones que lo producen. Y redacciones más débiles significan menos reportaje investigativo, menos cobertura local, menos diversidad de fuentes — y, al final de cuentas, un modelo de IA que tendrá acceso a información cada vez peor.

El estudio de la McGill University no resuelve el problema por sí solo, pero pone una lupa sobre él de una manera que va a ser difícil ignorar. Y en medio de tanta conversación sobre el futuro de la Inteligencia Artificial, es bueno recordar que ese futuro se está construyendo, en gran parte, sobre el trabajo de periodistas a quienes nunca se les preguntó si aceptaban participar en esta historia.

El debate apenas está comenzando, y las próximas páginas prometen ser bastante movidas. 🚀

Imagen de Rafael

Rafael

Operaciones

Transformo los procesos internos en máquinas de entrega, garantizando que cada cliente de Viral Method reciba un servicio de primera calidad y resultados reales.

Rellena el formulario y nuestro equipo se pondrá en contacto contigo en un plazo de 24 horas.

Publicaciones relacionadas

Performance e Crescimento: Nvidia, Agentes de IA e Centros de Datos

Nvidia acelera ingresos con centros de datos, GB300 NVL72 y Rubin; eficiencia y demanda por AI Agents impulsan crecimiento y

IA y Derechos de Autor: La Corte Suprema Niega el Copyright para Creaciones Artísticas

La Corte Suprema rechazó el caso sobre obras generadas por IA; en EE.UU. solo los humanos tienen autoría reconocida —

IA revela la identidad de anónimos en las redes sociales

Anonimato vulnerable: cómo la IA moderna desenmascara perfiles en redes sociales y por qué esto amenaza tu privacidad online.

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora Preço de Sites

Descubra quanto custa o site ideal para seu negócio

Páginas do Site

Quantas páginas você precisa?

4

Arraste para selecionar de 1 a 20 páginas

📄

⚡ Em apenas 2 minutos, descubra automaticamente quanto custa um site em 2026 sob medida para o seu negócio

👥 Mais de 0+ empresas já calcularam seu orçamento

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.