Los Datos de Tu Empresa Quebrada Son el Nuevo Combustible de la Inteligencia Artificial
La inteligencia artificial tiene hambre de datos, y ahora encontró una fuente bastante inusitada para alimentarse.
Imagina que tu empresa cierra las puertas después de años de operación. Los correos electrónicos intercambiados a toda prisa antes de una reunión importante, los mensajes de Slack llenos de bromas internas, los tickets de proyectos que documentaron cada victoria y cada frustración del equipo — todo eso desaparece, ¿verdad?
Falso.
Ese rastro digital está ganando un destino completamente nuevo: convertirse en combustible para entrenar la próxima generación de IAs. Fue exactamente eso lo que pasó con cielo24, una empresa de transcripción y subtitulado que cerró sus actividades recientemente. Shanna Johnson, CEO de la compañía, descubrió al trabajar con la startup SimpleClosure — especializada en ayudar a empresas a cerrar operaciones — que 13 años de comunicaciones internas valían cientos de miles de dólares para laboratorios de inteligencia artificial.
SimpleClosure se encargó de toda la burocracia habitual del cierre: nóminas, impuestos, consentimientos de inversores y documentación ante el fisco estadounidense. Pero después vino la parte que ningún manual de emprendimiento enseña: vender toda la huella digital de cielo24 — cada broma en Slack, cada ticket en Jira, correos electrónicos documentando logros y frustraciones guardados en drives de múltiples terabytes — como datos de entrenamiento para la próxima generación de IA.
Johnson le contó a Forbes que el dinero de la venta la llevó de un escenario donde no sabía cómo pagar las cuentas finales a una situación donde pudo cerrar todo en orden y seguir adelante. En sus palabras, es emocionante pensar que los datos de la empresa pueden seguir siendo útiles y ayudando a otras personas, incluso después del cierre.
Este caso no es un episodio aislado — es la señal de un mercado completamente nuevo surgiendo de las cenizas de empresas difuntas. 🚀 Y plantea preguntas bastante importantes sobre privacidad, anonimización y lo que realmente pasa con todo lo que produces durante años de trabajo.
Por Qué la Internet Pública Ya No Alcanza Para Entrenar IAs
Para entender por qué los datos internos de empresas se volvieron tan valiosos, hay que mirar lo que pasó con las fuentes tradicionales de entrenamiento. Los laboratorios de IA empezaron entrenando sus modelos con el contenido disponible en la internet pública — hilos de Reddit, artículos de Wikipedia, libros digitalizados. Pero ese material simplemente se agotó. Según el excientífico jefe de OpenAI, Ilya Sutskever, todo ese acervo público se consumió hasta finales de 2024.
Y hay más: incluso cuando ese tipo de dato era abundante, no era exactamente el ideal para construir lo que el mercado llama IA agéntica — modelos capaces de realmente ejecutar tareas en el mundo real, y no solo responder preguntas. Los textos públicos están editados, revisados y pensados para audiencias externas. Lo que ocurre dentro de una empresa es crudo, directo y mucho más cercano a cómo las personas realmente piensan y se expresan en el día a día profesional.
Ali Ansari, cuya empresa micro1 vende un producto llamado Roots para laboratorios de IA — básicamente una empresa ficticia donde agentes de IA pueden practicar tareas como servicios financieros y gestión de agendas complejas — resumió bien la situación: las empresas que desarrollan modelos están dándose cuenta de que el ruido de los ambientes reales de trabajo es necesario para probar los modelos con precisión.
En otras palabras, si quieres que una IA sepa trabajar en una oficina, necesitas mostrarle cómo funciona el trabajo realmente — con todas las imperfecciones, interrupciones y contextos ambiguos que forman parte de la rutina corporativa. Y ese tipo de dato simplemente no existe en la web abierta.
El Valor Oculto en las Ruinas Digitales
Cuando una empresa cierra operaciones, lo que queda no es solo deuda, mobiliario de oficina o contratos vencidos. Existe un patrimonio invisible acumulado a lo largo de años: conversaciones, decisiones, errores documentados, soluciones creativas y toda la dinámica humana que ocurre dentro de una organización en funcionamiento. Ese tipo de dato es exactamente lo que los laboratorios de inteligencia artificial más necesitan para hacer sus modelos más inteligentes, más naturales y más cercanos a la forma en que los humanos realmente se comunican en el entorno profesional.
cielo24 acumuló más de una década de interacciones internas antes de cerrar. Son correos electrónicos, hilos de proyectos, documentos de procesos, conversaciones en herramientas de colaboración — todo eso representa una capa de lenguaje real, contextualizado y diverso que simplemente no existe en fuentes públicas como la internet abierta. Para los modelos de aprendizaje, esa diferencia es enorme.
Lo que sorprendió a la CEO de cielo24 fue la velocidad con la que el mercado reaccionó cuando la noticia de que esos datos de trabajo estaban disponibles empezó a circular. Laboratorios de IA se pusieron en contacto rápidamente, conscientes de que ese tipo de conjunto de datos es raro y valioso. La oferta que llegó a la mesa — del orden de cientos de miles de dólares — transformó una situación de desesperación financiera en un cierre digno y organizado.
La Fiebre del Oro de los Datos Corporativos
El CEO de SimpleClosure, Dori Yona, describió el nivel de interés que recibe su empresa por parte de compañías de IA como algo demencial. Según él, existe una sensación real de fiebre del oro entre estas empresas intentando poner las manos sobre datos del mundo real.
Para atender esa demanda creciente, SimpleClosure está lanzando el Asset Hub, una plataforma donde empresas en proceso de cierre pueden vender su inventario de código, archivos de Slack, correos electrónicos y otros activos digitales. Partes del Asset Hub todavía están en beta, según Yona, porque SimpleClosure elimina toda la información personalmente identificable de los datos internos de las empresas — un proceso sensible y técnicamente difícil que quieren asegurarse de que esté absolutamente sólido antes de expandir.
En el último año, SimpleClosure procesó cerca de 100 negociaciones en nombre de empresas cerradas, recuperando más de 1 millón de dólares para fundadores. Los pagos varían típicamente entre 10 mil y 100 mil dólares por empresa.
Una competidora, Sunset, también compra datos de empresas difuntas a precios similares. Su CEO, Brendan Mahony, explicó a Forbes que el precio depende del tamaño de la empresa, su antigüedad y algo llamado riqueza de datos — una medida de trazabilidad interna y conexiones entre plataformas dentro del conjunto. Un ticket en Jira vinculado a un commit específico de código, por ejemplo, vale mucho más que un documento aislado. Sectores como salud y finanzas también manejan precios premium, debido a la complejidad y especificidad de los datos generados.
Anonimización: La Línea Entre lo Útil y lo Problemático
Naturalmente, la primera pregunta que viene a la cabeza es: ¿y los empleados que produjeron esos datos? ¿Saben que sus mensajes y correos electrónicos pueden estar siendo usados para entrenar una IA?
Marc Rotenberg, fundador del Center for AI and Digital Policy, es directo sobre el asunto. Según él, aunque los empleados hayan firmado cláusulas cediendo derechos de propiedad intelectual sobre materiales de trabajo, eso no resuelve la cuestión de si los empleadores pueden vender comunicaciones internas a terceros — especialmente cuando los empleados jamás esperarían que sus mensajes de Slack pudieran ser reutilizados de esa forma.
Rotenberg considera las cuestiones de privacidad bastante sustanciales. Destacó que la privacidad de los empleados es una preocupación central, especialmente porque las personas se han vuelto muy dependientes de esas herramientas internas de comunicación como Slack. Para él, estos no son datos genéricos — son personas identificables.
La organización de Rotenberg envió una carta al Comité de Comercio del Senado estadounidense pidiendo que la FTC examine con atención las nuevas prácticas comerciales que involucran IA, citando preocupaciones sobre salvaguardas para la protección de datos personales.
El proceso de anonimización en sí no es simple ni barato. Requiere tecnología especializada, revisión humana en muchos casos y una metodología clara para garantizar que ninguna información sensible se filtre. Bobby Samuels, cuya empresa Protege se especializa en navegar el panorama regulatorio y legal de datos del mundo real, advierte que si la anonimización no se hace correctamente, existen riesgos de que las empresas con acceso a los datos puedan ver las actividades de organizaciones y personas específicas. Y si no se tratan con cuidado, esos datos pueden filtrarse a los outputs de los modelos.
Además de la anonimización, está el riesgo de que conversaciones de una persona sean literalmente regurgitadas por modelos de IA. Un estudio de 2020 realizado por investigadores de instituciones como OpenAI y Google demostró que los grandes modelos de lenguaje pueden memorizar secuencias de su conjunto de datos de entrenamiento de forma literal — y esas secuencias pueden ser extraídas con los prompts adecuados. Eso añade una capa extra de preocupación sobre la venta de comunicaciones corporativas para entrenamiento de IA. 😬
Los Nuevos Gimnasios de Entrenamiento Para Agentes de IA
La demanda por datos corporativos reales dio origen a una industria completamente nueva: los llamados RL gyms, o gimnasios de aprendizaje por refuerzo. Son entornos simulados construidos a partir de datos de empresas difuntas, donde agentes de IA pueden practicar la navegación en lugares de trabajo reales.
Y estamos hablando de dinero en serio aquí. Según The Information, Anthropic está considerando gastar hasta 1.000 millones de dólares en RL gyms este año. Ya existen cerca de 50 startups incipientes en este espacio, además de empresas de etiquetado de datos como Mercor y micro1 — que tradicionalmente ganan dinero pagando a humanos para generar datos de entrenamiento — entrando en el juego.
Algunas de estas startups ya están alcanzando valoraciones impresionantes. Prime Intellect superó los 1.000 millones de dólares en valoración, según una fuente familiarizada con el tema. Fleet está en negociaciones para captar inversiones con una valoración de 750 millones de dólares, también según The Information.
Una empresa llamada AfterQuery vende una serie de mundos listos para usar por laboratorios de IA, con nombres como Big Tech World, Finance World y Tax World. En esos entornos, un agente de IA practica navegar por una oficina digital, interactuar con agentes simulados de usuarios y aprender a resolver problemas del mundo real.
Un ejemplo de tarea recuerda a la rutina más aburrida de la gestión intermedia: el agente recibe la instrucción de planificar un cumpleaños para un colega llamado Bob. Pero, sin que el agente lo sepa, otro colega ya está planificando la misma fiesta. Para empeorar las cosas, el agente olvidó cuándo es el cumpleaños de Bob. Para tener éxito, necesita enviar mensajes a otros empleados, hacer un trabajo de detective y después decidir si une fuerzas con el otro organizador o abandona el plan original. 🎂
Un Mercado Nuevo Surgiendo de las Cenizas
El caso de cielo24 no es único, y esa es la parte más reveladora de toda la historia. Existe hoy un ecosistema emergente de empresas especializadas en identificar organizaciones que están cerrando actividades, negociar la adquisición de sus datos de trabajo y preparar esos conjuntos para su comercialización ante laboratorios de inteligencia artificial. Es un modelo de negocio que nació directamente de la explosión en la demanda por datos de entrenamiento de alta calidad — una demanda que la internet pública ya no puede suplir por sí sola.
Para las empresas difuntas, o mejor dicho, para sus fundadores, inversores y acreedores, este mercado representa una oportunidad inesperada de recuperar algo de valor de un activo que, hasta hace poco, simplemente se habría descartado. Una startup que no sobrevivió a las presiones del mercado puede, aun así, dejar un legado financiero a través de la venta de su historial de comunicaciones y operaciones internas. Esto cambia la forma en que emprendedores e inversores piensan sobre el cierre de una empresa — el dato acumulado a lo largo de los años deja de ser un costo de almacenamiento y pasa a ser parte del inventario de activos a liquidar.
Desde el punto de vista de los modelos de aprendizaje, el impacto es igualmente significativo. Datos corporativos reales, con toda su complejidad, sus abreviaturas, sus jergas específicas de sector y su variación natural de tono y contexto, enriquecen los modelos de una forma que textos rastreados de la web simplemente no pueden replicar. La diferencia entre un modelo entrenado solo con contenido público y uno que también absorbió años de comunicaciones internas de empresas reales puede percibirse en tareas como redacción de correos profesionales, gestión de proyectos asistida por IA y cualquier aplicación donde el contexto corporativo importa. 🤖
Lo Que Esto Significa Para Quienes Trabajan Con Datos
Si trabajas en tecnología o sigues de cerca el desarrollo de la inteligencia artificial, este movimiento trae reflexiones que van más allá de la curiosidad por un caso aislado. La cuestión central es: ¿qué hacemos con el rastro digital que dejamos atrás en el entorno profesional? Durante años, la respuesta estándar fue que esos datos quedaban en los servidores de las empresas, accesibles solo internamente, y desaparecían cuando la organización dejaba de existir. Esa respuesta ya no es adecuada.
El surgimiento de este mercado de datos de trabajo provenientes de empresas difuntas pone en evidencia la necesidad de políticas más claras sobre propiedad y destino de los datos generados por colaboradores. ¿Quién es dueño de un correo electrónico enviado por un empleado usando la cuenta corporativa de la empresa? La respuesta jurídica varía según la jurisdicción, pero la respuesta práctica — al menos por ahora — parece estar inclinándose del lado de las organizaciones y de quienes las adquieren o liquidan. Eso puede cambiar a medida que los reguladores presten más atención al fenómeno, y hay buenas razones para creer que esa atención está llegando.
Para quienes desarrollan o utilizan soluciones basadas en inteligencia artificial, entender de dónde vienen los datos de entrenamiento de los modelos que usas es cada vez más relevante. La procedencia de los datos afecta la calidad, la ética y el cumplimiento legal de cualquier sistema de IA.
Y pensándolo desde otro ángulo, tal vez esas horas que creías estar desperdiciando en Slack puedan terminar siendo el trabajo más duradero que hayas hecho jamás. A menos, claro, que el modelo de IA — habiendo memorizado tus datos demasiado bien — accidentalmente revele a la próxima generación de compañeros de oficina que fuiste tú quien olvidó el cumpleaños de Bob. 💡
