Un agente de IA destruyó la base de datos completa de un programador — y no es el único con una historia de terror
Inteligencia Artificial en el desarrollo de software ya no es ninguna novedad, pero los accidentes que puede causar cuando se usa sin el debido cuidado están apareciendo con una frecuencia que preocupa — y mucho.
Y no estamos hablando de bugs simples o de errores fáciles de corregir.
Estamos hablando de bases de datos de producción borradas, sistemas críticos caídos y años de trabajo puestos en riesgo en cuestión de minutos — todo por culpa de agentes de IA que recibieron demasiada autonomía, sin las protecciones adecuadas en su lugar.
El caso del ingeniero Alexey Grigorev se convirtió en símbolo de esto. Mientras usaba Claude Code, una herramienta popular de Anthropic que ayuda a desarrolladores a escribir y ejecutar código, para actualizar un sitio web, vio cómo el agente comenzó a destruir el entorno de producción: red, servicios y, lo más crítico de todo, la base de datos con años de datos de cursos. Una configuración errónea en un laptop nuevo fue suficiente para que el agente confundiera lo que era real con lo que podía ser eliminado. Los datos se recuperaron con la ayuda del soporte de AWS, pero la lección quedó — y le sirve a mucha gente más allá de él. 🚨
Porque el problema no es aislado. De Amazon a las startups, pasando por empresas de todos los tamaños, una combinación de presión por productividad, exceso de confianza en las herramientas y falta de revisión humana está creando un escenario cada vez más arriesgado en el desarrollo asistido por IA. Y los números que están surgiendo son difíciles de ignorar.
Qué pasó realmente con la base de datos de Grigorev
Para entender la magnitud del problema, es importante ir más allá del resumen. El ingeniero Alexey Grigorev estaba realizando una tarea aparentemente simple: actualizar configuraciones de un sitio web usando Claude Code, un agente de inteligencia artificial con capacidad de ejecutar comandos directamente en la terminal, acceder a archivos e interactuar con servicios de nube de forma autónoma. Este tipo de herramienta representa un salto enorme en la automatización de procesos de desarrollo, porque permite que tareas repetitivas y técnicas se deleguen a la IA con mucha menos intervención humana que antes. El problema es exactamente esa autonomía — cuando no está rodeada de límites bien definidos, el riesgo de daño real crece de forma exponencial.
Lo que desencadenó el incidente fue una configuración ausente en el laptop nuevo que Grigorev estaba usando. Sin las variables de entorno correctas apuntando a entornos de prueba o staging, el agente interpretó el entorno de producción como el objetivo legítimo de las operaciones. Y siguió adelante. Borró registros de red, tumbó servicios y, en el momento más crítico, comenzó a destruir la base de datos que almacenaba años de información sobre cursos — un activo digital de valor incalculable para cualquier plataforma educativa. Todo esto ocurrió en minutos, sin ningún aviso claro, sin una etapa de confirmación obligatoria y sin que hubiera un mecanismo de reversión automática activado antes de la ejecución.
El propio Grigorev reconoció que se había apoyado demasiado en el agente de IA y que, al permitirle hacer y ejecutar todos los cambios de punta a punta, terminó eliminando verificaciones de seguridad que habrían impedido la eliminación de los datos.
La recuperación de los datos solo fue posible gracias al soporte de AWS, que logró restaurar snapshots anteriores de la base. Pero ese final feliz no está garantizado en todos los casos. Como el ingeniero le dijo a Fortune: los asistentes de IA son geniales y ahorran mucho tiempo, pero él espera que las personas aprendan de los errores que él cometió e que incorporen salvaguardas en sus flujos de trabajo. 💡
Vale recordar que Claude Code cuenta con configuraciones que permiten al usuario controlar cuándo y con qué frecuencia el agente necesita pedir autorización antes de ejecutar acciones. Es posible especificar que determinadas operaciones requieran permiso explícito. Pero muchos desarrolladores prefieren dejar que el agente tome decisiones de forma más autónoma, en parte porque eso ahorra tiempo. Hasta el momento de la publicación original del reportaje, Anthropic no había respondido a una solicitud de comentario sobre el caso.
Amazon también enfrentó problemas con código generado por IA
Si el caso de Grigorev fuera un incidente aislado, tal vez podría tratarse como una curiosidad. Pero la realidad es que incluso las mayores empresas de tecnología del mundo están enfrentando situaciones similares. La semana anterior a la publicación original del reportaje de Fortune, Amazon convocó una reunión de análisis profundo — lo que se conoce como deep dive — tras una serie de interrupciones que afectaron su sitio web y aplicación. De acuerdo con reportajes de medios como Financial Times y CNBC, al menos una de las fallas del sistema involucró cambios asistidos por IA.
Un portavoz de Amazon le dijo a Fortune que la reunión era parte de las operaciones regulares semanales de la empresa. La compañía también afirmó públicamente que solo uno de los incidentes involucró IA, y que la causa real no estaba relacionada con la inteligencia artificial en sí — el problema habría sido que los sistemas de la empresa permitieron que un error de ingeniería humana tuviera un impacto más amplio de lo que debería.
Sin embargo, documentos internos de Amazon visualizados tanto por CNBC como por Financial Times originalmente citaban cambios asistidos por IA generativa como factor en una tendencia de incidentes. La referencia al papel de la IA en las interrupciones fue posteriormente eliminada del documento antes de la reunión, según CNBC. De acuerdo con Financial Times, una interrupción en los servicios de Amazon Web Services en diciembre ocurrió después de que ingenieros permitieran que Kiro, la herramienta de codificación por IA de la propia Amazon, hiciera modificaciones — algo que la empresa después clasificó como error del usuario.
Este tipo de situación es particularmente revelador porque muestra que incluso organizaciones con recursos prácticamente ilimitados de ingeniería e infraestructura no son inmunes a los riesgos de dar demasiada autonomía a agentes de IA en entornos de producción. Si Amazon enfrenta este tipo de problema, imaginen lo que puede pasar en empresas más pequeñas, con menos capas de revisión y menos capacidad de recuperación tras un incidente grave.
La dependencia excesiva de herramientas de IA está cambiando la ingeniería de software
En toda la industria, ingenieros reportan que la dependencia de asistentes de IA para escribir y desplegar código está cambiando rápidamente la naturaleza de los trabajos de desarrollo de software — e introduciendo nuevos riesgos para los que pocos estaban preparados.
Un ingeniero de Amazon, que pidió no ser identificado, le dijo a Fortune que las personas se están volviendo tan dependientes de la IA que esencialmente dejan de revisar el código por completo. Según él, profesionales técnicamente calificados están migrando a un rol más de revisión que de codificación activa, con la IA encargándose de buena parte de la implementación real. Aunque estas herramientas permiten una entrega más rápida de funcionalidades, también crean lo que algunos llaman ruido de producción — código que se entrega rápidamente, pero que no siempre es necesario o está completamente probado. En algunos casos, ese código puede incluso afectar sistemas críticos.
David Loker, VP de IA en CodeRabbit, explicó que las consecuencias no siempre son tan visibles como una interrupción de servicio. En una ocasión, contó que un asistente de IA generó código que parecía perfectamente válido, pero que fue construido con base en suposiciones erróneas sobre el sistema subyacente — código que podría haber pasado en una revisión rápida, pero que habría tumbado la base de datos en producción si se hubiera desplegado.
Hay además otro efecto colateral preocupante. Como la codificación asistida por IA reduce el conocimiento técnico necesario para ejecutar ciertas tareas de desarrollo, ingenieros reportan que empresas están tercerizando trabajos normalmente realizados por profesionales senior a juniors o empleados menos técnicos — solo para descubrir que la baja calidad del resultado genera más trabajo que ahorro.
Un ingeniero basado en Londres, que trabaja en una empresa de software corporativo y pidió anonimato, describió la situación así: mucho de lo que se construyó era de mala calidad, se rompía frecuentemente y terminaba siendo más una carga que un beneficio. El tiempo ahorrado al poner personas con menos experiencia a escribir el código se anulaba por la necesidad de pagar a alguien mucho más caro — un senior o principal — para ir a arreglarlo cuando todo se rompía.
El impuesto de la corrección recae sobre los más experimentados
Datos más amplios sugieren que la carga de revisar y corregir trabajos asistidos por IA está cayendo de forma desproporcionada sobre los ingenieros más experimentados. Aunque profesionales senior tienen las habilidades para identificar errores lógicos o fallas de seguridad que un junior podría dejar pasar — lo que les permite entregar más rápido —, también están pagando un creciente impuesto de la corrección.
Una encuesta de Fastly de julio de 2025 reveló que ingenieros senior publican casi 2,5 veces más código generado por IA que los juniors, justamente porque son mejores identificando errores antes de que se acumulen. Pero casi el 30% de los seniors dijeron que corregir el resultado de la IA consumía la mayor parte del tiempo que habían ahorrado, en comparación con el 17% de los desarrolladores junior. Los juniors frecuentemente sienten que obtuvieron mayores ganancias de productividad porque todavía no logran ver toda la deuda técnica o las vulnerabilidades latentes que sus modificaciones asistidas por IA están silenciosamente añadiendo al sistema. 🔍
La paradoja de la productividad y el FOMO de la alta dirección
Parte del problema viene de arriba. Ingenieros de los laboratorios de IA líderes del mercado han divulgado picos de productividad que habrían parecido inverosímiles hace apenas algunos años — y organizaciones más grandes, de diversos sectores, quieren replicar esas ganancias a cualquier costo.
Por ejemplo, Boris Cherny, jefe de Claude Code en Anthropic, ya dijo que no escribe una línea de código hace meses, confiando enteramente en el modelo de IA de la empresa para generar todo. Dentro de Anthropic en general, la empresa le informó a Fortune que entre el 70% y el 90% de todo su código ya es generado por IA. En Spotify, el co-CEO Gustav Söderströn reveló que los mejores desarrolladores de la empresa no escribían una sola línea de código desde diciembre y que más de 50 nuevas funcionalidades fueron lanzadas en 2025 usando flujos de trabajo asistidos por IA.
Pero, como los problemas recientes de Amazon demuestran, las ganancias de productividad más visibles en laboratorios de IA y startups ágiles pueden ser mucho más difíciles de replicar en grandes empresas con sistemas legados y bases de código complejas. Donde equipos más pequeños pueden moverse rápido y absorber errores, empresas como Amazon operan infraestructuras donde un solo despliegue malo puede afectar a millones de clientes.
Un informe de septiembre de Bain & Company concluyó que, aunque la programación fue una de las primeras áreas en adoptar IA generativa, los ahorros reales fueron modestos y los resultados no correspondieron al entusiasmo. Mientras tanto, una investigación de la empresa de seguridad Apiiro mostró que desarrolladores que usaban IA introdujeron aproximadamente diez veces más problemas de seguridad que aquellos que no la usaban.
Los modelos de IA cometen errores sutiles que se amplifican a escala
Como el investigador de IA Andrej Karpathy ya observó, los modelos de IA pueden cometer errores conceptuales sutiles, complicar excesivamente el código y dejar código no utilizado — problemas que son manejables en un entorno controlado, pero mucho más difíciles de identificar y corregir a escala. Un informe de diciembre de CodeRabbit, que analizó 470 pull requests de código abierto en GitHub, descubrió que el código escrito por IA contenía aproximadamente 1,7 veces más problemas en general que el código escrito por humanos.
Organizaciones más grandes tienden a tener más stakeholders, más capas de revisión y más dependencias — un entorno donde el código generado por IA tiene más probabilidades de introducir fallas inesperadas.
Como Loker explicó, les va a tomar más tiempo a organizaciones grandes como AWS o Nvidia implementar esto de forma segura, porque tienen mucho código legado. Hay menos documentación, menos capacidad de búsqueda para que la IA se oriente, y por eso es más difícil encontrar el contexto correcto. El resultado inevitable es la introducción de problemas.
Las métricas de éxito están contando solo la mitad de la historia
Otro aspecto fundamental que el reportaje original plantea es cómo las propias empresas miden el éxito de la codificación por IA. Según Loker, es muy fácil medir el aumento de productividad bruta. Lo que no es fácil medir es la causalidad de lo que pasa después. Las métricas tradicionalmente usadas para evaluar la productividad de desarrolladores — funcionalidades entregadas, código commiteado — lucen fuertes cuando hay IA involucrada, pero no capturan las consecuencias downstream como bugs, rollbacks o el tiempo invertido limpiando el desorden.
Existe también la cuestión de los benchmarks usados para medir la capacidad de codificación de la IA. Un estudio reciente de METR, una organización de evaluación de IA, descubrió que la mitad de las soluciones de codificación por IA que recibieron nota aprobatoria en un test prominente de la industria — que es él mismo evaluado por un modelo de IA — habrían sido rechazadas por revisores humanos por calidad inadecuada.
Toby Ord, investigador senior de la Oxford Martin AI Governance Initiative, afirmó que las estimaciones actuales de la capacidad de codificación de la IA están de hecho sobreestimando las cosas, y tal vez por un factor significativo.
La deuda técnica se está acumulando a una velocidad sin precedentes
Empresas que adoptan IA a escala también corren el riesgo de acumular lo que los ingenieros llaman deuda técnica — código que funciona a corto plazo, pero que se vuelve cada vez más costoso de mantener con el tiempo. Como Loker describió de forma bastante directa: la producción de deuda técnica usando IA está ocurriendo a un ritmo que él ni siquiera puede dimensionar. Su estimación es que sea de tres a cuatro veces mayor de lo que era anteriormente.
Este es quizás el riesgo más silencioso y más peligroso de todos. Mientras una interrupción de servicio es visible, inmediata y demanda acción urgente, la deuda técnica se acumula lentamente, sin alarmas, hasta que el sistema se vuelve tan frágil que cualquier pequeño cambio puede desencadenar una cascada de fallas. Para grandes empresas, este tipo de degradación silenciosa puede representar un costo que supera con creces los ahorros iniciales obtenidos con la adopción de herramientas de IA.
La seguridad de datos no es opcional cuando la IA entra en juego
Uno de los puntos más importantes que el caso Grigorev pone sobre la mesa es la cuestión de la seguridad de datos en entornos donde agentes de IA tienen acceso operacional real. Tradicionalmente, la seguridad en el desarrollo de software se piensa en términos de protección contra ataques externos — intrusiones, filtraciones, explotación de vulnerabilidades por actores malintencionados. Pero un agente de IA con permisos amplios representa un vector de riesgo completamente diferente: no necesita ser hackeado para causar daño. Puede causar daño por diseño, simplemente ejecutando las tareas para las que fue instruido, en un contexto que no interpretó correctamente.
Prácticas básicas de seguridad que deberían ser innegociables incluyen:
- Separación rigurosa entre entornos de desarrollo, staging y producción, con variables de entorno explícitas y verificadas antes de cualquier ejecución automatizada
- Aplicación del principio de mínimo privilegio para cualquier agente de IA con acceso a recursos críticos
- Backups automáticos y frecuentes, con pruebas regulares de restauración
- Etapas obligatorias de confirmación humana antes de acciones destructivas como eliminación de datos o modificación de infraestructura
- Documentación clara y accesible sobre lo que cada agente está autorizado a hacer — y lo que no
Estas no son medidas nuevas — son buenas prácticas de ingeniería que existen hace décadas, pero que necesitan ser reafirmadas y adaptadas al contexto de los nuevos agentes autónomos. La seguridad de datos en un entorno de IA no es un complemento de la estrategia de desarrollo: es parte fundamental de la estrategia. 🔐
Lo que los errores de hoy están enseñando para el mañana
Por más que incidentes como el de Grigorev y las interrupciones en Amazon sean preocupantes, también tienen un papel importante: están ayudando a construir, en la práctica, un conjunto de lecciones que la industria necesitaba aprender de alguna forma. La discusión que surgió después de que estos casos salieran a la luz generó un debate rico sobre las responsabilidades de quienes desarrollan herramientas de IA, de quienes las adoptan y de quienes definen las políticas de uso dentro de las organizaciones.
Entre las principales lecciones que están emergiendo de estas situaciones, algunas se destacan con claridad:
- Autonomía y responsabilidad necesitan ir de la mano — cuanto más independiente sea un agente de IA, más robusto necesita ser el sistema de supervisión y reversión a su alrededor
- La configuración del entorno es tan crítica como el código en sí — una variable de entorno faltante puede ser tan destructiva como un bug grave en el sistema
- La comunicación dentro de los equipos sobre lo que los agentes de IA están autorizados a hacer necesita ser explícita, documentada y revisada regularmente
- Las métricas de productividad necesitan incluir indicadores de calidad downstream, como tasa de bugs, rollbacks y tiempo invertido en correcciones
- Los ingenieros senior no pueden ser reducidos a revisores de código generado por IA — su experiencia necesita informar la gobernanza del uso de estas herramientas, no solo la corrección de sus errores
Mirando hacia adelante, lo que el mercado va a exigir — y lo que los mejores equipos ya están construyendo — es un enfoque maduro para el uso de inteligencia artificial en el desarrollo de software. Un enfoque que celebre las ganancias reales de productividad que estas herramientas ofrecen, pero que trate los riesgos con la seriedad que merecen. Eso significa invertir en capacitación, en procesos, en pruebas y en una cultura donde admitir que algo salió mal sea el punto de partida para mejorar — no un motivo de vergüenza.
La IA va a seguir evolucionando, las herramientas van a ser más poderosas y la tentación de darles más autonomía va a crecer. La cuestión no es si más incidentes van a ocurrir, sino si los equipos estarán preparados para contenerlos antes de que el daño sea irreversible. 🚀
