La Agentic AI crece a un ritmo acelerado, y las vulnerabilidades avanzan al mismo paso
La Agentic AI llegó para cambiar las reglas del juego, y llegó demasiado rápido.
Mientras la IA tradicional se queda esperando a que escribas algo para recién entonces reaccionar, los agentes autónomos de nueva generación operan en otro nivel: toman decisiones, persiguen objetivos y solo recurren a un humano cuando realmente lo necesitan.
Suena increíble, y lo es.
Pero toda esa autonomía tiene un precio que la industria todavía está aprendiendo a pagar.
Según Deloitte, alrededor del 25% de las organizaciones ya están explorando o probando agentes autónomos de IA. Esto representa un giro real en la forma en que las empresas manejan la automatización inteligente, pasando del modelo tradicional de IA generativa basada en prompts a sistemas que actúan por cuenta propia. El problema es que la adopción acelerada trajo consigo un crecimiento igualmente acelerado en las vulnerabilidades de estos sistemas, y el ecosistema de seguridad aún no está preparado para lidiar con esta nueva realidad. 🚨
Solo en 2026, aproximadamente 15.000 fallas de seguridad ya fueron divulgadas públicamente a través del sistema de Common Vulnerabilities and Exposures (CVE). De esas, decenas impactan directamente sistemas de IA o código generado por IA. La weaponización y la explotación de sistemas de inteligencia artificial se hicieron especialmente visibles a finales de 2025, y la tendencia solo se aceleró desde entonces. El caso OpenClaw se convirtió en el ejemplo más emblemático de cómo popularidad y riesgo pueden caminar de la mano cuando nadie está prestando atención a los detalles.
Qué hace diferente a la Agentic AI, y más riesgosa
La diferencia entre un chatbot común y un agente autónomo de IA va mucho más allá de la interfaz. Mientras los modelos tradicionales responden a prompts aislados y dependen de un humano para encadenar las acciones, la Agentic AI fue construida para actuar de forma continua, coordinar tareas complejas, acceder a herramientas externas, ejecutar código, navegar en sistemas y tomar decisiones sin aprobación humana en cada paso.
Estos agentes combinan paneles de control de interfaz, integraciones de mensajería, automatización de navegador, herramientas SSH, ejecución en containers, acceso al sistema de archivos y un LLM coordinando todo eso. En otras palabras, tocan prácticamente todas las capas de un sistema. Un token filtrado o un paquete falsificado pueden escalar rápidamente hacia un compromiso completo a nivel de operador.
Esto cambia todo cuando el tema es ciberseguridad, porque la superficie de ataque deja de ser un punto fijo y pasa a ser un objetivo en movimiento constante. Los permisos amplios que estos agentes poseen los convierten en blancos extremadamente atractivos para los atacantes.
Cuando un agente autónomo tiene permiso para acceder a APIs, bases de datos, archivos e hasta otros agentes dentro de una cadena de automatización, cualquier falla en un solo eslabón puede comprometer todo el sistema. Y lo peor: muchas veces esa falla no activa ninguna alerta inmediata, porque el comportamiento del agente, desde un punto de vista superficial, sigue pareciendo normal. Es exactamente ahí donde los ataques más sofisticados logran operar sin levantar sospechas durante horas, a veces días enteros.
El modelo de confianza que sostiene los sistemas tradicionales simplemente no fue diseñado para este escenario. Los frameworks de seguridad clásicos asumen que hay un humano revisando y aprobando cada acción crítica. Con agentes autónomos, esa suposición se cae por completo. Las organizaciones que están adoptando Agentic AI en ambientes de producción sin revisar sus modelos de gobernanza y control de acceso están, básicamente, entregando las llaves del castillo a un sistema que nadie sabe exactamente cómo va a comportarse ante un input malicioso bien construido.
OpenClaw: el caso que encendió la señal de alerta
El OpenClaw, anteriormente conocido como ClawdBot o MoltBot, es un agente de IA autónomo y auto-hospedado, capaz de navegar en la web, gestionar archivos, leer, escribir y ejecutar código localmente. Corre directamente en la máquina del usuario y puede encadenar múltiples habilidades para completar tareas complejas. Al ser open source, es altamente personalizable y accesible para cualquier persona.
El OpenClaw no solo ganó tracción, simplemente explotó. Pocas semanas después del lanzamiento, se convirtió en el repositorio con más estrellas en GitHub, atrayendo una comunidad masiva de desarrolladores y atención inmediata de investigadores de seguridad.
Pero junto con esa popularidad llegó el escrutinio. Muchos usuarios no comprenden completamente las implicaciones de seguridad y privacidad de correr un sistema con ese nivel de autonomía y acceso en su propia máquina. Investigadores de seguridad alertaron que el OpenClaw presenta una tríada letal de riesgos:
- Acceso profundo a datos privados locales — el agente puede leer archivos, acceder a credenciales almacenadas e interactuar con recursos del sistema operativo de formas que la mayoría de los usuarios ni imagina
- Interacción con contenido externo no confiable — al navegar en la web y procesar datos de terceros, el agente queda expuesto a inputs maliciosos que pueden subvertir su comportamiento
- Capacidad de comunicarse externamente — el agente puede enviar datos fuera de la máquina, lo que transforma cualquier compromiso interno en una potencial filtración de datos completa
No es sorpresa, entonces, que el OpenClaw ya haya publicado más de 255 GitHub Security Advisories. Muchas de las fallas están ligadas a ejecución de comandos, claves de API y credenciales expuestas en texto plano, que pueden ser robadas por agentes maliciosos mediante prompt injection indirecta, skills maliciosas o endpoints inseguros.
Prompt injection indirecta: el caso ClawJacked
El OpenClaw es vulnerable a ataques de prompt injection indirecta, donde los atacantes esconden instrucciones maliciosas dentro de datos que el agente está destinado a procesar. Si el agente interpreta esas instrucciones ocultas como legítimas, puede filtrar datos o ejecutar acciones sensibles sin que el usuario se dé cuenta.
Esa técnica fue justamente lo que hizo posible el ClawJacked, una vulnerabilidad que permitía que sitios maliciosos realizaran ataques de fuerza bruta y secuestraran instancias del OpenClaw corriendo localmente. Investigadores de Oasis Security descubrieron la falla, que posibilitaba a los atacantes exfiltrar datos silenciosamente al abusar de la autonomía nativa del agente. El OpenClaw corrigió el problema en la versión 2026.2.26, lanzada el 26 de febrero.
Este tipo de ataque es particularmente peligroso porque no depende de ninguna acción explícita del usuario. Basta visitar una página comprometida para que el agente local sea explotado. Es el tipo de escenario que desmonta cualquier argumento del tipo yo tengo cuidado con los links que hago clic. Aquí, el cuidado del usuario es insuficiente porque el vector de ataque explota la lógica del propio agente, no la desatención humana.
ClawHub y la campaña de malware ClawHavoc
Los desafíos de seguridad van mucho más allá de las vulnerabilidades en la plataforma central. El ClawHub, un repositorio comunitario para compartir skills del OpenClaw, fue explotado para distribuir paquetes maliciosos disfrazados como bots de trading, utilitarios o herramientas de desarrollo. Una vez instaladas, estas skills pueden implantar malware que roba información directamente en la máquina del usuario.
A inicios de 2026, investigadores descubrieron el ClawHavoc, una campaña de malware a gran escala dirigida a la cadena de suministro de software de los usuarios del OpenClaw. Los atacantes cargaron más de 1.100 skills maliciosas en el ClawHub, muchas haciéndose pasar por herramientas de productividad, cripto o programación. Un atacante identificado como hightower6eu cargó decenas de skills maliciosas prácticamente idénticas. Varias de ellas se convirtieron en algunos de los paquetes más descargados en la plataforma.
Este ataque dejó claro que el ecosistema de skills del OpenClaw se transformó en un ambiente rico en blancos para agentes maliciosos. El modelo abierto y comunitario, que es uno de los grandes atractivos de la herramienta, también es lo que la hace más expuesta a este tipo de abuso cuando no existen mecanismos robustos de verificación y curación de paquetes.
El sistema de rastreo de vulnerabilidades se está quedando atrás
La Agentic AI crece rápido y el volumen de vulnerabilidades está sobrepasando la capacidad de los sistemas tradicionales de rastreo. El ritmo de divulgaciones relacionadas con el OpenClaw es más veloz de lo que el proceso de atribución de CVEs puede seguir, dejando muchas vulnerabilidades sin identificadores CVE formales.
Esto es mucho más que un problema administrativo. La mayoría de las herramientas de gestión de parches, frameworks de compliance y sistemas de seguridad corporativa depende fuertemente de los CVE IDs para identificar riesgos y dar seguimiento a la remediación. Cuando las vulnerabilidades no reciben CVEs, simplemente pueden no aparecer en dashboards, scanners o reportes automatizados. En la práctica, esto las vuelve invisibles para muchas organizaciones.
El escenario de divulgación de vulnerabilidades está empezando a mostrar sus límites, y sistemas de Agentic AI como el OpenClaw están exponiendo lo poco preparados que estamos para esta clase emergente de problemas de seguridad. El sistema tradicional de rastreo vía CVE fue construido para fallas de software bien definidas y discretas, no para sistemas autónomos capaces de tomar acciones, navegar en contenido externo y encadenar herramientas para completar tareas.
Como resultado, muchas fallas de seguridad significativas en IA surgen primero como writeups de investigación independientes, advisories de proveedores o inconsistencias de comportamiento extrañas, y no como vulnerabilidades bien etiquetadas y catalogadas.
Por qué el ecosistema de seguridad todavía está detrás
Una de las razones por las que casos como el del OpenClaw logran escalar antes de ser contenidos es estructural: las herramientas de ciberseguridad disponibles en el mercado fueron diseñadas para identificar patrones de ataque conocidos en sistemas con comportamiento predecible. Los agentes autónomos de IA, por definición, tienen comportamiento adaptativo. Toman caminos diferentes dependiendo del contexto, y eso hace extremadamente difícil distinguir una acción legítima de una acción comprometida solo mirando los logs de ejecución. Los equipos de seguridad necesitan nuevos enfoques, y la mayoría de las empresas todavía no tienen esos enfoques implementados.
Además, el ritmo de publicación de vulnerabilidades en 2026 deja claro que el problema no es aislado. Con alrededor de 15.000 CVEs divulgados solo este año, y una porción creciente de ellos relacionada con sistemas que involucran IA generativa o código producido por modelos de lenguaje, queda evidente que el campo de seguridad está corriendo detrás de una realidad que ya escapó del control en varios puntos. Cada nueva herramienta de agentes que entra al mercado sin pasar por un proceso riguroso de revisión de seguridad añade una capa más de riesgo a un ambiente que ya estaba sobrecargado.
El camino hacia adelante involucra un cambio de mentalidad que va más allá de simplemente añadir más scanners o más reglas de firewall. Las organizaciones que están tomando en serio la adopción de Agentic AI necesitan incorporar prácticas de seguridad desde el diseño de los agentes, definiendo alcances de permisos mínimos, implementando validación rigurosa de instrucciones en cada etapa del pipeline y estableciendo mecanismos de monitoreo que logren detectar desviaciones de comportamiento en tiempo real. Esto no es opcional, es el piso mínimo para operar con responsabilidad en este nuevo escenario.
Qué cambia en la práctica para quienes usan o desarrollan agentes
Para quienes están desarrollando o integrando soluciones basadas en Agentic AI, el caso del OpenClaw funciona como un mapa de lo que no hay que hacer. La primera lección es clara: popularidad no es sinónimo de seguridad. Una herramienta con miles de estrellas en GitHub puede haber sido revisada por mucha gente en términos de funcionalidad y practicidad, pero eso no garantiza que alguien la haya mirado con los ojos de quien está intentando encontrar una brecha para explotar. Auditorías de seguridad independientes, revisión de código con foco en vectores de ataque específicos para IA y pruebas de red team orientadas a inyección de prompt son etapas que necesitan ser parte del proceso antes de que cualquier cosa vaya a producción.
La segunda lección tiene que ver con el principio de menor privilegio aplicado a agentes autónomos. Un agente que necesita leer archivos de log no necesita tener permiso para escribir en bases de datos. Un agente que gestiona comunicaciones no necesita tener acceso al sistema de pagos. Parece obvio, pero la prisa en la implementación hace que muchos equipos concedan permisos amplios de entrada para simplificar la configuración inicial, y después nunca vuelven a revisar ese punto. Ese error de diseño es exactamente lo que transforma una vulnerabilidad de bajo impacto en un vector de explotación crítico.
La tercera lección es sobre visibilidad. Los agentes autónomos necesitan pistas de auditoría detalladas que registren no solo lo que hicieron, sino por qué lo hicieron, es decir, qué instrucción originó qué acción, en qué contexto y con qué parámetros. Sin ese nivel de trazabilidad, investigar un incidente de seguridad en un sistema de Agentic AI es como intentar reconstruir una conversación entera a partir de una sola frase. Es casi imposible entender qué pasó, mucho menos garantizar que no va a pasar de nuevo. 🔍
Tratando vulnerabilidades de IA como riesgos a nivel de sistema
En el corto plazo, las organizaciones necesitan empezar a tratar las debilidades de la Agentic AI como riesgos a nivel de sistema, y no solo como entradas faltantes en la base de datos de CVEs. Esto significa expandir el monitoreo más allá de los feeds de CVE tradicionales, fortalecer controles arquitectónicos como alcance de permisos y auditoría de acciones, y reconocer que la explotación puede ocurrir antes de que cualquier divulgación formal sea publicada.
Hasta que los estándares de la industria evolucionen para dar cuenta adecuadamente de sistemas orientados por IA, la resiliencia va a depender de tres pilares fundamentales:
- Detección temprana de señales — monitorear investigaciones independientes, advisories de proveedores y comunidades de seguridad para identificar riesgos antes de que entren en los canales formales
- Contención rápida — tener playbooks listos para aislar agentes comprometidos sin paralizar toda la operación
- Reconocimiento de que las vulnerabilidades de IA no son un problema futuro — ya están presentes en ambientes de producción, y los atacantes no están esperando a que el resto del ecosistema se actualice
La realidad es que estamos entrando de lleno en una nueva clase de problemas de seguridad, y la infraestructura actual simplemente no fue construida para esto. El proceso tradicional de atribución y enriquecimiento de CVEs está trabajando para adaptarse, pero las organizaciones no pueden darse el lujo de esperar actualizaciones formales antes de actuar.
El escenario de Agentic AI en 2026 deja un mensaje bien directo: la velocidad de la innovación en IA superó la velocidad de la seguridad. Y cerrar esa brecha no es responsabilidad de un único proveedor, framework u organismo regulador. Es un esfuerzo colectivo que exige atención constante, adaptación rápida y, sobre todo, honestidad sobre el tamaño del desafío que tenemos por delante. 🛡️
