Para compartir:

Patronus AI acaba de demostrar que el mercado se está tomando muy en serio un problema que mucha gente todavía subestima.

La startup, fundada en 2023 por los exinvestigadores de IA de Meta Anand Kannappan y Rebecca Qian, acaba de asegurar una ronda de inversión de 50 millones de dólares para construir lo que llaman mundos digitales, entornos diseñados para poner a prueba los límites de los agentes de inteligencia artificial.

Los agentes de IA han evolucionado demasiado rápido.

Hace poco solo respondían preguntas sencillas, y hoy ya ejecutan tareas complejas de forma autónoma, como reservar viajes, hacer análisis financieros e interactuar con sistemas enteros sin necesidad de un humano de por medio.

Pero ahí surge una pregunta que nadie puede ignorar: ¿cómo garantizar que esos agentes realmente funcionan antes de soltarlos en el mundo real?

Los benchmarks tradicionales, esas métricas que a los laboratorios les encanta usar para mostrar el rendimiento de sus modelos, no responden bien a esa pregunta.

Reciba el mejor contenido sobre innovación en su correo electrónico.

Todas las noticias, consejos, tendencias y recursos que buscas, directamente en tu bandeja de entrada.

Al suscribirte al boletín informativo, aceptas recibir comunicaciones de Método Viral. Nos comprometemos a proteger y respetar siempre tu privacidad.

Sacar una nota alta en un test, incluso si es un test orientado a agentes, no significa que vaya a dar la talla en una situación real, con todas las variables, imprevistos y trampas que aparecen en el día a día.

Es exactamente esa brecha la que Patronus AI está intentando cerrar, y los inversores ya se dieron cuenta. 💡

El problema que las pruebas convencionales no logran resolver

Evaluar un agente de IA va mucho más allá de medir cuántas preguntas acierta en un examen estandarizado. El gran desafío es que los agentes modernos operan en entornos dinámicos, toman decisiones encadenadas y lidian con situaciones que ningún conjunto de datos de entrenamiento puede prever por completo. Cuando una empresa pone a un agente a trabajar de verdad, este se enfrenta a sistemas heredados mal documentados, usuarios que no siguen el flujo esperado, APIs que cambian sin aviso y excepciones que sencillamente no existían sobre el papel. Ningún benchmark estático captura ese escenario con fidelidad mínima, y por eso tantos proyectos de automatización con IA terminan fallando silenciosamente después de salir del laboratorio.

Este problema ha ganado relevancia en el sector como el desafío de los procesos no verificables: la dificultad de confirmar, con métodos objetivos y reproducibles, si un agente realmente está preparado para operar de forma segura y eficaz fuera de condiciones controladas. Según el propio Kannappan, hoy la empresa está bastante enfocada en los problemas que son verificables, es decir, aquellos que se pueden comprobar y confirmar de inmediato. Pero reconoce que existen innumerables otras áreas que son no verificables o muy difíciles de verificar, y es justamente ahí donde reside buena parte del desafío.

Esto crea una brecha enorme entre lo que los modelos demuestran en presentaciones y lo que entregan en producción, y esa brecha le ha costado caro a empresas que apostaron fuerte por la automatización sin la debida validación. Vale destacar que, incluso cuando un proceso es verificable, eso no quiere decir que sea sencillo. Kannappan explica que la meta de la empresa es lograr crear entornos capaces de operar un agente que funcione durante 10 horas, 10 días o hasta 10 semanas seguidas, lo que muestra el nivel de complejidad involucrado.

La situación es todavía más delicada cuando se considera que los agentes de IA de nueva generación no se quedan quietos esperando una instrucción. Planifican, delegan subtareas, consultan herramientas externas, escriben y ejecutan código, y toman decisiones que se encadenan en secuencias largas y difíciles de rastrear. Cuanto más autónomo es el agente, más difícil resulta monitorear cada paso y más grave se vuelve cualquier error que aparezca en el camino. Este es el contexto que hace que la propuesta de Patronus AI sea tan relevante y oportuna para el mercado en este momento.

Mundos digitales como solución para la evaluación de agentes

La respuesta de Patronus AI a este problema es crear mundos digitales, o lo que la empresa denomina modelos de mundo digital. Son réplicas de sitios web y de sistemas internos, entornos de simulación completos y controlados donde los agentes de IA pueden ser probados en condiciones que imitan de cerca lo que encontrarían en una implementación real. La idea no es simplemente ejecutar el agente en un entorno de prueba genérico, sino construir réplicas funcionales de contextos específicos, dentro de las cuales el agente enfrenta situaciones ambiguas, instrucciones contradictorias, errores simulados y escenarios imprevisibles.

Lo que hace diferente a este enfoque es la combinación con aprendizaje por refuerzo. En los mundos digitales creados por Patronus AI, los agentes pasan por un estrés de pruebas después del entrenamiento, y el sistema recompensa de forma iterativa las tareas completadas con éxito y penaliza los errores cometidos en el camino. Este ciclo permite que el comportamiento del agente se ajuste a lo largo del tiempo, haciéndolo más calibrado y más robusto en cada ronda de prueba dentro del entorno digital.

Los laboratorios de IA ven un valor enorme en estas simulaciones digitales, porque les dan a los agentes la oportunidad de experimentar escenarios diferentes y, muchas veces, imprevisibles. La propia empresa compara su enfoque con la forma en que Waymo entrenó sus coches autónomos, construyendo primero mundos sintéticos para probar los vehículos contra peligros poco frecuentes, como condiciones climáticas severas o un niño corriendo detrás de una pelota en medio de la calle.

La diferencia, cuando se trata de agentes de IA, es que estos tienden a buscar atajos, lo que muchas veces provoca que fallen en completar la tarea correctamente. Según Glenn Solomon, director administrativo de Notable Capital, Patronus es muy buena identificando esos trucos y asegurándose de que los modelos sean responsabilizados por sus comportamientos. Este tipo de validación es exactamente lo que el mercado de agentes autónomos necesita ahora. 🚀

Por qué el mercado está prestando atención a esto ahora

Patronus AI levantó una ronda de financiación significativa justamente porque el timing es perfecto. El jueves, la empresa anunció una ronda Serie B de 50 millones de dólares, liderada por Greenfield Partners, con participación de Notable Capital, Lightspeed, Datadog y Samsung. Con esto, el total captado por la startup llegó a 70 millones de dólares. Con sede en San Francisco, la empresa vio sus ingresos crecer 15 veces a lo largo del último año, lo que ayuda a explicar todo ese interés de los inversores.

Herramientas que usamos a diario

Y no es casualidad. Prácticamente todo laboratorio de frontera en IA y muchas startups emergentes ya son clientes de Patronus, según Solomon, que describe la demanda por los entornos simulados de la empresa como casi insaciable. Las grandes empresas de tecnología, bancos, aseguradoras y retailers están acelerando sus proyectos de agentes de IA para automatización de procesos internos y atención al cliente, pero se están topando exactamente con la falta de herramientas confiables para garantizar que esos agentes funcionan de verdad antes de pasar a producción. El costo de un error en un agente autónomo que gestiona pedidos, cancela contratos o toma decisiones de crédito puede ser altísimo, tanto financieramente como en términos de reputación.

Actualmente, Patronus ofrece sus mundos digitales para las áreas de ingeniería de software y finanzas, pero, según Kannappan, eso es solo el comienzo. La empresa tiene planes de expandirse a muchos otros dominios, especialmente aquellos escenarios más complejos y difíciles de verificar, donde el comportamiento ideal no es tan obvio.

Cuando se habla de competencia, Patronus cree que está disputando espacio principalmente con los equipos internos que los propios laboratorios de IA ya han montado para evaluar el comportamiento de sus agentes. También existen empresas de datos humanos, como Mercor y Surge, que ayudan a los creadores de modelos con el aprendizaje por refuerzo. La diferencia es que Patronus opera de otra forma, evaluando cómo se comportan los agentes sin ningún tipo de intervención humana en el proceso.

Este enfoque centrado en entornos simulados y aprendizaje por refuerzo también abre espacio para algo que los benchmarks tradicionales nunca ofrecieron: la capacidad de probar comportamientos no verificables por métodos convencionales, como la consistencia del agente ante instrucciones ambiguas, la resistencia a intentos de manipulación por usuarios malintencionados y la capacidad de reconocer sus propios límites. Estas son cualidades que no aparecen en tablas de precisión, pero que marcan toda la diferencia cuando el agente está operando de forma autónoma en el mundo real. Es ese nivel de profundidad lo que diferencia la propuesta de Patronus AI de buena parte de lo que estaba disponible hasta ahora en el mercado de evaluación de agentes. 🎯

Imagen de Rafael

Rafael

Operaciones

Transformo los procesos internos en máquinas de entrega, garantizando que cada cliente de Viral Method reciba un servicio de primera calidad y resultados reales.

Rellena el formulario y nuestro equipo se pondrá en contacto contigo en un plazo de 24 horas.

Publicaciones relacionadas

Las acciones de Amazon podrían subir tras la asociación con OpenAI.

Alianza entre Amazon y OpenAI podría impulsar ingresos de IA y valorizar acciones, dice Citi; impacto estratégico en AWS y

Moratoria sobre los centros de datos de IA: El debate sobre la energía

Moratoria: Sanders y AOC proponen pausa en construcción de centros de datos de IA en EE.UU. para evaluar impactos ambientales

Blockchain y los agentes de IA están cambiando los pagos con criptomonedas.

Agentes de IA impulsan pagos cripto con blockchain, stablecoins y x402, facilitando transacciones autónomas, micropagos y economía entre máquinas

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora de Precio de Sitios

Descubre cuánto cuesta el sitio ideal para tu negocio

Páginas del Sitio

¿Cuántas páginas necesitas?

Arrastra para seleccionar de 1 a 20 páginas

En solo 2 minutos, descubre automáticamente cuánto cuesta un sitio a medida para tu negocio

Más de 0+ empresas ya calcularon su presupuesto

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.