Para compartir:

Cloudflare anuncia Agent Memory, servicio de memoria persistente gestionada para agentes de IA

Cloudflare acaba de sacudir el mercado de inteligencia artificial con un anuncio que puede cambiar la forma en que los agentes de IA funcionan en el día a día.

Durante su Agents Week, la empresa presentó Agent Memory, un servicio gestionado de memoria persistente para agentes de IA. La propuesta es directa, pero resuelve un problema que ya le ha quitado el sueño a mucha gente que trabaja con agentes en producción: lograr que recuerden lo que importa, sin necesidad de cargar todo en la ventana de contexto constantemente.

El servicio llegó en beta privada y ya es posible anotarse en la lista de espera. Pero antes de hablar sobre cómo funciona por dentro, vale la pena entender por qué esto es tan relevante ahora. 👇

El problema real que Agent Memory vino a resolver

Quien ya trabajó con agentes de inteligencia artificial en producción conoce bien este dolor. Cada vez que un agente inicia una nueva conversación o ejecuta una nueva tarea, parte de cero. No tiene memoria de lo que pasó antes, no sabe quién es el usuario, no recuerda las preferencias, las decisiones tomadas ni el historial de interacciones. Esto crea una experiencia fragmentada, casi como hablar con alguien que tiene amnesia total cada vez que abrís una nueva pestaña.

Para casos de uso simples, esto puede pasar. Pero cuando el agente necesita actuar de forma continua durante semanas o meses, tomar decisiones encadenadas y mantener coherencia a lo largo del tiempo, la falta de memoria se convierte en un cuello de botella real y frustrante.

Tyson Trautmann y Rob Sutter, del equipo de ingeniería de Cloudflare, explicaron la motivación detrás del proyecto: construyeron Agent Memory porque las cargas de trabajo que corren en la plataforma expusieron vacíos que los enfoques existentes no resuelven completamente. Agentes ejecutándose durante semanas o meses contra codebases reales y sistemas de producción necesitan memoria que siga siendo útil conforme crece, y no solo memoria que rinde bien en datasets de benchmark limpios.

La solución más común hasta ahora era meter todo dentro de la ventana de contexto del modelo, es decir, incluir en el prompt todo el historial relevante para que el agente pudiera tener alguna noción de lo que ya había pasado. El problema es que esto tiene un costo altísimo en tokens, latencia y dinero. Además, incluso con ventanas de contexto que superan el millón de tokens, investigaciones muestran que la calidad de las respuestas se degrada conforme el contexto se llena, un fenómeno que la industria llama context rot.

Los desarrolladores quedan atrapados en una tensión cruel: mantener todo y ver cómo la calidad cae, o podar agresivamente y perder información que el agente va a necesitar después. Estudios también indican que los modelos logran producir mejores resultados con menos contexto, pero más relevante, lo que convierte a la memoria en una herramienta de mejora de calidad, y no solo de gestión de almacenamiento.

Memoria como infraestructura, no como feature de modelo

Eran Stiller, arquitecto jefe de software en Cartesian y editor de InfoQ, hizo una observación que captura bien el significado de este lanzamiento. Según él, en el momento en que un agente necesita memoria, ya no tenés un problema de chat, sino un problema de arquitectura.

Reciba el mejor contenido sobre innovación en su correo electrónico.

Todas las noticias, consejos, tendencias y recursos que buscas, directamente en tu bandeja de entrada.

Al suscribirte al boletín informativo, aceptas recibir comunicaciones de Método Viral. Nos comprometemos a proteger y respetar siempre tu privacidad.

Stiller argumentó que la memoria está empezando a parecerse menos a una funcionalidad de modelo y más a infraestructura, con gestión de ciclo de vida, verificación, compactación y fronteras de aislamiento convirtiéndose en preocupaciones de primera clase. Este es un cambio de paradigma importante para quien está diseñando sistemas basados en agentes de IA hoy.

Esta visión refuerza lo que muchos ingenieros ya percibieron en la práctica: tratar la memoria como un agregado del modelo de lenguaje no escala. Se necesita una capa dedicada, robusta e independiente para resolver este problema de verdad. Y es exactamente ese vacío el que Cloudflare decidió atacar de frente con Agent Memory. 🧠

Cómo funciona Agent Memory por dentro

La arquitectura de Agent Memory es donde los detalles realmente importan para quien va a poner esto en producción. El servicio se divide en dos grandes flujos: ingesta y recuperación, cada uno con mecanismos sofisticados que van mucho más allá de una simple base de datos vectorial.

Pipeline de ingesta

Del lado de la ingesta, cada mensaje recibe un ID basado en SHA-256 con direccionamiento por contenido, lo que garantiza reingesta idempotente. Esto significa que si el mismo mensaje se procesa más de una vez, no va a duplicar memorias en el sistema.

El extractor ejecuta dos pasadas en paralelo:

  • Una pasada amplia, haciendo chunking en bloques de aproximadamente 10 mil caracteres
  • Una pasada de detalle, enfocada en valores concretos como nombres, precios y números de versión

Después de la extracción, un verificador ejecuta ocho chequeos antes de clasificar las memorias en cuatro tipos:

  • Hechos — información persistente sobre entidades o conceptos
  • Eventos — ocurrencias con contexto temporal
  • Instrucciones — directrices y preferencias definidas por el usuario o sistema
  • Tareas — ítems de acción y pendientes

Hechos e instrucciones se indexan por tópico normalizado, y las memorias nuevas reemplazan a las antiguas en vez de simplemente eliminarlas. Este mecanismo de superseding es fundamental para evitar que información desactualizada contamine el contexto del agente.

Pipeline de recuperación

Del lado de la recuperación, cinco canales corren en paralelo y combinan resultados usando Reciprocal Rank Fusion (RRF):

  • Búsqueda full-text — búsqueda textual tradicional
  • Lookup exacto por fact-key — búsqueda directa por el identificador del hecho
  • Búsqueda en mensajes crudos — búsqueda en el contenido original de las conversaciones
  • Búsqueda vectorial directa — similitud semántica convencional
  • Búsqueda vectorial HyDE — genera una respuesta declarativa hipotética para capturar desajustes de vocabulario

Este enfoque multicanal es particularmente inteligente porque cada método de búsqueda tiene sus puntos fuertes y débiles. La fusión por RRF combina los rankings de todos los canales para producir un resultado final más robusto de lo que cualquier canal individual lograría por sí solo.

Modelos utilizados

Cloudflare eligió Llama 4 Scout (17B MoE) para extracción y clasificación, y Nemotron 3 (120B MoE) únicamente para síntesis. El equipo descubrió que el modelo más grande solo ayudaba realmente en la etapa de síntesis, lo cual es una decisión de ingeniería interesante que equilibra costo y calidad de forma pragmática. 🚀

Memoria compartida entre agentes

Uno de los recursos más impactantes de Agent Memory es la capacidad de memoria compartida. Un perfil de memoria no necesita pertenecer a un único agente. Equipos enteros pueden compartir un perfil, de modo que el conocimiento aprendido por el agente de codificación de un ingeniero — como convenciones de código, decisiones arquitectónicas o conocimiento tribal — queda disponible para todos.

Cloudflare ya está usando esto internamente. Un revisor de código agéntico conectado a Agent Memory aprendió a quedarse callado cuando un patrón específico ya había sido señalado anteriormente y el autor había elegido mantenerlo. Este tipo de comportamiento adaptativo es exactamente lo que separa a un agente útil de un robot que repite las mismas alertas infinitamente. 💡

Tradeoffs y consideraciones prácticas

No todo es color de rosa, y Kristopher Dunham publicó una evaluación detallada del servicio señalando tradeoffs importantes que vale la pena considerar para cualquier equipo que piense en adoptar Agent Memory.

Vendor lock-in

Sobre el riesgo de dependencia del proveedor, Dunham hizo una advertencia relevante: el hecho de que los datos sean exportables significa que podés extraer los hechos crudos, pero no significa que tu pipeline de recuperación sea portable. Es decir, migrar de plataforma después de tener toda la lógica de memoria integrada al ecosistema de Cloudflare puede ser bastante más complicado que simplemente mover datos de un lugar a otro.

Calidad de la extracción

Dunham también observó que la calidad de la extracción de memorias depende de modelos secundarios que el desarrollador no controla. Esto agrega una capa de imprevisibilidad que hay que tener en cuenta, especialmente para casos de uso críticos donde una memoria extraída incorrectamente puede tener consecuencias serias.

Recomendaciones prácticas

Para equipos que se están preparando para adoptar cualquier servicio de memoria para agentes, Dunham sugirió dos prácticas fundamentales:

  • Separar historial de conversaciones de hechos aprendidos como primer paso arquitectónico
  • Activar compactación alrededor del 60% de la ventana de contexto, en vez de esperar hasta llegar al límite

También recomendó usar la herramienta de remember explícitamente para hechos críticos, en lugar de depender exclusivamente de la ingesta automática. Este es un tip práctico que puede hacer una diferencia real en la confiabilidad del sistema.

Cómo se compara Agent Memory con la competencia

El espacio de memoria para agentes de IA está cada vez más competitivo, y vale la pena entender dónde se posiciona cada solución:

Herramientas que usamos a diario

  • Mem0 — ofrece una API cloud gestionada con almacenamiento vectorial, en grafo y clave-valor
  • Zep (Graphiti) — usa un grafo de conocimiento temporal que rastrea cuándo los hechos eran verdaderos
  • LangMem — se integra con LangGraph, pero requiere self-hosting
  • Letta (antes MemGPT) — proporciona una jerarquía de memoria en capas donde los agentes controlan su propio contexto

Lo que diferencia la oferta de Cloudflare es la combinación de distribución en el edge, integración nativa con sus primitivos de computación como Durable Objects, Vectorize y Workers AI, y la arquitectura de recuperación multicanal. Para desarrolladores que ya están en el ecosistema de Cloudflare, esta integración reduce significativamente la fricción de adopción.

Por qué esto importa para quien construye con IA hoy

El lanzamiento de Agent Memory por parte de Cloudflare no es simplemente otra feature nueva en un mercado lleno de anuncios. Representa un cambio de perspectiva sobre lo que significa construir agentes de inteligencia artificial de verdad. Hoy, gran parte de los agentes que existen son, en la práctica, herramientas de uso único o de sesión única. Responden bien dentro de una conversación, pero no logran mantener ninguna continuidad real entre interacciones.

Esto limita mucho su potencial para casos de uso que exigen una relación de largo plazo con el usuario, como asistentes personales, agentes de soporte, sistemas de automatización continua o cualquier aplicación que necesite evolucionar con el tiempo.

Con una capa de persistencia bien implementada, los agentes pueden empezar a funcionar más como colaboradores que como herramientas descartables. Pueden recordar que un usuario prefiere respuestas más cortas, que una determinada tarea suele tener un paso específico que falló antes, o que existe un contexto organizacional importante que hay que considerar en cada decisión. Ese nivel de personalización y continuidad es lo que separa a un agente realmente útil de un chatbot con un prompt elaborado.

Qué esperar de los próximos pasos

Con Agent Memory en beta privada, Cloudflare está testeando el servicio con un grupo selecto de desarrolladores antes de abrirlo para todos. Este es un movimiento inteligente, porque la memoria persistente en sistemas de inteligencia artificial es un territorio que todavía tiene muchas variables abiertas — desde cuestiones de privacidad y seguridad de los datos almacenados hasta decisiones de diseño sobre qué debe o no recordarse y por cuánto tiempo.

La empresa aún no anunció precios, lo cual es comprensible para un servicio en fase de validación. Los desarrolladores interesados que ya construyen agentes en la plataforma de Cloudflare pueden inscribirse en la lista de espera para obtener acceso anticipado.

Desde el punto de vista técnico, lo que va a definir el éxito del servicio es la calidad de la recuperación de memoria. Almacenar información es relativamente simple, el verdadero desafío está en saber qué buscar, cuándo buscarlo y cómo incorporarlo al contexto del agente de forma que tenga sentido para el modelo. Si esa recuperación es imprecisa o lenta, el beneficio desaparece y el servicio se convierte en un paso más en el pipeline que agrega complejidad sin entregar valor real.

El mercado va a observar de cerca cómo evoluciona Agent Memory, especialmente en comparación con enfoques similares de competidores como Mem0, Zep y Letta. Lo que está claro es que la discusión sobre persistencia y memoria para agentes de inteligencia artificial salió de la teoría y entró de lleno en la fase de implementación. Y Cloudflare acaba de dar un paso concreto y significativo en esa dirección, colocando una pieza más en el rompecabezas de cómo vamos a construir los agentes de IA del futuro. 🔮

Imagen de Rafael

Rafael

Operaciones

Transformo los procesos internos en máquinas de entrega, garantizando que cada cliente de Viral Method reciba un servicio de primera calidad y resultados reales.

Rellena el formulario y nuestro equipo se pondrá en contacto contigo en un plazo de 24 horas.

Publicaciones relacionadas

Las acciones de Amazon podrían subir tras la asociación con OpenAI.

Alianza entre Amazon y OpenAI podría impulsar ingresos de IA y valorizar acciones, dice Citi; impacto estratégico en AWS y

Moratoria sobre los centros de datos de IA: El debate sobre la energía

Moratoria: Sanders y AOC proponen pausa en construcción de centros de datos de IA en EE.UU. para evaluar impactos ambientales

Blockchain y los agentes de IA están cambiando los pagos con criptomonedas.

Agentes de IA impulsan pagos cripto con blockchain, stablecoins y x402, facilitando transacciones autónomas, micropagos y economía entre máquinas

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora de Precio de Sitios

Descubre cuánto cuesta el sitio ideal para tu negocio

Páginas del Sitio

¿Cuántas páginas necesitas?

Arrastra para seleccionar de 1 a 20 páginas

En solo 2 minutos, descubre automáticamente cuánto cuesta un sitio a medida para tu negocio

Más de 0+ empresas ya calcularon su presupuesto

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.