Compartilhar:

Cloudflare anuncia o Agent Memory, serviço de memória persistente gerenciada para agentes de IA

A Cloudflare acaba de movimentar o mercado de inteligência artificial com um anúncio que pode mudar a forma como agentes de IA funcionam no dia a dia.

Durante a sua Agents Week, a empresa apresentou o Agent Memory, um serviço gerenciado de memória persistente para agentes de IA. A proposta é direta, mas resolve um problema que já tirou o sono de muita gente que trabalha com agentes em produção: fazer com que eles lembrem o que importa, sem precisar carregar tudo na janela de contexto o tempo todo.

O serviço chegou em beta privado e já dá para entrar na lista de espera. Mas antes de falar sobre como ele funciona por dentro, vale entender por que isso é tão relevante agora. 👇

O problema real que o Agent Memory veio resolver

Quem já trabalhou com agentes de inteligência artificial em produção sabe bem como é essa dor. Cada vez que um agente começa uma nova conversa ou executa uma nova tarefa, ele parte do zero. Não tem memória do que aconteceu antes, não sabe quem é o usuário, não lembra das preferências, das decisões tomadas ou do histórico de interações. Isso cria uma experiência fragmentada, quase como falar com alguém que tem amnésia total toda vez que você abre uma nova aba.

Para casos de uso simples, isso até passa. Mas quando o agente precisa agir de forma contínua por semanas ou meses, tomar decisões encadeadas e manter coerência ao longo do tempo, a falta de memória vira um gargalo real e frustrante.

Tyson Trautmann e Rob Sutter, do time de engenharia da Cloudflare, explicaram a motivação por trás do projeto: eles construíram o Agent Memory porque os workloads que rodam na plataforma expuseram lacunas que as abordagens existentes não resolvem completamente. Agentes executando por semanas ou meses contra codebases reais e sistemas de produção precisam de memória que continue útil conforme cresce, e não apenas memória que performa bem em datasets de benchmark limpos.

A solução mais comum até agora era jogar tudo dentro da janela de contexto do modelo, ou seja, incluir no prompt todo o histórico relevante para que o agente pudesse ter alguma noção do que já aconteceu. O problema é que isso tem um custo altíssimo em tokens, latência e dinheiro. Além disso, mesmo com janelas de contexto passando de um milhão de tokens, pesquisas mostram que a qualidade das respostas degrada conforme o contexto enche, um fenômeno que a indústria chama de context rot.

Desenvolvedores ficam presos em uma tensão cruel: manter tudo e assistir a qualidade cair, ou podar agressivamente e perder informações que o agente vai precisar depois. Estudos também indicam que modelos conseguem produzir resultados melhores com menos contexto, porém mais relevante, o que faz da memória uma ferramenta de melhoria de qualidade, e não apenas de gestão de armazenamento.

Memória como infraestrutura, não como feature de modelo

Eran Stiller, arquiteto-chefe de software na Cartesian e editor do InfoQ, fez uma observação que captura bem o significado desse lançamento. Segundo ele, no momento em que um agente precisa de memória, você não tem mais um problema de chat, e sim um problema de arquitetura.

Um guia prático para avaliar, comparar e implementar inteligência artificial com clareza — sem desperdício de tempo ou dinheiro.

Pare de contratar ferramentas sem direção. Criamos um método estruturado para decidir qual IA realmente faz sentido para o seu negócio.

Entrega em PDF no seu e-mail · Sem spam · LGPD

🔒 Seus dados são protegidos conforme a LGPD. Você pode descadastrar a qualquer momento.

Stiller argumentou que memória está começando a parecer menos com uma funcionalidade de modelo e mais com infraestrutura, com gerenciamento de ciclo de vida, verificação, compactação e fronteiras de isolamento se tornando preocupações de primeira classe. Essa é uma mudança de paradigma importante para quem está projetando sistemas baseados em agentes de IA hoje.

Essa visão reforça o que muitos engenheiros já perceberam na prática: tratar memória como um adendo do modelo de linguagem não escala. É preciso uma camada dedicada, robusta e independente para resolver esse problema de verdade. E é exatamente essa lacuna que a Cloudflare decidiu atacar de frente com o Agent Memory. 🧠

Como o Agent Memory funciona por dentro

A arquitetura do Agent Memory é onde os detalhes realmente importam para quem vai colocar isso em produção. O serviço é dividido em dois grandes fluxos: ingestão e recuperação, cada um com mecanismos sofisticados que vão muito além de um simples banco de dados vetorial.

Pipeline de ingestão

No lado da ingestão, cada mensagem recebe um ID baseado em SHA-256 com endereçamento por conteúdo, o que garante re-ingestão idempotente. Isso significa que se a mesma mensagem for processada mais de uma vez, ela não vai duplicar memórias no sistema.

O extrator roda duas passadas em paralelo:

  • Uma passada ampla, fazendo chunking em blocos de aproximadamente 10 mil caracteres
  • Uma passada de detalhe, focada em valores concretos como nomes, preços e números de versão

Depois da extração, um verificador executa oito checagens antes de classificar as memórias em quatro tipos:

  • Fatos — informações persistentes sobre entidades ou conceitos
  • Eventos — ocorrências com contexto temporal
  • Instruções — diretrizes e preferências definidas pelo usuário ou sistema
  • Tarefas — itens de ação e pendências

Fatos e instruções são indexados por tópico normalizado, e memórias novas substituem as antigas em vez de simplesmente deletá-las. Esse mecanismo de superseding é fundamental para evitar que informações desatualizadas contaminem o contexto do agente.

Pipeline de recuperação

No lado da recuperação, cinco canais rodam em paralelo e combinam resultados usando Reciprocal Rank Fusion (RRF):

  • Busca full-text — pesquisa textual tradicional
  • Lookup exato por fact-key — busca direta pelo identificador do fato
  • Busca em mensagens brutas — pesquisa no conteúdo original das conversas
  • Busca vetorial direta — similaridade semântica convencional
  • Busca vetorial HyDE — gera uma resposta declarativa hipotética para capturar mismatches de vocabulário

Essa abordagem multi-canal é particularmente inteligente porque cada método de busca tem seus pontos fortes e fracos. A fusão por RRF combina os rankings de todos os canais para produzir um resultado final mais robusto do que qualquer canal individual conseguiria sozinho.

Modelos utilizados

A Cloudflare escolheu o Llama 4 Scout (17B MoE) para extração e classificação, e o Nemotron 3 (120B MoE) apenas para síntese. O time descobriu que o modelo maior só ajudava de fato na etapa de síntese, o que é uma decisão de engenharia interessante que equilibra custo e qualidade de forma pragmática. 🚀

Memória compartilhada entre agentes

Um dos recursos mais impactantes do Agent Memory é a capacidade de memória compartilhada. Um perfil de memória não precisa pertencer a um único agente. Times inteiros podem compartilhar um perfil, de modo que conhecimento aprendido pelo agente de codificação de um engenheiro — como convenções de código, decisões arquiteturais ou conhecimento tribal — fica disponível para todo mundo.

A Cloudflare já está usando isso internamente. Um revisor de código agentico conectado ao Agent Memory aprendeu a ficar quieto quando um padrão específico já havia sido sinalizado anteriormente e o autor tinha escolhido mantê-lo. Esse tipo de comportamento adaptativo é exatamente o que separa um agente útil de um robô que repete os mesmos alertas infinitamente. 💡

Tradeoffs e considerações práticas

Nem tudo são flores, e Kristopher Dunham publicou uma avaliação detalhada do serviço apontando tradeoffs importantes que valem ser considerados por qualquer time pensando em adotar o Agent Memory.

Vendor lock-in

Sobre o risco de dependência do fornecedor, Dunham fez um alerta relevante: o fato de os dados serem exportáveis significa que você consegue extrair os fatos brutos, mas não significa que seu pipeline de recuperação é portável. Ou seja, migrar de plataforma depois de já ter toda a lógica de memória integrada ao ecossistema da Cloudflare pode ser bem mais complicado do que simplesmente mover dados de um lugar para outro.

Qualidade da extração

Dunham também observou que a qualidade da extração de memórias depende de modelos secundários que o desenvolvedor não controla. Isso adiciona uma camada de imprevisibilidade que precisa ser levada em conta, especialmente para casos de uso críticos onde uma memória extraída incorretamente pode ter consequências sérias.

Recomendações práticas

Para times que estão se preparando para adotar qualquer serviço de memória para agentes, Dunham sugeriu duas práticas fundamentais:

  • Separar histórico de conversas de fatos aprendidos como primeiro passo arquitetural
  • Acionar compactação em torno de 60% da janela de contexto, em vez de esperar até bater no limite

Ele também recomendou usar a ferramenta de remember explicitamente para fatos críticos, em vez de depender exclusivamente da ingestão automática. Essa é uma dica prática que pode fazer diferença real na confiabilidade do sistema.

Como o Agent Memory se compara com a concorrência

O espaço de memória para agentes de IA está cada vez mais competitivo, e vale entender onde cada solução se posiciona:

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

  • Mem0 — oferece uma API cloud gerenciada com armazenamento vetorial, em grafo e chave-valor
  • Zep (Graphiti) — usa um grafo de conhecimento temporal que rastreia quando os fatos eram verdadeiros
  • LangMem — integra com LangGraph, mas exige self-hosting
  • Letta (antigo MemGPT) — fornece uma hierarquia de memória em camadas onde os agentes controlam seu próprio contexto

O que diferencia a oferta da Cloudflare é a combinação de distribuição na edge, integração nativa com seus primitivos de computação como Durable Objects, Vectorize e Workers AI, e a arquitetura de recuperação multi-canal. Para desenvolvedores que já estão no ecossistema da Cloudflare, essa integração reduz significativamente a fricção de adoção.

Por que isso importa para quem constrói com IA hoje

O lançamento do Agent Memory pela Cloudflare não é apenas mais uma feature nova em um mercado cheio de anúncios. Ele representa uma mudança de perspectiva sobre o que significa construir agentes de inteligência artificial de verdade. Hoje, grande parte dos agentes que existem são, na prática, ferramentas de uso único ou de sessão única. Eles respondem bem dentro de uma conversa, mas não conseguem manter nenhuma continuidade real entre interações.

Isso limita muito o potencial deles para casos de uso que exigem relacionamento de longo prazo com o usuário, como assistentes pessoais, agentes de suporte, sistemas de automação contínua ou qualquer aplicação que precise evoluir com o tempo.

Com uma camada de persistência bem implementada, os agentes podem começar a funcionar mais como colaboradores do que como ferramentas descartáveis. Eles podem lembrar que um usuário prefere respostas mais curtas, que uma determinada tarefa costuma ter um passo específico que deu errado antes, ou que existe um contexto organizacional importante que precisa ser considerado em cada decisão. Esse nível de personalização e continuidade é o que separa um agente realmente útil de um chatbot com um prompt elaborado.

O que esperar dos próximos passos

Com o Agent Memory em beta privado, a Cloudflare está testando o serviço com um grupo seleto de desenvolvedores antes de abrir para todo mundo. Esse é um movimento inteligente, porque memória persistente em sistemas de inteligência artificial é um território que ainda tem muitas variáveis em aberto — desde questões de privacidade e segurança dos dados armazenados até decisões de design sobre o que deve ou não ser lembrado e por quanto tempo.

A empresa ainda não anunciou preços, o que é compreensível para um serviço em fase de validação. Desenvolvedores interessados que já constroem agentes na plataforma da Cloudflare podem se inscrever na lista de espera para ter acesso antecipado.

Do ponto de vista técnico, o que vai definir o sucesso do serviço é a qualidade da recuperação de memória. Armazenar informações é relativamente simples, o verdadeiro desafio é saber o que buscar, quando buscar e como incorporar isso ao contexto do agente de forma que faça sentido para o modelo. Se essa recuperação for imprecisa ou lenta, o benefício desaparece e o serviço vira mais um passo no pipeline que adiciona complexidade sem entregar valor real.

O mercado vai observar de perto como o Agent Memory evolui, especialmente em comparação com abordagens similares de concorrentes como Mem0, Zep e Letta. O que está claro é que a discussão sobre persistência e memória para agentes de inteligência artificial saiu da teoria e entrou de vez na fase de implementação. E a Cloudflare acaba de dar um passo concreto e significativo nessa direção, colocando mais uma peça importante no quebra-cabeça de como vamos construir os agentes de IA do futuro. 🔮

Foto de Rafael

Rafael

Operações

Transformo processos internos em máquinas de entrega — garantindo que cada cliente da Método Viral receba atendimento premium e resultados reais.

Preencha o formulário e nossa equipe entrará em contato em até 24 horas.

Publicações relacionadas

Ações da Amazon podem subir com parceria OpenAI

Parceria entre Amazon e OpenAI pode impulsionar receitas de IA e valorizar ações, diz Citi; impacto estratégico no AWS e

Moratória em Datacenters de IA: Energia em Debate

Moratória: Sanders e AOC propõem pausa na construção de datacenters de IA nos EUA para avaliar impactos ambientais e energéticos.

Blockchain e Agentes de IA Mudam os Pagamentos em Cripto

Agentes de IA impulsionam pagamentos cripto com blockchain, stablecoins e x402, viabilizando transações autônomas, micropagamentos e economia entre máquinas

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora Preço de Sites

Descubra quanto custa o site ideal para o seu negócio

Páginas do Site

Quantas páginas você precisa?

Arraste para selecionar de 1 a 20 páginas

Em apenas 2 minutos, descubra automaticamente quanto custa um site sob medida para o seu negócio

Mais de 0+ empresas já calcularam seu orçamento

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.