Cloudflare AI Gateway: inferência e models para agentes

Cloudflare transforma sua plataforma de IA em uma camada de inferência feita sob medida para agentes

A Cloudflare acaba de mudar o jogo para quem desenvolve com inteligência artificial. E dessa vez, a mudança não é incremental, é estrutural.

O cenário de modelos de IA está em constante transformação, e o que funciona hoje como o melhor modelo para uma determinada tarefa pode ser completamente diferente daqui a três meses, vindo de um provedor totalmente novo. Novos releases acontecem toda semana, benchmarks mudam de posição, e provedores que nem existiam há seis meses já aparecem como referência em categorias específicas. Quem está construindo aplicações reais com IA sabe bem o que é ter que reescrever integrações porque o modelo que era o melhor custo-benefício simplesmente deixou de ser a escolha certa.

Isso não é exagero, é a realidade de quem está na linha de frente construindo aplicações com IA agora. E quando o assunto são agentes de IA, o nível de complexidade sobe consideravelmente. Diferente de um chatbot simples que faz uma única chamada de inferência por prompt do usuário, um agente pode encadear dez chamadas seguidas para completar uma única tarefa, envolvendo diferentes modelos e diferentes provedores ao mesmo tempo. Seu agente de suporte ao cliente, por exemplo, pode usar um modelo rápido e barato para classificar a mensagem do usuário, um modelo grande de raciocínio para planejar suas ações e um modelo leve para executar tarefas individuais. Latência, falhas em cascata, custos distribuídos e falta de visibilidade centralizada são problemas reais que travam o desenvolvimento e transformam o que deveria ser uma vantagem competitiva em um pesadelo operacional.

É exatamente esse cenário que o AI Gateway da Cloudflare veio resolver de vez 🎯

A Cloudflare anunciou oficialmente sua transformação em uma camada unificada de inferência pensada especificamente para agentes, reunindo mais de 70 modelos de mais de 12 provedores em uma única API, com controle de custos centralizado, failover automático, suporte a modelos customizados e latência otimizada pela sua rede global de data centers em 330 cidades. Vamos entender o que muda na prática para quem está construindo com IA hoje 👇

O problema real de quem constrói agentes com IA

Antes de entrar no que o AI Gateway oferece, vale entender por que essa solução faz tanto sentido agora. Quando você trabalha com um único modelo e um único provedor, a complexidade ainda é gerenciável. Você configura sua chave de API, define seus prompts, testa o comportamento e vai em frente. Mas assim que o seu projeto começa a crescer, ou assim que você decide usar o melhor modelo disponível para cada etapa do seu pipeline, tudo muda. De repente, você tem chaves de API de cinco provedores diferentes, lógica de retry espalhada pelo código, logs em lugares distintos e zero visibilidade consolidada sobre o que está acontecendo com suas chamadas de inferência.

Com agentes, esse problema se multiplica de forma assustadora. Um agente moderno não é uma linha reta, ele é um grafo de decisões. Ele pode chamar um modelo para raciocinar sobre uma tarefa, outro para gerar código, outro para validar o resultado e ainda outro para formatar a resposta final. Cada uma dessas chamadas tem sua própria latência, seu próprio custo e seu próprio ponto de falha. Um chatbot simples que recebe um prompt e retorna uma resposta lida com uma única chamada de inferência. Já um agente que encadeia dez chamadas seguidas transforma aquele atraso de 50ms de um provedor lento em 500ms acumulados. Uma requisição que falha não é apenas um retry, é uma cascata de falhas que pode derrubar toda a cadeia de execução do agente.

Segundo dados citados pela Cloudflare, empresas hoje utilizam em média 3,5 modelos de múltiplos provedores, o que significa que nenhum provedor individual consegue oferecer uma visão completa do uso e dos gastos com IA. Sem uma camada centralizada, responder perguntas como quanto está custando cada tarefa completada por um agente ou qual etapa está sendo mais lenta exige um trabalho manual significativo, e muitas equipes simplesmente não têm esse tempo.

Como Implementar as Melhores Ferramentas de IA

Um guia prático para avaliar, comparar e implementar inteligência artificial com clareza — sem desperdício de tempo ou dinheiro.

Pare de contratar ferramentas sem direção. Criamos um método estruturado para decidir qual IA realmente faz sentido para o seu negócio.

Entrega em PDF no seu e-mail · Sem spam · LGPD

🔒 Seus dados são protegidos conforme a LGPD. Você pode descadastrar a qualquer momento.

Um catálogo unificado e um único endpoint para tudo

A grande novidade anunciada pela Cloudflare é que agora desenvolvedores podem chamar modelos de terceiros usando o mesmo binding AI.run() que já utilizam para o Workers AI. Na prática, isso significa que trocar de um modelo hospedado pela Cloudflare para um modelo da OpenAI, da Anthropic ou de qualquer outro provedor é uma mudança de uma única linha de código. Sem precisar reconfigurar integrações, sem trocar bibliotecas, sem reescrever lógica de chamada.

Para quem não usa Workers, a Cloudflare também anunciou que estará liberando suporte via REST API nas próximas semanas, permitindo acesso ao catálogo completo de modelos a partir de qualquer ambiente de desenvolvimento.

O catálogo já conta com mais de 70 modelos de mais de 12 provedores, todos acessíveis por uma API, uma linha de código para trocar entre eles e um único conjunto de créditos para pagamento. E a lista de provedores é impressionante: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway e Vidu estão entre os que disponibilizam seus modelos através do AI Gateway. Um detalhe importante é que a oferta vai além de modelos de texto, incluindo agora modelos de imagem, vídeo e fala, abrindo caminho para aplicações verdadeiramente multimodais.

Acessar todos os seus modelos através de uma única API também significa que você pode gerenciar todos os seus gastos com IA em um só lugar. Com a possibilidade de incluir metadados customizados nas requisições, você consegue obter um detalhamento dos custos nos atributos que mais importam para o seu negócio, como gastos por usuários gratuitos versus pagos, por clientes individuais ou por fluxos de trabalho específicos da sua aplicação.

Traga seu próprio modelo

O AI Gateway dá acesso a modelos de todos os provedores parceiros, mas às vezes você precisa rodar um modelo que foi ajustado com seus próprios dados ou otimizado para o seu caso de uso específico. Para isso, a Cloudflare está trabalhando em uma funcionalidade que permite que usuários tragam seus próprios modelos para o Workers AI.

A empresa revelou que a grande maioria do seu tráfego já vem de instâncias dedicadas para clientes Enterprise que rodam modelos customizados na plataforma, e o objetivo agora é democratizar esse acesso. Para viabilizar isso, a Cloudflare está utilizando a tecnologia Cog da Replicate, que facilita a containerização de modelos de machine learning.

O Cog foi projetado para ser simples: basta definir as dependências em um arquivo de configuração e o código de inferência em um arquivo Python. A ferramenta abstrai toda a complexidade de empacotamento de modelos de ML, como dependências CUDA, versões de Python e carregamento de pesos. Depois de construir a imagem do container, você faz o push para o Workers AI, e a Cloudflare cuida do deploy e da entrega do modelo, que fica acessível pelas APIs habituais do Workers AI.

A equipe também está trabalhando em APIs voltadas para o cliente e comandos no wrangler para facilitar o push de containers, além de cold starts mais rápidos através de GPU snapshotting. Essa funcionalidade está sendo testada internamente com times da Cloudflare e alguns clientes externos que estão ajudando a moldar a direção do produto.

O caminho mais rápido até o primeiro token

Se você está construindo agentes ao vivo, onde o usuário está esperando a resposta em tempo real, a percepção de velocidade depende muito do time to first token, ou seja, quão rápido o agente começa a responder, e não necessariamente quanto tempo a resposta completa leva. Mesmo que a inferência total demore 3 segundos, receber o primeiro token 50ms mais rápido faz a diferença entre um agente que parece ágil e um que parece travado.

A rede da Cloudflare, com data centers em 330 cidades ao redor do mundo, significa que o AI Gateway está posicionado perto tanto dos usuários quanto dos endpoints de inferência, minimizando o tempo de rede antes que o streaming comece. Quando você usa modelos hospedados pela Cloudflare no Workers AI, como o Kimi K2.5 e modelos de voz em tempo real, não existe salto adicional pela internet pública, já que o código e a inferência rodam na mesma rede global. Isso garante a menor latência possível para seus agentes.

Resiliência com failover automático

Quando o assunto é construir agentes, velocidade não é o único fator que importa. Confiabilidade é igualmente crítica. Cada etapa no fluxo de trabalho de um agente depende das etapas anteriores. Uma inferência confiável é crucial porque uma única chamada que falha pode comprometer toda a cadeia de execução.

Através do AI Gateway, se você está chamando um modelo que está disponível em múltiplos provedores e um deles fica fora do ar, a Cloudflare redireciona automaticamente para outro provedor disponível, sem que você precise escrever nenhuma lógica de failover no seu código. Isso é especialmente relevante para ambientes de produção onde qualquer downtime tem impacto direto na experiência do usuário.

Para quem está construindo agentes de longa duração com o Agents SDK, as chamadas de inferência via streaming também são resilientes a desconexões. O AI Gateway faz buffer das respostas em streaming conforme elas são geradas, independente do ciclo de vida do seu agente. Se o agente for interrompido no meio de uma inferência, ele pode se reconectar ao AI Gateway e recuperar a resposta sem precisar fazer uma nova chamada de inferência ou pagar duas vezes pelos mesmos tokens de saída. Combinado com o sistema de checkpointing nativo do Agents SDK, o usuário final nem percebe que houve qualquer interrupção.

A integração com a Replicate

A equipe da Replicate oficialmente se juntou ao time de plataforma de IA da Cloudflare, e como a própria empresa fez questão de destacar, as equipes já nem se consideram times separados. Os trabalhos de integração entre Replicate e Cloudflare estão a todo vapor, incluindo trazer todos os modelos da Replicate para o AI Gateway e migrar os modelos hospedados para a infraestrutura da Cloudflare. Em breve, será possível acessar os modelos que já eram populares na Replicate através do AI Gateway e hospedar os modelos que eram deployados na Replicate diretamente no Workers AI.

Observabilidade e controle que fazem diferença no dia a dia

Uma das maiores dores de quem trabalha com inferência em escala é a falta de visibilidade. O AI Gateway da Cloudflare traz logs centralizados de todas as chamadas, independente do provedor, com informações de latência, tokens consumidos, custo estimado e status de cada requisição. Para quem está otimizando um pipeline de agentes, isso é ouro puro. Você consegue identificar exatamente qual etapa está custando mais, qual está sendo mais lenta e onde estão acontecendo as falhas, tudo em um único painel sem precisar consolidar dados de múltiplos dashboards de provedores diferentes.

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

A possibilidade de definir rate limits e políticas de uso por projeto também é algo que faz diferença no mundo real. Quando você tem múltiplos times usando a mesma infraestrutura de IA, ou quando está construindo um produto que vai atender múltiplos clientes, ter controle granular sobre quem pode usar o quê e quanto é fundamental para evitar surpresas na fatura e garantir que um uso anormal em uma parte do sistema não comprometa o funcionamento de toda a plataforma.

Os controles de logging mais granulares e os retries automáticos em falhas upstream, lançados nos últimos meses junto com a reformulação do dashboard e os gateways padrão com configuração zero, mostram que a Cloudflare está evoluindo o AI Gateway de forma rápida e consistente, ouvindo diretamente o feedback dos desenvolvedores que já usam a plataforma em produção.

Por que isso importa para o futuro dos agentes de IA

O movimento da Cloudflare com o AI Gateway é parte de uma tendência maior que está moldando como aplicações de IA vão ser construídas daqui pra frente. A fragmentação de provedores e modelos não vai diminuir, ela vai aumentar. Cada mês que passa surgem novos modelos especializados, provedores regionais com preços competitivos e opções open source que rivalizam com as APIs comerciais. Ter uma camada de abstração que isola sua aplicação dessa fragmentação não é um luxo, é uma necessidade arquitetural para qualquer time que queira manter agilidade e não ficar refém de um único fornecedor.

Para quem está construindo agentes mais complexos, como sistemas multi-agente onde diferentes agentes se comunicam entre si e com diferentes modelos, essa camada unificada é ainda mais crítica. A complexidade de gerenciar múltiplas integrações diretamente cresce exponencialmente com o número de agentes e modelos envolvidos. Com o AI Gateway como ponto central de controle, essa complexidade é absorvida pela infraestrutura, e o time de desenvolvimento pode focar no que realmente importa: a lógica de negócio e o comportamento dos agentes em si, não o encanamento das APIs.

A Cloudflare está claramente posicionando o AI Gateway como infraestrutura fundamental para a próxima geração de aplicações inteligentes. E dado o histórico da empresa em construir infraestrutura de rede confiável e globalmente distribuída, faz todo sentido que ela esteja expandindo esse papel para o mundo da inferência de IA. O mercado de ferramentas para desenvolvimento com IA ainda está se consolidando, mas soluções que resolvem problemas reais de produção, como observabilidade, controle de custos e resiliência, tendem a se tornar padrão de mercado bem rápido. 🚀

O AI Gateway já está disponível para desenvolvedores que usam a plataforma da Cloudflare, com suporte a mais de 70 modelos de provedores como OpenAI, Anthropic, Google, Alibaba Cloud, AssemblyAI, Bytedance, MiniMax e outros, todos acessíveis por uma única API unificada. O catálogo completo de modelos pode ser consultado na documentação oficial da Cloudflare.

Cloudflare AI Gateway: inferência e models para agentes

Índice

Cloudflare transforma sua plataforma de IA em uma camada de inferência feita sob medida para agentes

O problema real de quem constrói agentes com IA

Como Implementar as Melhores Ferramentas de IA

Um catálogo unificado e um único endpoint para tudo

Traga seu próprio modelo

O caminho mais rápido até o primeiro token

Resiliência com failover automático

A integração com a Replicate

Observabilidade e controle que fazem diferença no dia a dia

Receba o melhor conteúdo de inovação em seu e-mail

Por que isso importa para o futuro dos agentes de IA

Rafael

FALE
CONOSCO

Publicações relacionadas

Ações da Amazon podem subir com parceria OpenAI

Moratória em Datacenters de IA: Energia em Debate

Blockchain e Agentes de IA Mudam os Pagamentos em Cripto

Receba o melhor conteúdo de inovação em seu e-mail

INÍCIO

PRODUTOS

SERVIÇOS

RECURSOS

Rafael

Calculadora Preço de Sites

Páginas do Site

Recursos do Site

Visitantes por mês

Automação de Marketing

Qual o segmento do site?

Resultado da Calculadora

Confira alguns dos nossos trabalhos

Gestão de Marketing – Estratégia e Execução

Gestão de Marketing – Estratégia e Execução

Gestão de Marketing – Marketplace, Estratégia e Execução

Cloudflare AI Gateway: inferência e models para agentes

Índice

Cloudflare transforma sua plataforma de IA em uma camada de inferência feita sob medida para agentes

O problema real de quem constrói agentes com IA

Como Implementar as Melhores Ferramentas de IA

Um catálogo unificado e um único endpoint para tudo

Traga seu próprio modelo

O caminho mais rápido até o primeiro token

Resiliência com failover automático

A integração com a Replicate

Observabilidade e controle que fazem diferença no dia a dia

Receba o melhor conteúdo de inovação em seu e-mail

Por que isso importa para o futuro dos agentes de IA

Rafael

FALECONOSCO

Publicações relacionadas

Ações da Amazon podem subir com parceria OpenAI

Moratória em Datacenters de IA: Energia em Debate

Blockchain e Agentes de IA Mudam os Pagamentos em Cripto

Receba o melhor conteúdo de inovação em seu e-mail

Rafael

Calculadora Preço de Sites

Páginas do Site

Resultado da Calculadora

Confira alguns dos nossos trabalhos

Gestão de Marketing – Estratégia e Execução

Gestão de Marketing – Estratégia e Execução

Gestão de Marketing – Marketplace, Estratégia e Execução

Fale com um consultor

FALE
CONOSCO