Cloudflare transforma su plataforma de IA en una capa de inferencia hecha a medida para agentes
Cloudflare acaba de cambiar las reglas del juego para quienes desarrollan con inteligencia artificial. Y esta vez, el cambio no es incremental, es estructural.
El panorama de modelos de IA está en constante transformación, y lo que funciona hoy como el mejor modelo para una determinada tarea puede ser completamente diferente dentro de tres meses, viniendo de un proveedor totalmente nuevo. Nuevos lanzamientos ocurren cada semana, los benchmarks cambian de posición, y proveedores que ni existían hace seis meses ya aparecen como referencia en categorías específicas. Quien está construyendo aplicaciones reales con IA sabe bien lo que es tener que reescribir integraciones porque el modelo que era la mejor relación calidad-precio simplemente dejó de ser la opción correcta.
Esto no es una exageración, es la realidad de quien está en primera línea construyendo aplicaciones con IA ahora mismo. Y cuando el tema son los agentes de IA, el nivel de complejidad sube considerablemente. A diferencia de un chatbot simple que hace una única llamada de inferencia por prompt del usuario, un agente puede encadenar diez llamadas seguidas para completar una sola tarea, involucrando diferentes modelos y diferentes proveedores al mismo tiempo. Tu agente de soporte al cliente, por ejemplo, puede usar un modelo rápido y barato para clasificar el mensaje del usuario, un modelo grande de razonamiento para planificar sus acciones y un modelo ligero para ejecutar tareas individuales. Latencia, fallos en cascada, costos distribuidos y falta de visibilidad centralizada son problemas reales que frenan el desarrollo y transforman lo que debería ser una ventaja competitiva en una pesadilla operativa.
Es exactamente ese escenario el que el AI Gateway de Cloudflare vino a resolver de una vez por todas 🎯
Cloudflare anunció oficialmente su transformación en una capa unificada de inferencia pensada específicamente para agentes, reuniendo más de 70 modelos de más de 12 proveedores en una única API, con control de costos centralizado, failover automático, soporte a modelos personalizados y latencia optimizada por su red global de centros de datos en 330 ciudades. Vamos a entender qué cambia en la práctica para quienes están construyendo con IA hoy 👇
El problema real de quien construye agentes con IA
Antes de entrar en lo que el AI Gateway ofrece, vale la pena entender por qué esta solución tiene tanto sentido ahora. Cuando trabajas con un único modelo y un único proveedor, la complejidad todavía es manejable. Configuras tu clave de API, defines tus prompts, pruebas el comportamiento y sigues adelante. Pero en cuanto tu proyecto empieza a crecer, o en cuanto decides usar el mejor modelo disponible para cada etapa de tu pipeline, todo cambia. De repente, tienes claves de API de cinco proveedores diferentes, lógica de reintentos esparcida por el código, logs en lugares distintos y cero visibilidad consolidada sobre lo que está pasando con tus llamadas de inferencia.
Con agentes, ese problema se multiplica de forma alarmante. Un agente moderno no es una línea recta, es un grafo de decisiones. Puede llamar a un modelo para razonar sobre una tarea, otro para generar código, otro para validar el resultado y otro más para formatear la respuesta final. Cada una de esas llamadas tiene su propia latencia, su propio costo y su propio punto de fallo. Un chatbot simple que recibe un prompt y devuelve una respuesta lidia con una única llamada de inferencia. En cambio, un agente que encadena diez llamadas seguidas transforma ese retraso de 50ms de un proveedor lento en 500ms acumulados. Una solicitud que falla no es solo un reintento, es una cascada de fallos que puede derribar toda la cadena de ejecución del agente.
Según datos citados por Cloudflare, las empresas hoy utilizan en promedio 3,5 modelos de múltiples proveedores, lo que significa que ningún proveedor individual puede ofrecer una visión completa del uso y los gastos en IA. Sin una capa centralizada, responder preguntas como cuánto está costando cada tarea completada por un agente o qué etapa está siendo más lenta requiere un trabajo manual significativo, y muchos equipos simplemente no tienen ese tiempo.
Un catálogo unificado y un único endpoint para todo
La gran novedad anunciada por Cloudflare es que ahora los desarrolladores pueden llamar modelos de terceros usando el mismo binding AI.run() que ya utilizan para Workers AI. En la práctica, esto significa que cambiar de un modelo alojado por Cloudflare a un modelo de OpenAI, de Anthropic o de cualquier otro proveedor es un cambio de una sola línea de código. Sin necesidad de reconfigurar integraciones, sin cambiar bibliotecas, sin reescribir lógica de llamada.
Para quienes no usan Workers, Cloudflare también anunció que estará habilitando soporte vía REST API en las próximas semanas, permitiendo acceso al catálogo completo de modelos desde cualquier entorno de desarrollo.
El catálogo ya cuenta con más de 70 modelos de más de 12 proveedores, todos accesibles por una API, una línea de código para cambiar entre ellos y un único conjunto de créditos para el pago. Y la lista de proveedores es impresionante: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway y Vidu están entre los que ponen sus modelos a disposición a través del AI Gateway. Un detalle importante es que la oferta va más allá de modelos de texto, incluyendo ahora modelos de imagen, video y voz, abriendo camino para aplicaciones verdaderamente multimodales.
Acceder a todos tus modelos a través de una única API también significa que puedes gestionar todos tus gastos en IA en un solo lugar. Con la posibilidad de incluir metadatos personalizados en las solicitudes, puedes obtener un desglose de costos en los atributos que más importan para tu negocio, como gastos por usuarios gratuitos versus de pago, por clientes individuales o por flujos de trabajo específicos de tu aplicación.
Trae tu propio modelo
El AI Gateway da acceso a modelos de todos los proveedores asociados, pero a veces necesitas ejecutar un modelo que fue ajustado con tus propios datos u optimizado para tu caso de uso específico. Para eso, Cloudflare está trabajando en una funcionalidad que permite a los usuarios traer sus propios modelos al Workers AI.
La empresa reveló que la gran mayoría de su tráfico ya proviene de instancias dedicadas para clientes Enterprise que ejecutan modelos personalizados en la plataforma, y el objetivo ahora es democratizar ese acceso. Para hacerlo viable, Cloudflare está utilizando la tecnología Cog de Replicate, que facilita la containerización de modelos de machine learning.
Cog fue diseñado para ser simple: basta con definir las dependencias en un archivo de configuración y el código de inferencia en un archivo Python. La herramienta abstrae toda la complejidad de empaquetado de modelos de ML, como dependencias CUDA, versiones de Python y carga de pesos. Después de construir la imagen del contenedor, haces el push al Workers AI, y Cloudflare se encarga del despliegue y la entrega del modelo, que queda accesible a través de las APIs habituales de Workers AI.
El equipo también está trabajando en APIs orientadas al cliente y comandos en wrangler para facilitar el push de contenedores, además de arranques en frío más rápidos mediante GPU snapshotting. Esta funcionalidad está siendo probada internamente con equipos de Cloudflare y algunos clientes externos que están ayudando a dar forma a la dirección del producto.
El camino más rápido hasta el primer token
Si estás construyendo agentes en vivo, donde el usuario está esperando la respuesta en tiempo real, la percepción de velocidad depende mucho del time to first token, es decir, qué tan rápido el agente empieza a responder, y no necesariamente cuánto tiempo tarda la respuesta completa. Aunque la inferencia total demore 3 segundos, recibir el primer token 50ms más rápido marca la diferencia entre un agente que parece ágil y uno que parece trabado.
La red de Cloudflare, con centros de datos en 330 ciudades alrededor del mundo, significa que el AI Gateway está posicionado cerca tanto de los usuarios como de los endpoints de inferencia, minimizando el tiempo de red antes de que el streaming comience. Cuando usas modelos alojados por Cloudflare en Workers AI, como Kimi K2.5 y modelos de voz en tiempo real, no existe un salto adicional por la internet pública, ya que el código y la inferencia corren en la misma red global. Esto garantiza la menor latencia posible para tus agentes.
Resiliencia con failover automático
Cuando se trata de construir agentes, la velocidad no es el único factor que importa. La confiabilidad es igualmente crítica. Cada etapa en el flujo de trabajo de un agente depende de las etapas anteriores. Una inferencia confiable es crucial porque una sola llamada que falle puede comprometer toda la cadena de ejecución.
A través del AI Gateway, si estás llamando a un modelo que está disponible en múltiples proveedores y uno de ellos se cae, Cloudflare redirige automáticamente hacia otro proveedor disponible, sin que necesites escribir ninguna lógica de failover en tu código. Esto es especialmente relevante para entornos de producción donde cualquier tiempo de inactividad tiene impacto directo en la experiencia del usuario.
Para quienes están construyendo agentes de larga duración con el Agents SDK, las llamadas de inferencia vía streaming también son resilientes a desconexiones. El AI Gateway hace buffer de las respuestas en streaming conforme se generan, independientemente del ciclo de vida de tu agente. Si el agente es interrumpido en medio de una inferencia, puede reconectarse al AI Gateway y recuperar la respuesta sin necesidad de hacer una nueva llamada de inferencia ni pagar dos veces por los mismos tokens de salida. Combinado con el sistema de checkpointing nativo del Agents SDK, el usuario final ni se da cuenta de que hubo alguna interrupción.
La integración con Replicate
El equipo de Replicate se unió oficialmente al equipo de plataforma de IA de Cloudflare, y como la propia empresa se encargó de destacar, los equipos ya ni se consideran equipos separados. Los trabajos de integración entre Replicate y Cloudflare van a toda máquina, incluyendo traer todos los modelos de Replicate al AI Gateway y migrar los modelos alojados a la infraestructura de Cloudflare. Pronto será posible acceder a los modelos que ya eran populares en Replicate a través del AI Gateway y alojar los modelos que se desplegaban en Replicate directamente en Workers AI.
Observabilidad y control que marcan la diferencia en el día a día
Uno de los mayores dolores de cabeza de quienes trabajan con inferencia a escala es la falta de visibilidad. El AI Gateway de Cloudflare trae logs centralizados de todas las llamadas, independientemente del proveedor, con información de latencia, tokens consumidos, costo estimado y estado de cada solicitud. Para quienes están optimizando un pipeline de agentes, esto vale oro. Puedes identificar exactamente qué etapa está costando más, cuál está siendo más lenta y dónde están ocurriendo los fallos, todo en un único panel sin necesidad de consolidar datos de múltiples dashboards de proveedores diferentes.
La posibilidad de definir rate limits y políticas de uso por proyecto también es algo que marca la diferencia en el mundo real. Cuando tienes múltiples equipos usando la misma infraestructura de IA, o cuando estás construyendo un producto que va a atender a múltiples clientes, tener control granular sobre quién puede usar qué y cuánto es fundamental para evitar sorpresas en la factura y garantizar que un uso anormal en una parte del sistema no comprometa el funcionamiento de toda la plataforma.
Los controles de logging más granulares y los reintentos automáticos en fallos upstream, lanzados en los últimos meses junto con la renovación del dashboard y los gateways predeterminados con configuración cero, demuestran que Cloudflare está evolucionando el AI Gateway de forma rápida y consistente, escuchando directamente el feedback de los desarrolladores que ya usan la plataforma en producción.
Por qué esto importa para el futuro de los agentes de IA
El movimiento de Cloudflare con el AI Gateway es parte de una tendencia mayor que está moldeando cómo las aplicaciones de IA van a construirse de aquí en adelante. La fragmentación de proveedores y modelos no va a disminuir, va a aumentar. Cada mes que pasa surgen nuevos modelos especializados, proveedores regionales con precios competitivos y opciones open source que rivalizan con las APIs comerciales. Tener una capa de abstracción que aísle tu aplicación de esa fragmentación no es un lujo, es una necesidad arquitectónica para cualquier equipo que quiera mantener agilidad y no quedar atado a un único proveedor.
Para quienes están construyendo agentes más complejos, como sistemas multi-agente donde diferentes agentes se comunican entre sí y con diferentes modelos, esta capa unificada es aún más crítica. La complejidad de gestionar múltiples integraciones directamente crece exponencialmente con el número de agentes y modelos involucrados. Con el AI Gateway como punto central de control, esa complejidad es absorbida por la infraestructura, y el equipo de desarrollo puede enfocarse en lo que realmente importa: la lógica de negocio y el comportamiento de los agentes en sí, no la fontanería de las APIs.
Cloudflare está claramente posicionando el AI Gateway como infraestructura fundamental para la próxima generación de aplicaciones inteligentes. Y dado el historial de la empresa en construir infraestructura de red confiable y globalmente distribuida, tiene todo el sentido que esté expandiendo ese rol hacia el mundo de la inferencia de IA. El mercado de herramientas para desarrollo con IA todavía se está consolidando, pero soluciones que resuelven problemas reales de producción, como observabilidad, control de costos y resiliencia, tienden a convertirse en estándar del mercado bastante rápido. 🚀
El AI Gateway ya está disponible para desarrolladores que usan la plataforma de Cloudflare, con soporte para más de 70 modelos de proveedores como OpenAI, Anthropic, Google, Alibaba Cloud, AssemblyAI, Bytedance, MiniMax y otros, todos accesibles a través de una única API unificada. El catálogo completo de modelos puede consultarse en la documentación oficial de Cloudflare.
