NVIDIA y Google Cloud unen fuerzas para derribar los costos de inferencia de IA
Los costos de inferencia de IA a escala siempre fueron uno de los mayores obstáculos para empresas que quieren llevar proyectos de inteligencia artificial del laboratorio a la producción real. Y fue exactamente ese problema el que NVIDIA y Google Cloud decidieron atacar juntos durante el Google Cloud Next, uno de los eventos más importantes del calendario tech global.
El anuncio no fue solo otra alianza corporativa de fachada. Las dos gigantes presentaron un enfoque diferente: en lugar de optimizar hardware y software por separado, rediseñaron las dos capas al mismo tiempo, de forma integrada, para entregar mejoras reales de rendimiento y reducción de costos que, en la práctica, cambian bastante las reglas del juego para quienes necesitan ejecutar modelos de IA a gran escala. 🚀
¿El resultado? Una infraestructura capaz de entregar hasta 10 veces menos costo por token y 10 veces más throughput por megavatio, además de abrir caminos para sectores altamente regulados, como salud y finanzas, que desde hace mucho tiempo frenan sus proyectos de machine learning por requisitos de soberanía de datos.
En este artículo desglosamos todo lo que se anunció, desde el nuevo hardware hasta las aplicaciones reales que ya están corriendo en producción. 👇
¿Por qué el costo de inferencia era un problema tan serio?
Antes de entrar en lo que se anunció, vale la pena entender por qué la inferencia de IA es un punto de dolor tan persistente para empresas de todos los tamaños. Cuando un modelo de lenguaje o cualquier otro modelo de IA se entrena, pasa por un proceso intenso de aprendizaje que ocurre una vez, o unas pocas veces. Pero la inferencia, que es el momento en que el modelo responde a una pregunta, analiza un documento o clasifica una imagen, sucede millones o miles de millones de veces al día en entornos de producción real. Esto significa que, aunque el costo por solicitud parezca pequeño, se multiplica de forma alarmante cuando se opera a escala empresarial.
Este escenario hace que muchas empresas terminen limitando el uso de sus modelos, reduciendo la frecuencia de las llamadas de inferencia o incluso posponiendo proyectos enteros porque la cuenta simplemente no cuadra. El problema no es solo financiero, claro. También está la cuestión de latencia, es decir, el tiempo que el modelo tarda en responder, que afecta directamente la experiencia del usuario en aplicaciones de tiempo real, como asistentes virtuales, sistemas de recomendación y herramientas de análisis en vivo.
Cuando hardware y software no están optimizados en conjunto, terminas pagando más y encima recibiendo un rendimiento por debajo de lo que el modelo podría entregar. Ahí es donde entra la propuesta de NVIDIA y Google Cloud: en lugar de que cada lado cuide de su capa por separado, las dos empresas empezaron a trabajar en una arquitectura conjunta donde el hardware nace pensado para el software que va a correr encima, y viceversa.
Las nuevas instancias A5X y la arquitectura Vera Rubin NVL72
El gran protagonista técnico del evento fueron las nuevas instancias A5X bare-metal, que corren sobre los sistemas NVIDIA Vera Rubin NVL72 a escala de rack. Mediante co-diseño de hardware y software, esta arquitectura fue proyectada para entregar hasta 10 veces menos costo de inferencia por token en comparación con generaciones anteriores, al mismo tiempo que alcanza 10 veces más throughput de tokens por megavatio.
Conectar miles de procesadores exige un ancho de banda masivo para evitar retrasos en el procesamiento. Las instancias A5X resuelven este desafío de hardware combinando los NVIDIA ConnectX-9 SuperNICs con la tecnología de red Google Virgo. Esta configuración escala hasta 80.000 GPUs NVIDIA Rubin dentro de un único clúster de sitio, y hasta 960.000 GPUs en implementaciones multi-sitio.
Operar a esta escala exige una gestión de cargas de trabajo extremadamente sofisticada. Enrutar datos por casi un millón de procesadores en paralelo demanda sincronización exacta para evitar tiempo de cómputo ocioso. Es el tipo de complejidad que solo tiene sentido cuando hardware y software se piensan juntos desde el inicio.
Mark Lohmeyer, VP y GM de Infraestructura de IA y Cómputo de Google Cloud, comentó que la próxima década de IA será moldeada por la capacidad de los clientes de ejecutar sus cargas de trabajo más exigentes sobre una pila de infraestructura verdaderamente integrada y optimizada para IA. Según él, al combinar la infraestructura escalable de Google Cloud con las plataformas de NVIDIA, los clientes ganan flexibilidad para entrenar, ajustar y servir todo, desde modelos de frontera y modelos abiertos hasta cargas de trabajo de IA agente e IA física, mientras optimizan rendimiento, costo y sostenibilidad.
Gobernanza de datos y seguridad para sectores regulados
Más allá de la capacidad bruta de procesamiento, la gobernanza de datos sigue siendo una cuestión primordial para las implementaciones empresariales. Sectores altamente regulados, incluyendo finanzas y salud, frecuentemente frenan iniciativas de machine learning por requisitos de soberanía de datos y el riesgo de exponer información propietaria. 🏥
Para atender estas exigencias de cumplimiento, los modelos Google Gemini corriendo en GPUs NVIDIA Blackwell y Blackwell Ultra están entrando en preview en Google Distributed Cloud. Este método de implementación permite que las organizaciones mantengan modelos de frontera enteramente dentro de sus entornos controlados, junto a sus repositorios de datos más sensibles.
La arquitectura incorpora NVIDIA Confidential Computing, un protocolo de seguridad a nivel de hardware que garantiza que los modelos en entrenamiento operen dentro de un entorno protegido, donde prompts y datos de ajuste fino permanecen cifrados. El cifrado impide que partes no autorizadas, incluyendo los propios operadores de la infraestructura de nube, visualicen o alteren los datos subyacentes.
Para entornos de nube pública multi-tenant, una preview de VMs Confidential G4 equipadas con GPUs NVIDIA RTX PRO 6000 Blackwell introduce estas mismas protecciones criptográficas. Esto da a industrias reguladas acceso a hardware de alto rendimiento sin violar estándares de privacidad de datos. Este lanzamiento representa la primera oferta de computación confidencial basada en nube para GPUs NVIDIA Blackwell.
IA agente y la complejidad operacional del entrenamiento
Construir sistemas de IA agente con múltiples etapas exige conectar modelos de lenguaje grandes a APIs complejas, mantener sincronización continua con bases de datos vectoriales y mitigar activamente alucinaciones algorítmicas durante la ejecución. Es un desafío de ingeniería pesado que va mucho más allá de simplemente entrenar un modelo.
Para simplificar esta demanda, NVIDIA Nemotron 3 Super ahora está disponible en la Gemini Enterprise Agent Platform. La plataforma proporciona a los desarrolladores herramientas para personalizar e implementar modelos de razonamiento y multimodales diseñados específicamente para tareas agente. La plataforma más amplia de NVIDIA en Google Cloud está optimizada para varios modelos, incluyendo las familias Gemini y Gemma de Google, ofreciendo a los desarrolladores las herramientas para construir sistemas que razonan, planifican y actúan.
Entrenar estos modelos a escala introduce una sobrecarga operacional pesada, particularmente al gestionar el dimensionamiento de clústeres y fallas de hardware durante largos ciclos de aprendizaje por refuerzo. Para resolver esto, Google Cloud y NVIDIA presentaron los Managed Training Clusters en la Gemini Enterprise Agent Platform, que incluye una API gestionada de aprendizaje por refuerzo construida con NVIDIA NeMo RL. Este sistema automatiza el dimensionamiento de clústeres, recuperación de fallas y ejecución de trabajos, permitiendo que los equipos de ciencia de datos se concentren en la calidad del modelo en lugar de la gestión de infraestructura de bajo nivel. ⚙️
El caso CrowdStrike como ejemplo práctico
CrowdStrike utiliza activamente las bibliotecas abiertas NVIDIA NeMo, incluyendo NeMo Data Designer y NeMo Megatron Bridge, para generar datos sintéticos y hacer ajuste fino de modelos para aplicaciones específicas de ciberseguridad. Operar estos modelos en Managed Training Clusters con GPUs Blackwell acelera sus capacidades de detección y respuesta automatizada a amenazas, mostrando cómo esta infraestructura ya entrega resultados concretos en escenarios de producción real.
Integración con arquitecturas heredadas y simulaciones físicas
La integración de machine learning en la industria pesada y manufactura presenta una clase diferente de desafíos de ingeniería. Conectar modelos digitales a plantas de producción físicas exige simulaciones físicas exactas, poder computacional masivo y estandarización entre formatos de datos heredados. La infraestructura de IA y las bibliotecas de IA física de NVIDIA están ahora disponibles en Google Cloud, proporcionando la base para que las organizaciones simulen y automaticen flujos de trabajo de manufactura en el mundo real.
Grandes proveedores de software industrial, como Cadence y Siemens, pusieron a disposición sus soluciones en Google Cloud, aceleradas por la infraestructura NVIDIA. Estas herramientas alimentan la ingeniería y fabricación de maquinaria pesada, plataformas aeroespaciales y vehículos autónomos.
Las empresas manufactureras frecuentemente operan sistemas de gestión de ciclo de vida de producto con décadas de antigüedad, lo que hace que la traducción de datos de geometría y física sea bastante difícil. Al utilizar las bibliotecas NVIDIA Omniverse y el framework open-source NVIDIA Isaac Sim a través de Google Cloud Marketplace, los desarrolladores pueden sortear algunos de estos problemas de traducción para construir digital twins físicamente precisos y entrenar pipelines de simulación robótica antes de la implementación física.
La implementación de microservicios NVIDIA NIM, como el modelo Cosmos Reason 2, en Google Vertex AI y Google Kubernetes Engine permite que agentes y robots basados en visión interpreten y naveguen sus entornos físicos. Juntas, estas plataformas ayudan a los desarrolladores a avanzar del diseño asistido por computadora directamente a digital twins industriales vivos.
Los números que cambian la conversación sobre infraestructura de IA
Hablar de 10 veces menos costo por token es el tipo de afirmación que normalmente levanta cejas, porque promesas así suelen venir con muchos asteriscos. Pero el contexto aquí es importante: esta mejora no viene de un único truco, sino de la suma de varias optimizaciones ocurriendo en paralelo. Las GPUs de la nueva generación tienen una arquitectura de memoria mucho más eficiente que las generaciones anteriores, con mayor ancho de banda y capacidad de procesar modelos más grandes sin necesidad de fragmentar el procesamiento de formas que aumentan la latencia y el consumo de energía.
El resultado de 10 veces más throughput por megavatio es especialmente relevante porque coloca la discusión de costos en una perspectiva que va más allá del precio por hora de GPU: habla sobre el costo energético de cada operación, que es una métrica cada vez más importante tanto desde el punto de vista financiero como de sostenibilidad. Las empresas que operan centros de datos a gran escala saben muy bien cuánto pesa la factura de energía en el costo total de propiedad de una operación de IA.
Portafolio flexible para diferentes necesidades
El portafolio presentado incluye opciones que escalan desde racks NVL72 completos hasta VMs G4 fraccionarias ofreciendo apenas un octavo de una GPU. Esto permite que los clientes aprovisionen capacidad de aceleración con precisión para tareas de razonamiento con mixture-of-experts y procesamiento de datos, pagando exactamente por lo que necesitan. 💡
Quién ya lo está usando y los resultados en la práctica
Una de las partes más interesantes de los anuncios fue la presentación de casos reales, no solo promesas para el futuro. Traducir especificaciones de hardware en retornos financieros cuantificables exige mirar cómo los primeros adoptantes utilizan la infraestructura.
- Thinking Machines Lab escala su Tinker API en VMs A4X Max para acelerar entrenamiento.
- OpenAI usa inferencia a gran escala en los sistemas NVIDIA GB300 y GB200 NVL72 en Google Cloud para manejar cargas de trabajo exigentes, incluyendo las operaciones de ChatGPT.
- Snap migró sus pipelines de datos a Spark acelerado por GPU en Google Cloud para recortar los costos extensivos asociados a pruebas A/B a gran escala.
- Schrödinger, en el sector farmacéutico, aprovecha la computación acelerada NVIDIA en Google Cloud para comprimir simulaciones de descubrimiento de fármacos que antes llevaban semanas a cuestión de horas.
Estos ejemplos muestran que no estamos hablando de tecnología en etapa experimental. Son cargas de trabajo reales, de empresas reales, generando valor medible en producción.
Ecosistema de desarrolladores en crecimiento acelerado
El ecosistema de desarrolladores que escala estas herramientas se expandió rápidamente. Más de 90.000 desarrolladores se unieron a la comunidad conjunta NVIDIA y Google Cloud en apenas un año. Startups como CodeRabbit y Factory aplican modelos basados en NVIDIA Nemotron en Google Cloud para ejecutar revisiones de código y correr agentes autónomos de desarrollo de software. Otras empresas como Aible, Mantis AI, Photoroom y Baseten construyen soluciones de datos empresariales, inteligencia de video y generación de imágenes usando la plataforma full-stack.
Lo que esto representa para el mercado de IA
El movimiento de NVIDIA y Google Cloud no ocurre en el vacío. El mercado de infraestructura para IA está en plena ebullición, con múltiples actores compitiendo por posición en un segmento que debería mover cientos de miles de millones de dólares en los próximos años. Amazon Web Services tiene sus propios chips Trainium e Inferentia, Microsoft Azure invierte fuerte en su alianza con OpenAI y desarrolla hardware especializado, y actores como Groq y Cerebras apuestan por arquitecturas completamente diferentes para resolver exactamente el mismo problema de eficiencia en inferencia.
Lo que hace que esta alianza sea particularmente relevante es que combina a la empresa que domina el ecosistema de software de IA, con CUDA y toda la cadena de herramientas de NVIDIA, con uno de los mayores y más sofisticados proveedores de nube del planeta. Google Cloud trae no solo la infraestructura física distribuida globalmente, sino también un ecosistema de productos de datos y analytics que permite a las empresas conectar sus pipelines de inferencia a fuentes de datos en tiempo real, herramientas de observabilidad y sistemas de gobernanza de IA de forma mucho más fluida.
Juntas, NVIDIA y Google Cloud pretenden proporcionar una base computacional diseñada para avanzar agentes experimentales y simulaciones hacia sistemas de producción que protegen flotas y optimizan fábricas en el mundo físico. Para las empresas que están tomando decisiones de infraestructura ahora, el escenario que se dibuja es de una aceleración en la democratización del acceso a capacidad de inferencia de alto rendimiento.
Si antes correr un modelo de lenguaje grande en producción con baja latencia y costo controlado era privilegio de empresas con equipos de ingeniería muy robustos y presupuestos considerables, la tendencia es que este tipo de capacidad se vuelva progresivamente más accesible para organizaciones más pequeñas. Esto tiene el potencial de cambiar bastante el ritmo de adopción de IA en sectores que todavía están en fase de experimentación, transformando proyectos piloto en productos reales con mucho menos fricción técnica y financiera de la que se veía hasta hace poco tiempo. 🌐
