Compartilhar:

Índice

NVIDIA e Google Cloud unem forças para derrubar os custos de inferência de IA

Os custos de inferência de IA em escala sempre foram um dos maiores obstáculos para empresas que querem levar projetos de inteligência artificial do laboratório para a produção de verdade. E foi exatamente esse problema que a NVIDIA e o Google Cloud decidiram atacar juntos durante o Google Cloud Next, um dos eventos mais importantes do calendário tech global.

O anúncio não foi só mais uma parceria corporativa de fachada. As duas gigantes apresentaram uma abordagem diferente: em vez de otimizar hardware e software separadamente, elas redesenharam as duas camadas ao mesmo tempo, de forma integrada, para entregar ganhos reais de performance e redução de custos que, na prática, mudam bastante o jogo para quem precisa rodar modelos de IA em grande escala. 🚀

O resultado? Uma infraestrutura capaz de entregar até 10 vezes menos custo por token e 10 vezes mais throughput por megawatt, além de abrir caminhos para setores altamente regulados, como saúde e finanças, que há muito tempo travam seus projetos de machine learning por conta de requisitos de soberania de dados.

Neste artigo, a gente destrincha tudo o que foi anunciado, do novo hardware às aplicações reais que já estão rodando em produção. 👇

Por que o custo de inferência era um problema tão sério?

Antes de entrar no que foi anunciado, vale entender por que a inferência de IA é um ponto de dor tão consistente para empresas de todos os tamanhos. Quando um modelo de linguagem ou qualquer outro modelo de IA é treinado, ele passa por um processo intenso de aprendizado que acontece uma vez, ou algumas poucas vezes. Mas a inferência, que é o momento em que o modelo responde a uma pergunta, analisa um documento ou classifica uma imagem, acontece milhões ou bilhões de vezes por dia em ambientes de produção real. Isso significa que, mesmo que o custo por requisição pareça pequeno, ele se multiplica de forma assustadora quando você está operando em escala empresarial.

Esse cenário faz com que muitas empresas acabem limitando o uso dos seus modelos, reduzindo a frequência das chamadas de inferência ou até adiando projetos inteiros porque a conta simplesmente não fecha. O problema não é só financeiro, claro. Existe também a questão de latência, ou seja, o tempo que o modelo leva para responder, que afeta diretamente a experiência do usuário em aplicações de tempo real, como assistentes virtuais, sistemas de recomendação e ferramentas de análise ao vivo.

Quando hardware e software não estão otimizados juntos, você acaba pagando mais e ainda recebendo uma performance abaixo do que o modelo poderia entregar. É aí que entra a proposta da NVIDIA e do Google Cloud: ao invés de cada lado cuidar da sua camada isoladamente, as duas empresas passaram a trabalhar numa arquitetura conjunta onde o hardware já nasce pensado para o software que vai rodar em cima dele, e vice-versa.

As novas instâncias A5X e a arquitetura Vera Rubin NVL72

O grande destaque técnico do evento foram as novas instâncias A5X bare-metal, que rodam sobre os sistemas NVIDIA Vera Rubin NVL72 em escala de rack. Por meio de co-design de hardware e software, essa arquitetura foi projetada para entregar até 10 vezes menos custo de inferência por token em comparação com gerações anteriores, ao mesmo tempo em que alcança 10 vezes mais throughput de tokens por megawatt.

Conectar milhares de processadores exige uma largura de banda massiva para evitar atrasos no processamento. As instâncias A5X resolvem esse desafio de hardware combinando os NVIDIA ConnectX-9 SuperNICs com a tecnologia de rede Google Virgo. Essa configuração escala até 80.000 GPUs NVIDIA Rubin dentro de um único cluster de site, e até 960.000 GPUs em implantações multi-site.

Um guia prático para avaliar, comparar e implementar inteligência artificial com clareza — sem desperdício de tempo ou dinheiro.

Pare de contratar ferramentas sem direção. Criamos um método estruturado para decidir qual IA realmente faz sentido para o seu negócio.

Entrega em PDF no seu e-mail · Sem spam · LGPD

🔒 Seus dados são protegidos conforme a LGPD. Você pode descadastrar a qualquer momento.

Operar nessa escala exige um gerenciamento de carga de trabalho extremamente sofisticado. Rotear dados por quase um milhão de processadores em paralelo demanda sincronização exata para evitar tempo de computação ocioso. É o tipo de complexidade que só faz sentido quando hardware e software são pensados juntos desde o início.

Mark Lohmeyer, VP e GM de Infraestrutura de IA e Computação do Google Cloud, comentou que a próxima década de IA será moldada pela capacidade dos clientes de rodar suas cargas de trabalho mais exigentes em uma pilha de infraestrutura verdadeiramente integrada e otimizada para IA. Segundo ele, ao combinar a infraestrutura escalável do Google Cloud com as plataformas da NVIDIA, os clientes ganham flexibilidade para treinar, ajustar e servir tudo, desde modelos de fronteira e modelos abertos até cargas de trabalho de IA agente e IA física, enquanto otimizam performance, custo e sustentabilidade.

Governança de dados e segurança para setores regulados

Além da capacidade bruta de processamento, a governança de dados continua sendo uma questão primária para implantações empresariais. Setores altamente regulados, incluindo finanças e saúde, frequentemente travam iniciativas de machine learning por causa de requisitos de soberania de dados e do risco de expor informações proprietárias. 🏥

Para endereçar essas exigências de conformidade, os modelos Google Gemini rodando em GPUs NVIDIA Blackwell e Blackwell Ultra estão entrando em preview no Google Distributed Cloud. Esse método de implantação permite que organizações mantenham modelos de fronteira inteiramente dentro dos seus ambientes controlados, junto aos seus repositórios de dados mais sensíveis.

A arquitetura incorpora a NVIDIA Confidential Computing, um protocolo de segurança em nível de hardware que garante que os modelos em treinamento operem dentro de um ambiente protegido, onde prompts e dados de ajuste fino permanecem criptografados. A criptografia impede que partes não autorizadas, incluindo os próprios operadores da infraestrutura de nuvem, visualizem ou alterem os dados subjacentes.

Para ambientes de nuvem pública multi-tenant, uma preview de VMs Confidential G4 equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell introduz essas mesmas proteções criptográficas. Isso dá a indústrias reguladas acesso a hardware de alta performance sem violar padrões de privacidade de dados. Este lançamento representa a primeira oferta de computação confidencial baseada em nuvem para GPUs NVIDIA Blackwell.

IA agente e a complexidade operacional do treinamento

Construir sistemas de IA agente com múltiplas etapas exige conectar modelos de linguagem grandes a APIs complexas, manter sincronização contínua com bancos de dados vetoriais e mitigar ativamente alucinações algorítmicas durante a execução. É um desafio de engenharia pesado que vai muito além de simplesmente treinar um modelo.

Para simplificar essa demanda, o NVIDIA Nemotron 3 Super agora está disponível na Gemini Enterprise Agent Platform. A plataforma fornece aos desenvolvedores ferramentas para customizar e implantar modelos de raciocínio e multimodais projetados especificamente para tarefas agentes. A plataforma mais ampla da NVIDIA no Google Cloud é otimizada para vários modelos, incluindo as famílias Gemini e Gemma do Google, oferecendo aos desenvolvedores as ferramentas para construir sistemas que raciocinam, planejam e agem.

Treinar esses modelos em escala introduz uma sobrecarga operacional pesada, particularmente ao gerenciar dimensionamento de clusters e falhas de hardware durante longos ciclos de aprendizado por reforço. Para resolver isso, o Google Cloud e a NVIDIA apresentaram os Managed Training Clusters na Gemini Enterprise Agent Platform, que inclui uma API gerenciada de aprendizado por reforço construída com NVIDIA NeMo RL. Esse sistema automatiza o dimensionamento de clusters, recuperação de falhas e execução de jobs, permitindo que times de ciência de dados se concentrem na qualidade do modelo em vez de gerenciamento de infraestrutura de baixo nível. ⚙️

O caso CrowdStrike como exemplo prático

A CrowdStrike utiliza ativamente as bibliotecas abertas NVIDIA NeMo, incluindo NeMo Data Designer e NeMo Megatron Bridge, para gerar dados sintéticos e fazer ajuste fino de modelos para aplicações específicas de cibersegurança. Operar esses modelos em Managed Training Clusters com GPUs Blackwell acelera suas capacidades de detecção e resposta automatizada a ameaças, mostrando como essa infraestrutura já entrega resultados concretos em cenários de produção real.

Integração com arquiteturas legadas e simulações físicas

A integração de machine learning na indústria pesada e manufatura apresenta uma classe diferente de desafios de engenharia. Conectar modelos digitais a chãos de fábrica físicos exige simulações físicas exatas, poder computacional massivo e padronização entre formatos de dados legados. A infraestrutura de IA e as bibliotecas de IA física da NVIDIA estão agora disponíveis no Google Cloud, fornecendo a base para que organizações simulem e automatizem fluxos de trabalho de manufatura no mundo real.

Grandes provedores de software industrial, como Cadence e Siemens, disponibilizaram suas soluções no Google Cloud, aceleradas pela infraestrutura NVIDIA. Essas ferramentas alimentam a engenharia e fabricação de maquinário pesado, plataformas aeroespaciais e veículos autônomos.

Empresas de manufatura frequentemente rodam sistemas de gerenciamento de ciclo de vida de produto com décadas de idade, o que torna a tradução de dados de geometria e física bastante difícil. Ao utilizar as bibliotecas NVIDIA Omniverse e o framework open-source NVIDIA Isaac Sim via Google Cloud Marketplace, desenvolvedores podem contornar alguns desses problemas de tradução para construir digital twins fisicamente precisos e treinar pipelines de simulação robótica antes da implantação física.

A implantação de microsserviços NVIDIA NIM, como o modelo Cosmos Reason 2, no Google Vertex AI e Google Kubernetes Engine permite que agentes e robôs baseados em visão interpretem e naveguem seus ambientes físicos. Juntas, essas plataformas ajudam desenvolvedores a avançar do design assistido por computador diretamente para digital twins industriais vivos.

Os números que mudam a conversa sobre infraestrutura de IA

Falar em 10 vezes menos custo por token é o tipo de afirmação que normalmente levanta sobrancelhas, porque promessas assim costumam vir com muitos asteriscos. Mas o contexto aqui é importante: essa melhoria não vem de um único truque, mas da soma de várias otimizações acontecendo em paralelo. As GPUs da nova geração têm uma arquitetura de memória muito mais eficiente que as gerações anteriores, com maior largura de banda e capacidade de processar modelos maiores sem precisar fragmentar o processamento de formas que aumentam a latência e o consumo de energia.

O resultado de 10 vezes mais throughput por megawatt é especialmente relevante porque coloca a discussão de custos numa perspectiva que vai além do preço da hora de GPU: fala sobre o custo energético de cada operação, que é uma métrica cada vez mais importante tanto do ponto de vista financeiro quanto de sustentabilidade. Empresas que operam data centers em larga escala sabem muito bem o quanto a fatura de energia pesa no custo total de propriedade de uma operação de IA.

Portfólio flexível para diferentes necessidades

O portfólio apresentado inclui opções que escalam desde racks NVL72 completos até VMs G4 fracionárias oferecendo apenas um oitavo de uma GPU. Isso permite que clientes provisionem capacidade de aceleração com precisão para tarefas de raciocínio com mixture-of-experts e processamento de dados, pagando exatamente pelo que precisam. 💡

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Quem já está usando e os resultados na prática

Uma das partes mais interessantes dos anúncios foi a apresentação de casos reais, não só promessas para o futuro. Traduzir especificações de hardware em retornos financeiros quantificáveis exige olhar para como os primeiros adotantes utilizam a infraestrutura.

  • Thinking Machines Lab escala sua Tinker API em VMs A4X Max para acelerar treinamento.
  • OpenAI usa inferência em larga escala nos sistemas NVIDIA GB300 e GB200 NVL72 no Google Cloud para lidar com cargas de trabalho exigentes, incluindo as operações do ChatGPT.
  • Snap migrou suas pipelines de dados para Spark acelerado por GPU no Google Cloud para cortar os custos extensivos associados a testes A/B em larga escala.
  • Schrödinger, no setor farmacêutico, aproveita a computação acelerada NVIDIA no Google Cloud para comprimir simulações de descoberta de fármacos que antes levavam semanas para questão de horas.

Esses exemplos mostram que não estamos falando de tecnologia em estágio experimental. São cargas de trabalho reais, de empresas reais, gerando valor mensurável em produção.

Ecossistema de desenvolvedores em crescimento acelerado

O ecossistema de desenvolvedores que escala essas ferramentas expandiu rapidamente. Mais de 90.000 desenvolvedores se juntaram à comunidade conjunta NVIDIA e Google Cloud em apenas um ano. Startups como CodeRabbit e Factory aplicam modelos baseados em NVIDIA Nemotron no Google Cloud para executar revisões de código e rodar agentes autônomos de desenvolvimento de software. Outras empresas como Aible, Mantis AI, Photoroom e Baseten constroem soluções de dados empresariais, inteligência de vídeo e geração de imagens usando a plataforma full-stack.

O que isso representa para o mercado de IA

A movimentação da NVIDIA e do Google Cloud não acontece num vácuo. O mercado de infraestrutura para IA está em plena ebulição, com múltiplos players competindo por posição num segmento que deve movimentar centenas de bilhões de dólares nos próximos anos. A Amazon Web Services tem seus próprios chips Trainium e Inferentia, a Microsoft Azure investe pesado em sua parceria com a OpenAI e desenvolve hardware especializado, e players como Groq e Cerebras apostam em arquiteturas completamente diferentes para resolver exatamente o mesmo problema de eficiência em inferência.

O que torna essa parceria particularmente relevante é que ela combina a empresa que domina o ecossistema de software de IA, com o CUDA e toda a cadeia de ferramentas da NVIDIA, com um dos maiores e mais sofisticados provedores de nuvem do planeta. O Google Cloud traz não só a infraestrutura física distribuída globalmente, mas também um ecossistema de produtos de dados e analytics que permite que as empresas conectem suas pipelines de inferência a fontes de dados em tempo real, ferramentas de observabilidade e sistemas de governança de IA de forma muito mais fluida.

Juntas, NVIDIA e Google Cloud pretendem fornecer uma base computacional projetada para avançar agentes experimentais e simulações em sistemas de produção que protegem frotas e otimizam fábricas no mundo físico. Para as empresas que estão tomando decisões de infraestrutura agora, o cenário que se desenha é de uma aceleração na democratização do acesso a capacidade de inferência de alto desempenho.

Se antes rodar um modelo de linguagem grande em produção com latência baixa e custo controlado era privilégio de empresas com times de engenharia muito robustos e budgets consideráveis, a tendência é que esse tipo de capacidade se torne progressivamente mais acessível para organizações menores. Isso tem o potencial de mudar bastante o ritmo de adoção de IA em setores que ainda estão na fase de experimentação, transformando projetos-piloto em produtos reais com muito menos atrito técnico e financeiro do que se via até pouco tempo atrás. 🌐

Foto de Rafael

Rafael

Operações

Transformo processos internos em máquinas de entrega — garantindo que cada cliente da Método Viral receba atendimento premium e resultados reais.

Preencha o formulário e nossa equipe entrará em contato em até 24 horas.

Publicações relacionadas

Ações da Amazon podem subir com parceria OpenAI

Parceria entre Amazon e OpenAI pode impulsionar receitas de IA e valorizar ações, diz Citi; impacto estratégico no AWS e

Moratória em Datacenters de IA: Energia em Debate

Moratória: Sanders e AOC propõem pausa na construção de datacenters de IA nos EUA para avaliar impactos ambientais e energéticos.

Blockchain e Agentes de IA Mudam os Pagamentos em Cripto

Agentes de IA impulsionam pagamentos cripto com blockchain, stablecoins e x402, viabilizando transações autônomas, micropagamentos e economia entre máquinas

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora Preço de Sites

Descubra quanto custa o site ideal para o seu negócio

Páginas do Site

Quantas páginas você precisa?

Arraste para selecionar de 1 a 20 páginas

Em apenas 2 minutos, descubra automaticamente quanto custa um site sob medida para o seu negócio

Mais de 0+ empresas já calcularam seu orçamento

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.