Compartilhar:

O Google fez barulho de novo, e dessa vez o epicentro foi o mercado de chips de memória.

Na última terça-feira, a gigante de tecnologia apresentou o TurboQuant, uma nova técnica de compressão para modelos de inteligência artificial que promete reduzir em até 6 vezes a quantidade de memória necessária para rodar grandes modelos de linguagem. O anúncio foi publicado diretamente no blog de pesquisa da empresa e descreve a abordagem como uma forma de redefinir a eficiência em IA por meio de compressão extrema.

O anúncio foi suficiente para sacudir as bolsas ao redor do mundo.

Ações de fabricantes de chips de memória despencaram em diferentes mercados, de Seul a Tóquio, passando por Wall Street, levantando uma dúvida que o setor já conhece bem: será que o mundo vai precisar de menos hardware para rodar IA?

A cena lembrou bastante o que aconteceu com a DeepSeek no início de 2025, quando a startup chinesa assustou o mercado com modelos eficientes e baratos, derrubando ações de tecnologia em um único dia. Não por acaso, Matthew Prince, CEO da Cloudflare, classificou o TurboQuant como o DeepSeek do Google, destacando que ainda existe muito espaço para otimizar a inferência de IA em termos de velocidade, consumo de memória, gasto energético e utilização multi-tenant.

Mas antes de tirar conclusões precipitadas, vale entender o que o TurboQuant realmente faz, o que os especialistas estão dizendo e por que eficiência maior nem sempre significa menos chips. 👇

O que é o TurboQuant e como ele funciona

O TurboQuant é uma técnica de quantização desenvolvida pelo Google com foco em reduzir o consumo de memória durante a inferência de grandes modelos de linguagem, os famosos LLMs. Em termos práticos, quantização é o processo de representar os pesos e os dados intermediários de um modelo de inteligência artificial com menos bits do que o formato original, o que reduz a necessidade de armazenamento e de largura de banda de memória na hora de rodar o modelo.

O que o Google fez com o TurboQuant foi levar esse conceito a um novo patamar. Segundo o artigo de pesquisa da empresa, a técnica se concentra especificamente na compressão do key-value cache, ou KV cache, que é a estrutura responsável por armazenar cálculos anteriores do modelo para que ele não precise refazê-los a cada nova interação. Esse cache é um dos grandes gargalos de memória durante a inferência, especialmente quando os modelos lidam com contextos longos, como conversas extensas ou documentos grandes.

Um guia prático para avaliar, comparar e implementar inteligência artificial com clareza — sem desperdício de tempo ou dinheiro.

Pare de contratar ferramentas sem direção. Criamos um método estruturado para decidir qual IA realmente faz sentido para o seu negócio.

Entrega em PDF no seu e-mail · Sem spam · LGPD

🔒 Seus dados são protegidos conforme a LGPD. Você pode descadastrar a qualquer momento.

Ao aplicar compressão extrema sobre o KV cache, o TurboQuant consegue liberar uma quantidade significativa de memória sem comprometer de forma relevante a qualidade das respostas geradas pelo modelo. O diferencial em relação a outras abordagens de quantização já existentes está na forma como a técnica analisa a importância relativa de cada camada e aplica níveis diferentes de precisão de forma inteligente, preservando o desempenho onde mais importa e comprimindo agressivamente onde há margem para isso.

Para colocar em perspectiva: um modelo de linguagem que antes exigia, por exemplo, 80 GB de memória para rodar poderia, com o TurboQuant, operar com uma fração desse valor. Isso muda completamente a equação de hardware necessário para inferência em produção, especialmente para empresas que precisam escalar o uso de IA sem explodir o orçamento de infraestrutura. E é exatamente essa perspectiva que fez os mercados reagirem tão rapidamente ao anúncio. 📉

O impacto imediato nas ações de chips de memória

A reação do mercado financeiro foi rápida e intensa. Na quinta-feira seguinte ao anúncio, as ações da SK Hynix caíram 6% na bolsa de Seul, enquanto a Samsung recuou quase 5% no mesmo mercado. No Japão, a fabricante de memória flash Kioxia também registrou queda de quase 6%. Nos Estados Unidos, Sandisk e Micron já haviam iniciado o movimento de baixa na quarta-feira, e ambas continuavam em queda no pré-mercado da quinta.

Os investidores interpretaram o TurboQuant como um sinal de que a demanda futura por chips de memória de alta largura de banda, conhecidos como HBM, poderia ser menor do que o mercado vinha precificando. Afinal, se um modelo de inteligência artificial precisa de menos memória para operar, a lógica imediata é que as empresas vão comprar menos chips. Esse raciocínio tem uma base real, mas como veremos adiante, ignora fatores históricos importantes do setor de tecnologia.

A queda nas ações foi ainda mais expressiva quando consideramos o contexto. As três maiores fabricantes de memória do mundo vinham de uma valorização extraordinária nos últimos doze meses. As ações da Samsung haviam subido quase 200% no período de um ano, impulsionadas pela demanda de IA. Já Micron e SK Hynix acumulavam altas superiores a 300%. Com essa valorização tão agressiva, qualquer notícia negativa poderia servir como gatilho para uma realização de lucros, e foi exatamente isso que aconteceu.

Lucro realizado ou pânico genuíno

Analistas do setor foram rápidos em contextualizar o movimento. Ben Barringer, chefe de pesquisa em tecnologia da Quilter Cheviot, explicou que as ações de memória vinham de uma corrida muito forte e que o setor é altamente cíclico, o que significa que os investidores já estavam buscando razões para realizar lucros. Segundo ele, a inovação do TurboQuant adicionou pressão ao cenário, mas se trata de algo evolucionário, não revolucionário, que não altera a perspectiva de demanda de longo prazo da indústria.

Em outras palavras, o mercado já estava pronto para uma correção. O TurboQuant serviu como o catalisador, mas não necessariamente como a causa fundamental da queda. Em um ambiente onde os preços das ações já refletiam expectativas extremamente otimistas sobre o futuro da demanda por memória, até mesmo um desenvolvimento incremental pode ser usado como motivo para aliviar posições.

Esse padrão não é novo no mundo da tecnologia. O mesmo aconteceu com a DeepSeek no início de 2025, quando a revelação de que modelos competitivos podiam ser treinados com orçamentos muito menores causou uma venda massiva nas ações da Nasdaq. Na época, o impacto real sobre a demanda por chips acabou sendo muito menor do que o mercado inicialmente temeu, e as ações se recuperaram nas semanas seguintes. A pergunta que fica agora é se a história vai se repetir com o TurboQuant. 🤔

Por que eficiência em IA não é o fim dos chips de memória

Especialistas em inteligência artificial e infraestrutura de tecnologia têm sido bastante claros em um ponto: eficiência maior não elimina a necessidade de chips de memória, ela transforma essa necessidade. Ray Wang, analista de memória da SemiAnalysis, foi direto ao dizer que a pesquisa do Google não vai necessariamente levar à necessidade de menos chips. Segundo Wang, o KV cache é um gargalo crítico que precisa ser resolvido para que os modelos e o hardware tenham melhor desempenho, e resolver esse gargalo torna o hardware de IA mais capaz, não menos necessário.

A lógica de Wang segue o que os economistas chamam de Paradoxo de Jevons. Esse conceito, formulado no século 19, diz que quando um recurso se torna mais eficiente, o consumo total desse recurso tende a aumentar, e não diminuir, porque a eficiência maior torna o recurso mais acessível e mais utilizado. No contexto de chips e IA, isso significa que se rodar modelos grandes ficou mais barato, mais empresas vão rodar mais modelos, mais vezes, em mais aplicações, o que pode manter ou até aumentar a demanda por hardware no longo prazo.

Wang reforçou esse ponto ao explicar que será difícil evitar um uso maior de memória conforme o desempenho dos modelos melhora. Quando um gargalo é eliminado, o hardware se torna mais capaz, os modelos de treinamento ficam mais poderosos, e modelos mais poderosos exigem hardware melhor para suportá-los. É um ciclo de retroalimentação que historicamente sempre impulsionou a demanda por componentes de computação, e não o contrário.

Inferência versus treinamento: uma distinção importante

Um detalhe técnico que muitos investidores podem ter ignorado na hora de reagir ao anúncio é que o TurboQuant foi desenvolvido com foco em inferência, ou seja, na fase em que o modelo já está treinado e sendo usado para gerar respostas. O treinamento de novos modelos de inteligência artificial, que é onde a maior parte do consumo de hardware ocorre, não é diretamente afetado por técnicas de quantização como essa.

O Google, a OpenAI, a Anthropic e outras grandes empresas de IA continuam investindo bilhões de dólares em infraestrutura de treinamento, e a corrida por modelos cada vez mais capazes não dá sinais de desaceleração. Na verdade, Demis Hassabis, CEO do Google DeepMind, já havia sinalizado publicamente que a pesquisa e a implantação de IA agêntica estão sendo limitadas justamente pela escassez de chips de memória disponíveis no mercado.

O que muda com o TurboQuant é onde e como esses modelos são deployados depois de treinados, não o ritmo com que são desenvolvidos. Na prática, isso pode até aumentar a pressão sobre a cadeia de suprimentos de memória, já que modelos mais eficientes em inferência tendem a ser adotados por um número maior de empresas e em um número maior de casos de uso.

O efeito cascata da democratização da IA

Quando modelos de linguagem se tornam mais leves e baratos de rodar, a tendência natural é que o uso de IA se expanda para novos casos de uso que antes eram inviáveis financeiramente. Empresas menores passam a ter acesso a tecnologias que antes eram exclusivas de grandes corporações. Aplicações em tempo real, edge computing e dispositivos móveis ganham capacidade de rodar modelos sofisticados. E tudo isso, no agregado, representa mais demanda por processamento e memória, não menos.

Pense da seguinte forma: se antes apenas as dez maiores empresas de tecnologia do mundo tinham orçamento para rodar modelos de linguagem massivos em produção, e agora mil empresas conseguem fazer o mesmo graças à eficiência do TurboQuant, o consumo total de chips de memória pode muito bem aumentar, mesmo que cada empresa individualmente precise de menos hardware. É a escala que muda a equação.

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Além disso, o TurboQuant pode, na prática, acelerar a adoção de modelos maiores e mais complexos por empresas que já possuem infraestrutura robusta. Se antes uma organização precisava de toda a sua capacidade de memória para rodar um modelo de última geração, agora essa mesma organização pode usar a memória que sobrou para rodar modelos ainda maiores ou para processar mais requisições simultâneas. O teto de capacidade sobe para todo mundo. 🚀

O contexto de mercado que não pode ser ignorado

Apesar da queda nas ações na última semana, uma combinação de fatores continua sustentando o mercado de memória no longo prazo. A demanda significativa por chips de alta largura de banda, combinada com uma oferta que ainda não consegue acompanhar o ritmo de consumo, tem empurrado os preços de memória para níveis sem precedentes e sustentado os lucros de Samsung, SK Hynix e Micron.

O próprio CEO da Micron, Sanjay Mehrotra, já declarou publicamente que a oferta de chips de memória está apertada e que a empresa não consegue entregar o suficiente para atender a demanda de seus clientes. Enquanto esse desequilíbrio entre oferta e demanda persistir, é difícil argumentar que uma técnica de compressão, por mais impressionante que seja, vai derrubar de forma estrutural a necessidade do mercado por esses componentes.

A realidade é que a indústria de semicondutores opera em ciclos, e o ciclo atual ainda está fortemente favorável para os fabricantes de memória. Os investimentos em data centers continuam crescendo, os governos estão subsidiando a construção de novas fábricas de chips, e a corrida pela IA está longe de atingir o pico. O TurboQuant pode mudar a composição da demanda, mas dificilmente vai inverter a tendência de crescimento.

O que fica de lição nessa história toda

O movimento das bolsas após o anúncio do TurboQuant é um lembrete de como o mercado financeiro ainda está aprendendo a interpretar os ciclos de inovação em inteligência artificial. A cada avanço em eficiência, há uma reação de pânico sobre o futuro da demanda por hardware, e a cada trimestre, os números de crescimento no consumo de chips continuam surpreendendo para cima. Isso não significa que o mercado está errado em prestar atenção nessas inovações, mas sim que a análise precisa ir além do impacto imediato e considerar os efeitos sistêmicos de longo prazo.

O Google com o TurboQuant está, essencialmente, democratizando o acesso a modelos de linguagem poderosos. Reduzir em até 6 vezes a quantidade de memória necessária para rodar grandes LLMs é um avanço que beneficia desde startups até usuários finais que interagem com produtos baseados em IA no dia a dia. A tecnologia fica mais rápida, mais barata e mais acessível, e isso historicamente nunca foi uma má notícia para o setor de tecnologia como um todo, mesmo que no curto prazo crie turbulências para segmentos específicos do mercado.

No fim das contas, o TurboQuant é mais um capítulo de uma história que já conhecemos bem: a inteligência artificial está ficando cada vez mais eficiente, e essa eficiência está abrindo portas para novos usos, novos produtos e novas demandas. Os chips de memória não vão sumir, mas o tipo de chip, a forma como são usados e quem tem acesso a eles podem mudar bastante nos próximos anos. E acompanhar esse movimento de perto é essencial para entender para onde a tecnologia está indo. 👀

Foto de Rafael

Rafael

Operações

Transformo processos internos em máquinas de entrega — garantindo que cada cliente da Método Viral receba atendimento premium e resultados reais.

Preencha o formulário e nossa equipe entrará em contato em até 24 horas.

Publicações relacionadas

Ações da Amazon podem subir com parceria OpenAI

Parceria entre Amazon e OpenAI pode impulsionar receitas de IA e valorizar ações, diz Citi; impacto estratégico no AWS e

Moratória em Datacenters de IA: Energia em Debate

Moratória: Sanders e AOC propõem pausa na construção de datacenters de IA nos EUA para avaliar impactos ambientais e energéticos.

Blockchain e Agentes de IA Mudam os Pagamentos em Cripto

Agentes de IA impulsionam pagamentos cripto com blockchain, stablecoins e x402, viabilizando transações autônomas, micropagamentos e economia entre máquinas

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora Preço de Sites

Descubra quanto custa o site ideal para seu negócio

Páginas do Site

Quantas páginas você precisa?

4

Arraste para selecionar de 1 a 20 páginas

📄

⚡ Em apenas 2 minutos, descubra automaticamente quanto custa um site em 2026 sob medida para o seu negócio

👥 Mais de 0+ empresas já calcularam seu orçamento

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.