O Google fez barulho de novo, e dessa vez o epicentro foi o mercado de chips de memória.
Na última terça-feira, a gigante de tecnologia apresentou o TurboQuant, uma nova técnica de compressão para modelos de inteligência artificial que promete reduzir em até 6 vezes a quantidade de memória necessária para rodar grandes modelos de linguagem. O anúncio foi publicado diretamente no blog de pesquisa da empresa e descreve a abordagem como uma forma de redefinir a eficiência em IA por meio de compressão extrema.
O anúncio foi suficiente para sacudir as bolsas ao redor do mundo.
Ações de fabricantes de chips de memória despencaram em diferentes mercados, de Seul a Tóquio, passando por Wall Street, levantando uma dúvida que o setor já conhece bem: será que o mundo vai precisar de menos hardware para rodar IA?
A cena lembrou bastante o que aconteceu com a DeepSeek no início de 2025, quando a startup chinesa assustou o mercado com modelos eficientes e baratos, derrubando ações de tecnologia em um único dia. Não por acaso, Matthew Prince, CEO da Cloudflare, classificou o TurboQuant como o DeepSeek do Google, destacando que ainda existe muito espaço para otimizar a inferência de IA em termos de velocidade, consumo de memória, gasto energético e utilização multi-tenant.
Mas antes de tirar conclusões precipitadas, vale entender o que o TurboQuant realmente faz, o que os especialistas estão dizendo e por que eficiência maior nem sempre significa menos chips. 👇
O que é o TurboQuant e como ele funciona
O TurboQuant é uma técnica de quantização desenvolvida pelo Google com foco em reduzir o consumo de memória durante a inferência de grandes modelos de linguagem, os famosos LLMs. Em termos práticos, quantização é o processo de representar os pesos e os dados intermediários de um modelo de inteligência artificial com menos bits do que o formato original, o que reduz a necessidade de armazenamento e de largura de banda de memória na hora de rodar o modelo.
O que o Google fez com o TurboQuant foi levar esse conceito a um novo patamar. Segundo o artigo de pesquisa da empresa, a técnica se concentra especificamente na compressão do key-value cache, ou KV cache, que é a estrutura responsável por armazenar cálculos anteriores do modelo para que ele não precise refazê-los a cada nova interação. Esse cache é um dos grandes gargalos de memória durante a inferência, especialmente quando os modelos lidam com contextos longos, como conversas extensas ou documentos grandes.
Ao aplicar compressão extrema sobre o KV cache, o TurboQuant consegue liberar uma quantidade significativa de memória sem comprometer de forma relevante a qualidade das respostas geradas pelo modelo. O diferencial em relação a outras abordagens de quantização já existentes está na forma como a técnica analisa a importância relativa de cada camada e aplica níveis diferentes de precisão de forma inteligente, preservando o desempenho onde mais importa e comprimindo agressivamente onde há margem para isso.
Para colocar em perspectiva: um modelo de linguagem que antes exigia, por exemplo, 80 GB de memória para rodar poderia, com o TurboQuant, operar com uma fração desse valor. Isso muda completamente a equação de hardware necessário para inferência em produção, especialmente para empresas que precisam escalar o uso de IA sem explodir o orçamento de infraestrutura. E é exatamente essa perspectiva que fez os mercados reagirem tão rapidamente ao anúncio. 📉
O impacto imediato nas ações de chips de memória
A reação do mercado financeiro foi rápida e intensa. Na quinta-feira seguinte ao anúncio, as ações da SK Hynix caíram 6% na bolsa de Seul, enquanto a Samsung recuou quase 5% no mesmo mercado. No Japão, a fabricante de memória flash Kioxia também registrou queda de quase 6%. Nos Estados Unidos, Sandisk e Micron já haviam iniciado o movimento de baixa na quarta-feira, e ambas continuavam em queda no pré-mercado da quinta.
Os investidores interpretaram o TurboQuant como um sinal de que a demanda futura por chips de memória de alta largura de banda, conhecidos como HBM, poderia ser menor do que o mercado vinha precificando. Afinal, se um modelo de inteligência artificial precisa de menos memória para operar, a lógica imediata é que as empresas vão comprar menos chips. Esse raciocínio tem uma base real, mas como veremos adiante, ignora fatores históricos importantes do setor de tecnologia.
A queda nas ações foi ainda mais expressiva quando consideramos o contexto. As três maiores fabricantes de memória do mundo vinham de uma valorização extraordinária nos últimos doze meses. As ações da Samsung haviam subido quase 200% no período de um ano, impulsionadas pela demanda de IA. Já Micron e SK Hynix acumulavam altas superiores a 300%. Com essa valorização tão agressiva, qualquer notícia negativa poderia servir como gatilho para uma realização de lucros, e foi exatamente isso que aconteceu.
Lucro realizado ou pânico genuíno
Analistas do setor foram rápidos em contextualizar o movimento. Ben Barringer, chefe de pesquisa em tecnologia da Quilter Cheviot, explicou que as ações de memória vinham de uma corrida muito forte e que o setor é altamente cíclico, o que significa que os investidores já estavam buscando razões para realizar lucros. Segundo ele, a inovação do TurboQuant adicionou pressão ao cenário, mas se trata de algo evolucionário, não revolucionário, que não altera a perspectiva de demanda de longo prazo da indústria.
Em outras palavras, o mercado já estava pronto para uma correção. O TurboQuant serviu como o catalisador, mas não necessariamente como a causa fundamental da queda. Em um ambiente onde os preços das ações já refletiam expectativas extremamente otimistas sobre o futuro da demanda por memória, até mesmo um desenvolvimento incremental pode ser usado como motivo para aliviar posições.
Esse padrão não é novo no mundo da tecnologia. O mesmo aconteceu com a DeepSeek no início de 2025, quando a revelação de que modelos competitivos podiam ser treinados com orçamentos muito menores causou uma venda massiva nas ações da Nasdaq. Na época, o impacto real sobre a demanda por chips acabou sendo muito menor do que o mercado inicialmente temeu, e as ações se recuperaram nas semanas seguintes. A pergunta que fica agora é se a história vai se repetir com o TurboQuant. 🤔
Por que eficiência em IA não é o fim dos chips de memória
Especialistas em inteligência artificial e infraestrutura de tecnologia têm sido bastante claros em um ponto: eficiência maior não elimina a necessidade de chips de memória, ela transforma essa necessidade. Ray Wang, analista de memória da SemiAnalysis, foi direto ao dizer que a pesquisa do Google não vai necessariamente levar à necessidade de menos chips. Segundo Wang, o KV cache é um gargalo crítico que precisa ser resolvido para que os modelos e o hardware tenham melhor desempenho, e resolver esse gargalo torna o hardware de IA mais capaz, não menos necessário.
A lógica de Wang segue o que os economistas chamam de Paradoxo de Jevons. Esse conceito, formulado no século 19, diz que quando um recurso se torna mais eficiente, o consumo total desse recurso tende a aumentar, e não diminuir, porque a eficiência maior torna o recurso mais acessível e mais utilizado. No contexto de chips e IA, isso significa que se rodar modelos grandes ficou mais barato, mais empresas vão rodar mais modelos, mais vezes, em mais aplicações, o que pode manter ou até aumentar a demanda por hardware no longo prazo.
Wang reforçou esse ponto ao explicar que será difícil evitar um uso maior de memória conforme o desempenho dos modelos melhora. Quando um gargalo é eliminado, o hardware se torna mais capaz, os modelos de treinamento ficam mais poderosos, e modelos mais poderosos exigem hardware melhor para suportá-los. É um ciclo de retroalimentação que historicamente sempre impulsionou a demanda por componentes de computação, e não o contrário.
Inferência versus treinamento: uma distinção importante
Um detalhe técnico que muitos investidores podem ter ignorado na hora de reagir ao anúncio é que o TurboQuant foi desenvolvido com foco em inferência, ou seja, na fase em que o modelo já está treinado e sendo usado para gerar respostas. O treinamento de novos modelos de inteligência artificial, que é onde a maior parte do consumo de hardware ocorre, não é diretamente afetado por técnicas de quantização como essa.
O Google, a OpenAI, a Anthropic e outras grandes empresas de IA continuam investindo bilhões de dólares em infraestrutura de treinamento, e a corrida por modelos cada vez mais capazes não dá sinais de desaceleração. Na verdade, Demis Hassabis, CEO do Google DeepMind, já havia sinalizado publicamente que a pesquisa e a implantação de IA agêntica estão sendo limitadas justamente pela escassez de chips de memória disponíveis no mercado.
O que muda com o TurboQuant é onde e como esses modelos são deployados depois de treinados, não o ritmo com que são desenvolvidos. Na prática, isso pode até aumentar a pressão sobre a cadeia de suprimentos de memória, já que modelos mais eficientes em inferência tendem a ser adotados por um número maior de empresas e em um número maior de casos de uso.
O efeito cascata da democratização da IA
Quando modelos de linguagem se tornam mais leves e baratos de rodar, a tendência natural é que o uso de IA se expanda para novos casos de uso que antes eram inviáveis financeiramente. Empresas menores passam a ter acesso a tecnologias que antes eram exclusivas de grandes corporações. Aplicações em tempo real, edge computing e dispositivos móveis ganham capacidade de rodar modelos sofisticados. E tudo isso, no agregado, representa mais demanda por processamento e memória, não menos.
Pense da seguinte forma: se antes apenas as dez maiores empresas de tecnologia do mundo tinham orçamento para rodar modelos de linguagem massivos em produção, e agora mil empresas conseguem fazer o mesmo graças à eficiência do TurboQuant, o consumo total de chips de memória pode muito bem aumentar, mesmo que cada empresa individualmente precise de menos hardware. É a escala que muda a equação.
Além disso, o TurboQuant pode, na prática, acelerar a adoção de modelos maiores e mais complexos por empresas que já possuem infraestrutura robusta. Se antes uma organização precisava de toda a sua capacidade de memória para rodar um modelo de última geração, agora essa mesma organização pode usar a memória que sobrou para rodar modelos ainda maiores ou para processar mais requisições simultâneas. O teto de capacidade sobe para todo mundo. 🚀
O contexto de mercado que não pode ser ignorado
Apesar da queda nas ações na última semana, uma combinação de fatores continua sustentando o mercado de memória no longo prazo. A demanda significativa por chips de alta largura de banda, combinada com uma oferta que ainda não consegue acompanhar o ritmo de consumo, tem empurrado os preços de memória para níveis sem precedentes e sustentado os lucros de Samsung, SK Hynix e Micron.
O próprio CEO da Micron, Sanjay Mehrotra, já declarou publicamente que a oferta de chips de memória está apertada e que a empresa não consegue entregar o suficiente para atender a demanda de seus clientes. Enquanto esse desequilíbrio entre oferta e demanda persistir, é difícil argumentar que uma técnica de compressão, por mais impressionante que seja, vai derrubar de forma estrutural a necessidade do mercado por esses componentes.
A realidade é que a indústria de semicondutores opera em ciclos, e o ciclo atual ainda está fortemente favorável para os fabricantes de memória. Os investimentos em data centers continuam crescendo, os governos estão subsidiando a construção de novas fábricas de chips, e a corrida pela IA está longe de atingir o pico. O TurboQuant pode mudar a composição da demanda, mas dificilmente vai inverter a tendência de crescimento.
O que fica de lição nessa história toda
O movimento das bolsas após o anúncio do TurboQuant é um lembrete de como o mercado financeiro ainda está aprendendo a interpretar os ciclos de inovação em inteligência artificial. A cada avanço em eficiência, há uma reação de pânico sobre o futuro da demanda por hardware, e a cada trimestre, os números de crescimento no consumo de chips continuam surpreendendo para cima. Isso não significa que o mercado está errado em prestar atenção nessas inovações, mas sim que a análise precisa ir além do impacto imediato e considerar os efeitos sistêmicos de longo prazo.
O Google com o TurboQuant está, essencialmente, democratizando o acesso a modelos de linguagem poderosos. Reduzir em até 6 vezes a quantidade de memória necessária para rodar grandes LLMs é um avanço que beneficia desde startups até usuários finais que interagem com produtos baseados em IA no dia a dia. A tecnologia fica mais rápida, mais barata e mais acessível, e isso historicamente nunca foi uma má notícia para o setor de tecnologia como um todo, mesmo que no curto prazo crie turbulências para segmentos específicos do mercado.
No fim das contas, o TurboQuant é mais um capítulo de uma história que já conhecemos bem: a inteligência artificial está ficando cada vez mais eficiente, e essa eficiência está abrindo portas para novos usos, novos produtos e novas demandas. Os chips de memória não vão sumir, mas o tipo de chip, a forma como são usados e quem tem acesso a eles podem mudar bastante nos próximos anos. E acompanhar esse movimento de perto é essencial para entender para onde a tecnologia está indo. 👀
