Para compartir:

Índice

Google volvió a hacer ruido, y esta vez el epicentro fue el mercado de chips de memoria.

El pasado martes, el gigante tecnológico presentó TurboQuant, una nueva técnica de compresión para modelos de inteligencia artificial que promete reducir hasta 6 veces la cantidad de memoria necesaria para ejecutar grandes modelos de lenguaje. El anuncio fue publicado directamente en el blog de investigación de la compañía y describe el enfoque como una forma de redefinir la eficiencia en IA mediante compresión extrema.

El anuncio fue suficiente para sacudir las bolsas de todo el mundo.

Las acciones de fabricantes de chips de memoria se desplomaron en distintos mercados, desde Seúl hasta Tokio, pasando por Wall Street, levantando una duda que el sector ya conoce bien: ¿el mundo va a necesitar menos hardware para ejecutar IA?

La escena recordó bastante a lo que ocurrió con DeepSeek a principios de 2025, cuando la startup china asustó al mercado con modelos eficientes y baratos, hundiendo acciones tecnológicas en un solo día. No por casualidad, Matthew Prince, CEO de Cloudflare, clasificó TurboQuant como el DeepSeek de Google, destacando que todavía existe mucho margen para optimizar la inferencia de IA en términos de velocidad, consumo de memoria, gasto energético y utilización multi-tenant.

Pero antes de sacar conclusiones precipitadas, vale la pena entender qué hace realmente TurboQuant, qué están diciendo los especialistas y por qué mayor eficiencia no siempre significa menos chips. 👇

Qué es TurboQuant y cómo funciona

TurboQuant es una técnica de cuantización desarrollada por Google con el objetivo de reducir el consumo de memoria durante la inferencia de grandes modelos de lenguaje, los famosos LLMs. En términos prácticos, la cuantización es el proceso de representar los pesos y los datos intermedios de un modelo de inteligencia artificial con menos bits que el formato original, lo que reduce la necesidad de almacenamiento y de ancho de banda de memoria a la hora de ejecutar el modelo.

Lo que Google hizo con TurboQuant fue llevar ese concepto a un nuevo nivel. Según el artículo de investigación de la compañía, la técnica se centra específicamente en la compresión del key-value cache, o KV cache, que es la estructura encargada de almacenar cálculos anteriores del modelo para que no necesite rehacerlos en cada nueva interacción. Este cache es uno de los grandes cuellos de botella de memoria durante la inferencia, especialmente cuando los modelos manejan contextos largos, como conversaciones extensas o documentos grandes.

Reciba el mejor contenido sobre innovación en su correo electrónico.

Todas las noticias, consejos, tendencias y recursos que buscas, directamente en tu bandeja de entrada.

Al suscribirte al boletín informativo, aceptas recibir comunicaciones de Método Viral. Nos comprometemos a proteger y respetar siempre tu privacidad.

Al aplicar compresión extrema sobre el KV cache, TurboQuant consigue liberar una cantidad significativa de memoria sin comprometer de forma relevante la calidad de las respuestas generadas por el modelo. El diferencial respecto a otros enfoques de cuantización ya existentes está en la forma en que la técnica analiza la importancia relativa de cada capa y aplica niveles diferentes de precisión de manera inteligente, preservando el rendimiento donde más importa y comprimiendo agresivamente donde hay margen para ello.

Para ponerlo en perspectiva: un modelo de lenguaje que antes requería, por ejemplo, 80 GB de memoria para funcionar podría, con TurboQuant, operar con una fracción de ese valor. Esto cambia completamente la ecuación de hardware necesario para inferencia en producción, especialmente para empresas que necesitan escalar el uso de IA sin disparar el presupuesto de infraestructura. Y es exactamente esa perspectiva la que hizo que los mercados reaccionaran tan rápidamente al anuncio. 📉

El impacto inmediato en las acciones de chips de memoria

La reacción del mercado financiero fue rápida e intensa. El jueves siguiente al anuncio, las acciones de SK Hynix cayeron un 6% en la bolsa de Seúl, mientras que Samsung retrocedió casi un 5% en el mismo mercado. En Japón, el fabricante de memoria flash Kioxia también registró una caída de casi el 6%. En Estados Unidos, Sandisk y Micron ya habían iniciado el movimiento a la baja el miércoles, y ambas seguían cayendo en el pre-mercado del jueves.

Los inversores interpretaron TurboQuant como una señal de que la demanda futura de chips de memoria de alto ancho de banda, conocidos como HBM, podría ser menor de lo que el mercado venía descontando. Al fin y al cabo, si un modelo de inteligencia artificial necesita menos memoria para operar, la lógica inmediata es que las empresas van a comprar menos chips. Ese razonamiento tiene una base real, pero como veremos más adelante, ignora factores históricos importantes del sector tecnológico.

La caída en las acciones fue aún más expresiva si consideramos el contexto. Los tres mayores fabricantes de memoria del mundo venían de una valorización extraordinaria en los últimos doce meses. Las acciones de Samsung habían subido casi un 200% en el periodo de un año, impulsadas por la demanda de IA. Por su parte, Micron y SK Hynix acumulaban alzas superiores al 300%. Con una valorización tan agresiva, cualquier noticia negativa podía servir como detonante para una toma de beneficios, y fue exactamente lo que ocurrió.

Toma de beneficios o pánico genuino

Los analistas del sector fueron rápidos en contextualizar el movimiento. Ben Barringer, jefe de investigación en tecnología de Quilter Cheviot, explicó que las acciones de memoria venían de un rally muy fuerte y que el sector es altamente cíclico, lo que significa que los inversores ya estaban buscando razones para recoger ganancias. Según él, la innovación de TurboQuant añadió presión al escenario, pero se trata de algo evolucionario, no revolucionario, que no altera la perspectiva de demanda a largo plazo de la industria.

En otras palabras, el mercado ya estaba listo para una corrección. TurboQuant sirvió como catalizador, pero no necesariamente como la causa fundamental de la caída. En un entorno donde los precios de las acciones ya reflejaban expectativas extremadamente optimistas sobre el futuro de la demanda de memoria, incluso un desarrollo incremental puede usarse como motivo para aligerar posiciones.

Este patrón no es nuevo en el mundo de la tecnología. Lo mismo ocurrió con DeepSeek a principios de 2025, cuando la revelación de que modelos competitivos podían entrenarse con presupuestos mucho menores provocó una venta masiva en las acciones del Nasdaq. En aquel momento, el impacto real sobre la demanda de chips acabó siendo mucho menor de lo que el mercado temió inicialmente, y las acciones se recuperaron en las semanas siguientes. La pregunta que queda ahora es si la historia se va a repetir con TurboQuant. 🤔

Por qué la eficiencia en IA no es el fin de los chips de memoria

Especialistas en inteligencia artificial e infraestructura tecnológica han sido bastante claros en un punto: mayor eficiencia no elimina la necesidad de chips de memoria, la transforma. Ray Wang, analista de memoria de SemiAnalysis, fue directo al decir que la investigación de Google no va a llevar necesariamente a la necesidad de menos chips. Según Wang, el KV cache es un cuello de botella crítico que necesita resolverse para que los modelos y el hardware tengan mejor rendimiento, y resolver ese cuello de botella hace que el hardware de IA sea más capaz, no menos necesario.

La lógica de Wang sigue lo que los economistas llaman la Paradoja de Jevons. Este concepto, formulado en el siglo XIX, dice que cuando un recurso se vuelve más eficiente, el consumo total de ese recurso tiende a aumentar, y no a disminuir, porque la mayor eficiencia hace que el recurso sea más accesible y más utilizado. En el contexto de chips e IA, esto significa que si ejecutar modelos grandes se hizo más barato, más empresas van a ejecutar más modelos, más veces, en más aplicaciones, lo que puede mantener o incluso aumentar la demanda de hardware a largo plazo.

Wang reforzó este punto al explicar que será difícil evitar un mayor uso de memoria conforme el rendimiento de los modelos mejore. Cuando se elimina un cuello de botella, el hardware se vuelve más capaz, los modelos de entrenamiento se hacen más poderosos, y modelos más poderosos exigen mejor hardware para soportarlos. Es un ciclo de retroalimentación que históricamente siempre ha impulsado la demanda de componentes de computación, y no al contrario.

Inferencia versus entrenamiento: una distinción importante

Un detalle técnico que muchos inversores pueden haber pasado por alto al reaccionar al anuncio es que TurboQuant fue desarrollado con enfoque en la inferencia, es decir, en la fase en la que el modelo ya está entrenado y se utiliza para generar respuestas. El entrenamiento de nuevos modelos de inteligencia artificial, que es donde ocurre la mayor parte del consumo de hardware, no se ve directamente afectado por técnicas de cuantización como esta.

Google, OpenAI, Anthropic y otras grandes empresas de IA siguen invirtiendo miles de millones de dólares en infraestructura de entrenamiento, y la carrera por modelos cada vez más capaces no da señales de desaceleración. De hecho, Demis Hassabis, CEO de Google DeepMind, ya había señalado públicamente que la investigación y el despliegue de IA agéntica están siendo limitados precisamente por la escasez de chips de memoria disponibles en el mercado.

Lo que cambia con TurboQuant es dónde y cómo esos modelos se despliegan después de entrenados, no el ritmo con el que se desarrollan. En la práctica, esto puede incluso aumentar la presión sobre la cadena de suministro de memoria, ya que modelos más eficientes en inferencia tienden a ser adoptados por un mayor número de empresas y en un mayor número de casos de uso.

El efecto cascada de la democratización de la IA

Cuando los modelos de lenguaje se vuelven más ligeros y baratos de ejecutar, la tendencia natural es que el uso de IA se expanda hacia nuevos casos de uso que antes eran inviables financieramente. Empresas más pequeñas pasan a tener acceso a tecnologías que antes eran exclusivas de grandes corporaciones. Aplicaciones en tiempo real, edge computing y dispositivos móviles ganan la capacidad de ejecutar modelos sofisticados. Y todo eso, en conjunto, representa más demanda de procesamiento y memoria, no menos.

Piénsalo de esta manera: si antes solo las diez mayores empresas tecnológicas del mundo tenían presupuesto para ejecutar modelos de lenguaje masivos en producción, y ahora mil empresas consiguen hacer lo mismo gracias a la eficiencia de TurboQuant, el consumo total de chips de memoria bien puede aumentar, aunque cada empresa individualmente necesite menos hardware. Es la escala lo que cambia la ecuación.

Herramientas que usamos a diario

Además, TurboQuant puede, en la práctica, acelerar la adopción de modelos más grandes y complejos por parte de empresas que ya cuentan con infraestructura robusta. Si antes una organización necesitaba toda su capacidad de memoria para ejecutar un modelo de última generación, ahora esa misma organización puede usar la memoria sobrante para ejecutar modelos aún más grandes o para procesar más solicitudes simultáneas. El techo de capacidad sube para todos. 🚀

El contexto de mercado que no se puede ignorar

A pesar de la caída en las acciones de la última semana, una combinación de factores sigue sosteniendo el mercado de memoria a largo plazo. La demanda significativa de chips de alto ancho de banda, combinada con una oferta que todavía no consigue seguir el ritmo de consumo, ha empujado los precios de memoria a niveles sin precedentes y ha sostenido los beneficios de Samsung, SK Hynix y Micron.

El propio CEO de Micron, Sanjay Mehrotra, ya declaró públicamente que la oferta de chips de memoria está ajustada y que la empresa no consigue entregar lo suficiente para satisfacer la demanda de sus clientes. Mientras ese desequilibrio entre oferta y demanda persista, es difícil argumentar que una técnica de compresión, por más impresionante que sea, vaya a derrumbar de forma estructural la necesidad del mercado por estos componentes.

La realidad es que la industria de semiconductores opera en ciclos, y el ciclo actual sigue siendo fuertemente favorable para los fabricantes de memoria. Las inversiones en centros de datos siguen creciendo, los gobiernos están subsidiando la construcción de nuevas fábricas de chips, y la carrera por la IA está lejos de alcanzar su pico. TurboQuant puede cambiar la composición de la demanda, pero difícilmente va a invertir la tendencia de crecimiento.

La lección que deja toda esta historia

El movimiento de las bolsas tras el anuncio de TurboQuant es un recordatorio de cómo el mercado financiero todavía está aprendiendo a interpretar los ciclos de innovación en inteligencia artificial. Con cada avance en eficiencia, hay una reacción de pánico sobre el futuro de la demanda de hardware, y cada trimestre, las cifras de crecimiento en el consumo de chips siguen sorprendiendo al alza. Eso no significa que el mercado esté equivocado al prestar atención a estas innovaciones, sino que el análisis necesita ir más allá del impacto inmediato y considerar los efectos sistémicos a largo plazo.

Google con TurboQuant está, esencialmente, democratizando el acceso a modelos de lenguaje potentes. Reducir hasta 6 veces la cantidad de memoria necesaria para ejecutar grandes LLMs es un avance que beneficia desde startups hasta usuarios finales que interactúan con productos basados en IA en su día a día. La tecnología se vuelve más rápida, más barata y más accesible, y eso históricamente nunca ha sido una mala noticia para el sector tecnológico en su conjunto, aunque a corto plazo genere turbulencias en segmentos específicos del mercado.

Al final del día, TurboQuant es un capítulo más de una historia que ya conocemos bien: la inteligencia artificial está siendo cada vez más eficiente, y esa eficiencia está abriendo puertas a nuevos usos, nuevos productos y nuevas demandas. Los chips de memoria no van a desaparecer, pero el tipo de chip, la forma en que se usan y quién tiene acceso a ellos pueden cambiar bastante en los próximos años. Y seguir de cerca este movimiento es esencial para entender hacia dónde va la tecnología. 👀

Imagen de Rafael

Rafael

Operaciones

Transformo los procesos internos en máquinas de entrega, garantizando que cada cliente de Viral Method reciba un servicio de primera calidad y resultados reales.

Rellena el formulario y nuestro equipo se pondrá en contacto contigo en un plazo de 24 horas.

Publicaciones relacionadas

Las acciones de Amazon podrían subir tras la asociación con OpenAI.

Alianza entre Amazon y OpenAI podría impulsar ingresos de IA y valorizar acciones, dice Citi; impacto estratégico en AWS y

Moratoria sobre los centros de datos de IA: El debate sobre la energía

Moratoria: Sanders y AOC proponen pausa en construcción de centros de datos de IA en EE.UU. para evaluar impactos ambientales

Blockchain y los agentes de IA están cambiando los pagos con criptomonedas.

Agentes de IA impulsan pagos cripto con blockchain, stablecoins y x402, facilitando transacciones autónomas, micropagos y economía entre máquinas

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora Preço de Sites

Descubra quanto custa o site ideal para seu negócio

Páginas do Site

Quantas páginas você precisa?

4

Arraste para selecionar de 1 a 20 páginas

📄

⚡ Em apenas 2 minutos, descubra automaticamente quanto custa um site em 2026 sob medida para o seu negócio

👥 Mais de 0+ empresas já calcularam seu orçamento

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.