Google lanza el algoritmo TurboQuant, que comprime el uso de memoria de los grandes modelos de lenguaje al menos 6 veces, y al mismo tiempo mejora la velocidad de inferencia hasta 8 veces sin sacrificar la precisión del modelo. El mercado rápidamente interpretó esta tecnología como una “ruptura en la demanda”, con una lógica bastante directa: si durante la inferencia los modelos de IA reducen su demanda de memoria en varias veces, esto podría implicar una curva de crecimiento estructural menor en la demanda futura de DRAM, HBM e incluso NAND en los centros de datos.
Tras el anuncio, las acciones relacionadas con memoria y almacenamiento cayeron en sincronía, incluyendo SanDisk (SNDK) con una caída del 3.5%, Micron Technology (MU) con un 3.4% y Western Digital (WDC) con un 1.63%. En la cadena de suministro asiática, Samsung Electronics cayó un 4.71%, y SK Hynix un 6.23%. También hay opiniones que sugieren que TurboQuant podría estar cambiando más la “eficiencia en el uso de recursos” que simplemente reduciendo la demanda.
Algoritmo de Google: menos memoria en seis veces, velocidad de inferencia hasta ocho veces más rápida
Según el equipo de investigación de Google, TurboQuant es un algoritmo de cuantificación diseñado para grandes modelos de lenguaje y sistemas de búsqueda vectorial, cuyo núcleo consiste en comprimir significativamente la “cache de clave-valor” y las estructuras de vectores de alta dimensión, que son las que más recursos consumen en los modelos de IA. En pruebas, esta tecnología puede reducir el uso de memoria en al menos 6 veces, y sin sacrificar la precisión del modelo, aumentar la velocidad de inferencia hasta 8 veces.
(¿Qué cambios trae Vera Rubin de NVIDIA? Análisis de la era de guerra por la memoria: SK Hynix, Samsung, Micron, SanDisk)
Este avance impacta directamente en el cuello de botella clave de la infraestructura actual de IA. La expansión de la IA generativa en términos de potencia de cálculo depende en gran medida de memorias de alta banda ancha como HBM, para soportar los pesos del modelo y grandes cachés KV, evitando que la memoria se quede atascada durante la proceso de inferencia. Sin embargo, TurboQuant logra comprimir usando métodos como PolarQuant y Johnson-Lindenstrauss Cuantizado (QJL), con casi “cero costo adicional de memoria”, lo que equivale a realizar cálculos más eficientes con menos recursos hardware.
El algoritmo de Google impacta la memoria: ¡las acciones de memoria de EE. UU. y Corea caen!
El mercado interpretó rápidamente esta tecnología como una “ruptura en la demanda”. Tras el anuncio, las acciones relacionadas con memoria y almacenamiento cayeron en sincronía, incluyendo SanDisk (SNDK) con una caída del 3.5%, Micron Technology (MU) con un 3.4% y Western Digital (WDC) con un 1.63%. En Asia, Samsung Electronics cayó un 4.71%, y SK Hynix un 6.23%.
La lógica detrás es bastante simple: si durante la inferencia los modelos de IA reducen su demanda de memoria en varias veces, esto podría implicar una revisión a la baja en la curva de crecimiento de la demanda de DRAM, HBM y NAND en los centros de datos futuros. Especialmente en un contexto donde la industria de IA se está desplazando gradualmente de “entrenamiento” a “inferencia”, el impacto marginal de las mejoras en eficiencia será mayor.
No obstante, también hay opiniones que consideran que TurboQuant podría estar cambiando más la “eficiencia en el uso de recursos” que simplemente reduciendo la demanda. Con costos en descenso y menor latencia, las aplicaciones de IA podrían expandirse aún más, impulsando una demanda total de cálculo en crecimiento, en una estructura de “menor demanda por unidad, mayor demanda total”. Las principales fábricas de memoria ya han vendido toda su capacidad este año, y quizás el mercado se pregunta: ¿cuán grande es realmente el techo de crecimiento de la IA?
Este artículo sobre la nueva tecnología de Google asusta al mercado: ¡la demanda de memoria para IA se reduce en seis veces! SK Hynix y Micron caen en sincronía. Publicado originalmente en Chain News ABMedia.