Google запустила алгоритм TurboQuant, який зменшує споживання пам’яті великих мовних моделей щонайменше у 6 разів і одночасно підвищує швидкість обчислень для виведення результатів до 8 разів без втрати точності моделі. Ринок швидко інтерпретував цю технологію як «злам з боку попиту», оскільки логіка досить проста: якщо під час виведення AI-моделі потреба у пам’яті зменшується у кілька разів, то зростання попиту на DRAM, HBM і NAND у дата-центрах може зазнати структурного зниження.
Після оголошення новини акції, пов’язані з пам’яттю та збереженням даних, почали падати одночасно, зокрема SanDisk (SNDK) — на 3,5%, Micron Technology (MU) — на 3,4%, Western Digital (WDC) — на 1,63%; у Азії — Samsung Electronics знизилася на 4,71%, SK Hynix — на 6,23%. Деякі експерти вважають, що TurboQuant швидше змінить «ефективність використання ресурсів», а не просто зменшить попит.
Оновлений алгоритм Google: менше пам’яті у 6 разів, швидше в 8 разів
За словами дослідницької команди Google, TurboQuant — це алгоритм кількісного зменшення (quantization), розроблений для великих мовних моделей і систем пошуку за векторними ознаками. Основна ідея — значне стиснення найбільш ресурсомістких компонентів AI-моделей, таких як «key-value cache» і високорозмірні векторні структури даних. У тестах ця технологія дозволила зменшити споживання пам’яті щонайменше у 6 разів і підвищити швидкість виведення результатів до 8 разів без втрати точності.
(Що змінює Vera Rubin від NVIDIA? Аналіз епохи боротьби за пам’ять: SK Hynix, Samsung, Micron, SanDisk)
Цей прорив безпосередньо вирішує ключовий вузол сучасної інфраструктури штучного інтелекту. Генеративний AI у сфері обчислень сильно залежить від високошвидкісної пам’яті HBM для зберігання ваг моделі та великих KV-кешів, щоб уникнути зависання пам’яті під час виведення. Однак TurboQuant, поєднуючи PolarQuant і Quantized Johnson-Lindenstrauss (QJL), виконує стиснення майже без додаткових витрат пам’яті, що означає виконання тих самих або навіть більш ефективних обчислень з меншими апаратними ресурсами.
Алгоритм Google: пам’ять зменшена у 6 разів, швидкість — у 8 разів
Ринок швидко інтерпретував цю технологію як «злам з боку попиту». Після оголошення акції компаній, пов’язаних із пам’яттю та збереженням даних, почали падати: SanDisk (SNDK) — на 3,5%, Micron Technology (MU) — на 3,4%, Western Digital (WDC) — на 1,63%; у Азії — Samsung Electronics знизилася на 4,71%, SK Hynix — на 6,23%.
Логіка досить проста: якщо під час виведення AI-процесів потреба у пам’яті зменшується у кілька разів, то зростання попиту на DRAM, HBM і NAND у дата-центрах може зазнати структурного зниження. Особливо враховуючи, що індустрія AI поступово переходить від «навчання» до «виведення», і ефективність технологій оптимізації стане ще важливішою.
Проте є й думки, що TurboQuant більше змінить «ефективність використання ресурсів», ніж просто зменшить попит. Зі зниженням вартості та затримок застосування AI може ще ширше розвиватися, що сприятиме зростанню загального обсягу обчислювальних потужностей — структура «зменшення одиничного попиту, зростання загального обсягу». Виробники великих пам’ятей вже заповнили свої потужності, і ринок, можливо, задається питанням: наскільки великий потенціал зростання AI?