Hugging Face ретвітнув інструмент turboquant-gpu, заявляючи про забезпечення 5.02-кратного стиснення кешу KV

robot
Генерація анотацій у процесі

Новини ME, повідомлення від 6 квітня (UTC+8). Нещодавно Hugging Face переопублікував повідомлення, опубліковане anirudhbv_ce, і оголосив про запуск інструмента turboquant-gpu. Інструмент заявляє, що може забезпечити до 5.02 раза стиснення KV кешу для будь-якого GPU (включно з RTX, H100, A100, B200). Згідно з описом у статті, його особливості включають: сумісність із бібліотекою Hugging Face Transformers; надання надто простого API, який, як стверджується, дозволяє виконувати стиснення та генерацію лише за 3 рядки коду; застосування 3-bit технології злитого KV стиснення Lloyd-Max, а також заяву про досягнення 0.98 косинусної подібності. У статті вважають, що його продуктивність краща за MXFP4 (3.76 раза стиснення) та іншу, не названу, схему. (Джерело: InFoQ)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити