Cursor опублікував технологію оптимізації виведення MoE Warp Decode, яка збільшує пропускну здатність на GPU Blackwell у 1.84 рази

BlockBeatNews

2026-04-07 01:21:09

За моніторингом 1M AI News, інструмент для програмування на базі ШІ Cursor опублікував технічний блог, у якому представив власний спосіб прискорення інференсу для MoE (моделі з багатьма експертами) під назвою Warp Decode. Цей підхід орієнтований на сценарії генерації малими батчами токенів на GPU Nvidia Blackwell і перевертає традиційну паралельну стратегію, що базується на експертах, на підхід, орієнтований на вивід: кожен warp (мінімальна одиниця планування, що складається з 32 паралельних обчислювальних одиниць) у GPU відповідає лише за обчислення одного значення виводу, незалежно ітеративно проходить усі експерти, до яких виконано роутинг, і виконує накопичення у регістрах, без будь-якої синхронізації між warp та без проміжних буферів.

Традиційний MoE-інференсний конвеєр має 8 стадій: з них 5 лише для транспортування даних до експертного подання (views), без виконання реальних обчислень. Warp Decode стискає весь шар MoE-обчислень до 2 CUDA kernel, прибираючи проміжні кроки на кшталт заповнення (padding), розсіювання (scatter), злиття (gather) тощо; для кожного токена зменшується обсяг читання/запису проміжних буферів більш ніж на 32KB.

У реальних тестах на GPU Nvidia B200 з моделлю у стилі Qwen-3 Warp Decode забезпечив підвищення наскрізного (end-to-end) декодингового пропуску на 1.84 раза, а також — через виконання обчислень у повному циклі з точністю BF16/FP32 та уникнення втрат точності під час проміжного квантування — якість виводу є близькою до еталона FP32 у 1.4 раза. Щодо використання апаратної пропускної здатності: при розмірі батча 32 стабільний наскрізний пропуск досягає 3.95 TB/s, що становить приблизно 58% від пікової пропускної здатності B200 (6.8 TB/s). Це оптимізування безпосередньо прискорило розробку власної програмної моделі Composer від Cursor, а також темп ітерацій та релізів версій.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів