За моніторингом 1M AI News, інструмент для програмування на базі ШІ Cursor опублікував технічний блог, у якому представив власний спосіб прискорення інференсу для MoE (моделі з багатьма експертами) під назвою Warp Decode. Цей підхід орієнтований на сценарії генерації малими батчами токенів на GPU Nvidia Blackwell і перевертає традиційну паралельну стратегію, що базується на експертах, на підхід, орієнтований на вивід: кожен warp (мінімальна одиниця планування, що складається з 32 паралельних обчислювальних одиниць) у GPU відповідає лише за обчислення одного значення виводу, незалежно ітеративно проходить усі експерти, до яких виконано роутинг, і виконує накопичення у регістрах, без будь-якої синхронізації між warp та без проміжних буферів.
Традиційний MoE-інференсний конвеєр має 8 стадій: з них 5 лише для транспортування даних до експертного подання (views), без виконання реальних обчислень. Warp Decode стискає весь шар MoE-обчислень до 2 CUDA kernel, прибираючи проміжні кроки на кшталт заповнення (padding), розсіювання (scatter), злиття (gather) тощо; для кожного токена зменшується обсяг читання/запису проміжних буферів більш ніж на 32KB.
У реальних тестах на GPU Nvidia B200 з моделлю у стилі Qwen-3 Warp Decode забезпечив підвищення наскрізного (end-to-end) декодингового пропуску на 1.84 раза, а також — через виконання обчислень у повному циклі з точністю BF16/FP32 та уникнення втрат точності під час проміжного квантування — якість виводу є близькою до еталона FP32 у 1.4 раза. Щодо використання апаратної пропускної здатності: при розмірі батча 32 стабільний наскрізний пропуск досягає 3.95 TB/s, що становить приблизно 58% від пікової пропускної здатності B200 (6.8 TB/s). Це оптимізування безпосередньо прискорило розробку власної програмної моделі Composer від Cursor, а також темп ітерацій та релізів версій.