DeepSeek снова стал «убийцей цен», но на этот раз он убивает не только цены

Автор: Сяоцзинь

Token вновь переосмысливает ценностные координаты эпохи ИИ, опубликована предварительная версия DeepSeek V4, которая снова стала «ценовым мясником», но при этом привнесла новые вопросы в ценообразование токенов. Одного и того же количества токенов в разных системах фактическая стоимость может отличаться в разы, крупные модели движутся к системному ценообразованию.

Наконец-то вышла предварительная версия DeepSeek V4, которая снова снизила цену на крупные модели, что полностью соответствует «характеристикам» DeepSeek.

Ценообразование V4-Flash — 1 юань за вход, 2 юаня за выход на миллион токенов, при попадании кеша цена входа всего 0.2 юаня; ценообразование V4-Pro — 12 юаней за вход, 24 юаня за выход на миллион токенов, при попадании кеша вход стоит 1 юань, при запуске действует ограниченная скидка 25% до 5 мая. Обе модели изначально поддерживают контекст до миллиона токенов.

В эти выходные, DeepSeek V4-Pro продолжает ограниченную акцию, снижая цену до 25%, а цена входа при попадании кеша — еще на 10%. Один инженер по ИИ в шутку заметил: «После выходных DeepSeek V4-Pro будет стоить всего на 0.025 юаня дешевле бесплатного».

На сегодняшний день прошли уже два года с начала ценовой войны, стартовавшей с DeepSeek V2 в 2022 году. За эти два года себестоимость вывода крупной модели снизилась экспоненциально, а с учетом кеширования и других факторов эффективная цена снизилась в сотни раз.

Но сегодня снижение цен имеет гораздо большее значение, чем раньше. ИИ уже перешел к агентному парадигму, ориентированной на выполнение сложных задач на длинных цепочках, где за одну задачу приходится делать десятки или сотни вызовов модели.

В этом контексте, выпуск предварительной версии DeepSeek V4 сопровождается двумя важными новостями. Во-первых, контекст до миллиона токенов стал стандартом для обеих моделей; во-вторых, особое внимание уделяется цене кеширования, с дополнительной скидкой. Эти меры позволяют снизить цену за вызов до уровня, конкурирующего с аналогичными системами, и сделать выполнение одной задачи максимально выгодным.


Token получил новую ценовую систему

Обратимся к ценам 2024 года — по сути, снижение цен переводит крупные модели из «дорогих экспериментов» в разряд «полезных инструментов». Тогда, благодаря архитектурным инновациям, повысилась эффективность вывода, и цена вызова модели с GPT-4 снизилась с 10–30 долларов за миллион токенов до примерно 1 доллара.

График: экспоненциальное снижение цен на токены за последние два года

Это классический пример «абсолютного снижения цены»: разработчики могут использовать крупные модели по низкой цене, что открывает новые возможности для приложений. Но на этом этапе цена все еще связана с «однократной стоимостью вызова», токен считается единицей оплаты, а количество вызовов прямо пропорционально затратам.

Через два года структура цен DeepSeek V4 изменилась. С внедрением кеширования (cache) токены начали делиться на «новые вычисления» и «повторные вычисления». В сценариях с высоким кешированием цена входа может снизиться в десять и более раз. Цена стала переменной, тесно связанной с архитектурой системы.

График: токены разделены на «новые вычисления» и «повторные вычисления»

Если смотреть только на базовую цену, V4 продолжает придерживаться низкой ценовой политики DeepSeek. Внутренний рынок Китая: цены на модели уровня Ali通义, 智谱GLM, 月之暗面Kimi — примерно 1–4 юаня за вход и 4–12 юаней за выход, тогда как V4-Flash — 1 юань за вход и 2 юаня за выход, что примерно в 3–4 раза ниже среднего по отрасли.

Pro-версия за 12/24 юаней приближается к флагманским моделям, но контекст до миллиона токенов — это стандартная возможность, а не платная опция. На глобальном рынке разница еще более заметна: цены примерно в 10–50 раз ниже некоторых конкурентов. Например, цена GPT-5.5 — 5 долларов за миллион токенов за вход, 0.5 доллара за кешированный вход и 30 долларов за миллион токенов за выход. Claude Opus 4.7 продолжает ценовую политику Opus 4.6 — около 5 долларов за вход и 25 долларов за выход на миллион токенов.

Хотя зарубежные флагманские модели по возможностям, зрелости экосистемы и эффективности использования токенов не полностью сопоставимы, цена остается важным фактором. В рамках одного сценария вызова, разница в стоимости напрямую влияет на коммерческую целесообразность. Зарубежные компании также испытывают ценовое давление: Сэм Альтман публично признал, что подписка ChatGPT Pro убыточна, а Дарио Амодеи предупреждает о «слишком агрессивных ценах» в отрасли. В какой-то мере, за ценой скрываются вопросы мощности, затрат на R&D и маркетинговых стратегий.

Именно поэтому ценовое преимущество в этот раз так важно. В 2024 году отрасль решает задачу «можно ли использовать»; в нынешней агентной парадигме — более важный вопрос: «можно ли масштабировать работу».

Обычно одна задача агента включает десятки или сотни вызовов модели, а входные данные — системные подсказки, схемы инструментов и история памяти. Эти части часто повторяются и являются самыми затратными.

DeepSeek V4 сосредоточен на снижении именно этой части — стоимости «повторных вычислений».


График: DeepSeek V4 превратил «затраты» в управляемую переменную. Слева — выравнивание возможностей, справа — резкое снижение затрат. При контексте до миллиона токенов вычислительные ресурсы и кеширование значительно уменьшились, что делает выполнение длинных задач более экономичным. Это — главный драйвер ценовой войны.

Если смотреть на динамику цен, видно, что изменения в продукте тоже идут по накатанной. Предыдущая версия V3.2 имела цену входа 2 юаня (без кеша), 0.2 юаня (с кешем), и выход — 3 юаня; V4-Flash снизила вход до 1 юаня, выход — до 2 юаней, что означает сокращение стоимости «неудачного» входа вдвое. В сценариях с многократными вызовами, где входные затраты — основная часть, эффект этого изменения значительно превосходит простое снижение цены.

Pro-версия за 12/24 юаней кажется в 10 раз дороже Flash, но в техническом отчете DeepSeek отмечает, что «Pro ограничен мощностями высокопроизводительных вычислительных систем, и после массового внедрения новых узлов Ascend 950 в конце года, цена Pro значительно снизится». Можно понять, что текущая цена — отражение ограничений по поставкам, а не реальных затрат.

Обозначены четкие позиции моделей: Flash — для высокопараллельных, низколатентных задач, Pro — для сложных сценариев, генерации кода и глубокого вывода. Внутри компании уже проводят оценки возможностей V4 в задачах code agent, сравнивая их с Claude.


«Ценовой мясник»: как DeepSeek снизил цены?

Как DeepSeek удалось снизить цены?

Традиционный механизм внимания при обработке длинных текстов — квадратичное увеличение вычислений с ростом длины последовательности. Например, при 1 миллионе токенов вычислительная нагрузка — в 64 раза больше, чем при 128K. Это причина, по которой «миллионный контекст» долгое время считался непрактичным: память KV-кеша растет линейно с длиной, и при 1 миллионе токенов либо приходится снижать параллелизм, либо увеличивать число машин — что невыгодно.

Именно поэтому зарубежные компании обычно используют стратегию «короткое окно по умолчанию, за дополнительную плату — длинное». Anthropic даже выделяет отдельную ценовую категорию для текстов свыше 200K, удваивая цену.

График: CSA (сжатое разреженное внимание) DeepSeek V4 — сначала сжимает KV-кеш, затем использует Top-k для выбора ключевых контекстов, вычисляя только важнейшую информацию, что значительно снижает вычислительные и кеш-ресурсы при длинных текстах.

Проще говоря, V4 сочетает «сжатие» и «разреженность»: сначала сжимает KV-кеш каждого m-го токена (CSA — коэффициент сжатия 4, HCA — 128), затем каждый запрос фокусируется только на top-k ключевых элементах. Первый шаг уменьшает память, второй — вычислительную нагрузку, решая две основные проблемы.

График: HCA (повышенное сжатие внимания) — максимально сжимает KV-кеш длинных последовательностей, сохраняя локальную информацию и уменьшая вычислительные и хранилищные затраты, что — ключ к снижению стоимости при контексте до миллиона токенов.

Технический отчет показывает: при контексте 1M, FLOPs для V4-Pro — всего 27% от V3.2, а использование KV-кеша — лишь 10%; для V4-Flash — всего 10% FLOPs и 7% кеша. В совокупности с квантованием FP4, оптимизатором Muon, собственными ядрами MegaMoE и другими инфраструктурными улучшениями, V4 оптимизировал всю цепочку — от обучения до вывода.

Низкая цена — естественный результат архитектурных решений. Один из ключевых сотрудников отечественной крупной компании по моделям рассказал Tencent Tech: «Ценообразование API отечественных моделей — в основном зависит от себестоимости. Пока ни одна компания не идет на убытки ради снижения цены. Поэтому технологические преимущества по затратам — очень важны».

Генеральный директор Alibaba Cloud AI Чжоу Цзинжэнь подчеркнул: «Каждое снижение цены — это очень серьезный процесс, требующий учета развития отрасли, отзывов разработчиков и корпоративных клиентов. Это не просто ценовая война».

Почему это снижение цен так важно?

С точки зрения спроса, сейчас особенно актуально системное снижение цен. В отчете Deloitte по Token Economics приводится пример AT&T: после внедрения системы Agent ежедневное потребление токенов выросло с 8 до 27 миллиардов. Анализ Стевенса из MIT показывает, что в многораундовых диалогах возникает «квадратичный рост» токенов: к 10-му раунду вызов может достигать в 7 раз больше, чем в первом.

Стоимость модели определяет, сможет ли агент работать в коммерческих условиях.

Журнал CIO три недели назад цитировал мнение CEO компании Addo AI Аеши Ханна: «Если вы запускаете постоянный агент, подключенный к API передовых моделей, с высоким потреблением токенов, длинным контекстом, многошаговым выводом и повторным выводом, экономическая эффективность быстро ухудшается. В некоторых случаях стоимость одного задания может превысить стоимость работы человека». Это — главный барьер коммерциализации агентных систем: технологии есть, а экономика — нет.

Обратим внимание на действия V4: почти все они нацелены на решение этого барьера — сделать контекст до миллиона токенов стандартом, чтобы агентам не приходилось платить за длинный контекст; снизить цену кеширования до минимальных значений, чтобы повторное использование системных подсказок было максимально выгодным. В техническом отчете также отмечается, что V4 полностью сохраняет reasoning content при вызовах инструментов (в V3.2 он удалялся при каждом новом сообщении), что важно для многократных вызовов агента.

Может ли V4 снизить всю стоимость агентного ИИ?

В конце концов, важный вопрос — сможет ли V4 снизить общие издержки всей индустрии агентного ИИ? Здесь ситуация сложнее.

Во-первых, если другие компании последуют за DeepSeek и тоже снизят цены, то общая кривая стоимости действительно сдвинется вниз. Но, как отмечается выше, цены моделей в основном определяются их себестоимостью, а маржа производителей — ограничена. В краткосрочной перспективе, существенного снижения цен не ожидается.

Во-вторых, поставки высокопроизводительных вычислительных мощностей. В техническом отчете говорится, что V4-Pro пока ограничен по пропускной способности. Успех снижения цен зависит от массового внедрения отечественных чипов Ascend 950 и прогресса DeepSeek в межплатформенной инженерии.

В разделе 3.1 отчета указано, что DeepSeek протестировал работу на платформах NVIDIA GPU и Huawei Ascend NPU, впервые включив их в список аппаратных решений. Это попытка снизить зависимость от одного типа оборудования, что в долгосрочной перспективе может иметь большое значение для отечественной индустрии.

Третий аспект — возможность дальнейшей оптимизации структуры токенов в сценариях агентных задач. Сейчас агентные системы очень расходуют токены, большая часть — из-за архитектурных особенностей. Помимо снижения цен, важно, как именно используют токены. Даже при снижении стоимости, плохой дизайн агента может привести к росту затрат. Поэтому важна разработка эффективных систем управления агентами, таких как Harness.

DeepSeek V4 действительно снизил цены, сделав контекст до миллиона токенов стандартом, а стоимость вывода — менее одного доллара за миллион токенов, и при этом — на базе архитектурных решений, без субсидий.

Но полностью снизить издержки всей отрасли — задача сложная, требующая системных решений.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить