16 февраля, в день китайского Нового года, Alibaba открыла исходный код нового поколения большой модели Qwen3.5-Plus, чья производительность сопоставима с Gemini 3 Pro и заняла вершину мирового рейтинга открытых моделей.
Сообщается, что Qwen3.5 реализовал полную революцию в архитектуре базовой модели. В версии Qwen3.5-Plus, выпущенной недавно, всего параметров 397 миллиардов, активных — всего 17 миллиардов, что позволяет добиться превосходства над моделями с триллионами параметров, такими как Qwen3-Max. Объем памяти для развертывания снижен на 60 %, производительность inference значительно увеличена, максимальная пропускная способность inference достигла 19-кратного роста. Цена API для Qwen3.5-Plus составляет всего 0,8 юаня за миллион токенов, что в 18 раз дешевле Gemini 3 Pro.
В отличие от предыдущих поколений больших языковых моделей Qwen, версия 3.5 осуществила переход от чисто текстовых моделей к нативным мультимодальным моделям. Предварительное обучение Qwen3 было проведено на чистых текстовых токенах, тогда как Qwen3.5 обучалась на смешанных визуальных и текстовых токенах, а также значительно расширила набор данных на китайском, английском и других языках, включая STEM и логические задачи. Это позволило модели «раскрыть глаза» и освоить более глубокие знания о мире и логические рассуждения, достигая при этом менее 40 % параметров, необходимых для достижения топовых результатов модели Qwen3-Max. В полном спектре тестов, таких как inference, программирование, агентные системы, модель показывает превосходные результаты. Например, в тесте MMLU-Pro по логике и знаниям Qwen3.5 набрала 87,8 баллов, превзойдя GPT-5.2; в сложных задачах уровня доктора наук GPQA — 88,4 балла, выше Claude 4.5; в тесте на выполнение команд IFBench — 76,5 баллов, установив новый рекорд среди всех моделей; а в тестах для универсальных агентных систем BFCL-V4, Browsecomp и других, Qwen3.5 превосходит Gemini 3 Pro и GPT-5.2.
Нативное мультимодальное обучение также привело к значительному скачку в визуальных возможностях Qwen3.5: в таких авторитетных тестах, как мультимодальное рассуждение MathVison, универсальный визуальный вопрос-ответ VQA (RealWorldQA), распознавание текста и понимание документов (CC_OCR), пространственный интеллект (RefCOCO-avg), видеоанализ (MLVU), модель показывает лучшие показатели. В задачах решения предметных задач, планирования и физического пространственного рассуждения Qwen3.5 превосходит специализированные модели Qwen3-VL, значительно улучшая способности пространственной локализации и визуального рассуждения, делая анализ более точным и детализированным. В области видеоанализа модель поддерживает обработку видео длительностью до двух часов (с контекстом до 1 миллиона токенов), что подходит для анализа длинных видеоматериалов и генерации их кратких обзоров. Также Qwen3.5 реализовала нативное объединение визуального понимания и программирования, в сочетании с инструментами поиска изображений и генерации изображений, позволяя преобразовать рукописные эскизы интерфейсов в рабочий фронтенд-код, а один скриншот — обнаружить и исправить UI-проблемы, делая визуальное программирование действительно инструментом повышения производительности.
Нативное мультимодальное обучение Qwen3.5 было реализовано на базе инфраструктуры Alibaba Cloud AI. Благодаря серии технологических инноваций, производительность обучения моделей на смешанных данных (текст, изображения, видео) почти достигла уровня обучения чисто текстовых моделей, что значительно снизило порог входа для мультимодальных моделей. Использование продуманных стратегий точности FP8 и FP32 позволило при масштабировании до сотен триллионов токенов снизить использование памяти примерно на 50 %, а скорость обучения повысить на 10 %, что дополнительно снизило затраты и повысило эффективность обучения.
Qwen3.5 также достигла новых высот в области агентных систем. Модель способна самостоятельно управлять смартфонами и компьютерами, эффективно выполнять повседневные задачи, поддерживая на мобильных устройствах больше популярных приложений и команд, а на ПК — выполнять более сложные многошаговые операции, такие как межприложенное управление данными и автоматизация процессов, что значительно повышает операционную эффективность. Команда разработчиков создала расширяемую асинхронную систему обучения агентных систем, которая обеспечивает ускорение в 3–5 раз, а также расширила поддержку плагинов и интеллектуальных агентов до миллиона единиц.
Сообщается, что приложения Qwen и ПК-версия уже первыми получили доступ к модели Qwen3.5-Plus. Разработчики могут скачать новую модель на платформе Моджада, HuggingFace или получить API через Alibaba Cloud Balian. В ближайшее время Alibaba планирует открыть исходный код моделей серии Qwen3.5 разных размеров и функциональности. Также скоро будет выпущена более мощная флагманская модель Qwen3.5-Max.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Alibaba выпустила новое поколение базовой модели QianWen 3.5, заняв вершину в рейтинге самых мощных открытых моделей в мире
16 февраля, в день китайского Нового года, Alibaba открыла исходный код нового поколения большой модели Qwen3.5-Plus, чья производительность сопоставима с Gemini 3 Pro и заняла вершину мирового рейтинга открытых моделей.
Сообщается, что Qwen3.5 реализовал полную революцию в архитектуре базовой модели. В версии Qwen3.5-Plus, выпущенной недавно, всего параметров 397 миллиардов, активных — всего 17 миллиардов, что позволяет добиться превосходства над моделями с триллионами параметров, такими как Qwen3-Max. Объем памяти для развертывания снижен на 60 %, производительность inference значительно увеличена, максимальная пропускная способность inference достигла 19-кратного роста. Цена API для Qwen3.5-Plus составляет всего 0,8 юаня за миллион токенов, что в 18 раз дешевле Gemini 3 Pro.
В отличие от предыдущих поколений больших языковых моделей Qwen, версия 3.5 осуществила переход от чисто текстовых моделей к нативным мультимодальным моделям. Предварительное обучение Qwen3 было проведено на чистых текстовых токенах, тогда как Qwen3.5 обучалась на смешанных визуальных и текстовых токенах, а также значительно расширила набор данных на китайском, английском и других языках, включая STEM и логические задачи. Это позволило модели «раскрыть глаза» и освоить более глубокие знания о мире и логические рассуждения, достигая при этом менее 40 % параметров, необходимых для достижения топовых результатов модели Qwen3-Max. В полном спектре тестов, таких как inference, программирование, агентные системы, модель показывает превосходные результаты. Например, в тесте MMLU-Pro по логике и знаниям Qwen3.5 набрала 87,8 баллов, превзойдя GPT-5.2; в сложных задачах уровня доктора наук GPQA — 88,4 балла, выше Claude 4.5; в тесте на выполнение команд IFBench — 76,5 баллов, установив новый рекорд среди всех моделей; а в тестах для универсальных агентных систем BFCL-V4, Browsecomp и других, Qwen3.5 превосходит Gemini 3 Pro и GPT-5.2.
Нативное мультимодальное обучение также привело к значительному скачку в визуальных возможностях Qwen3.5: в таких авторитетных тестах, как мультимодальное рассуждение MathVison, универсальный визуальный вопрос-ответ VQA (RealWorldQA), распознавание текста и понимание документов (CC_OCR), пространственный интеллект (RefCOCO-avg), видеоанализ (MLVU), модель показывает лучшие показатели. В задачах решения предметных задач, планирования и физического пространственного рассуждения Qwen3.5 превосходит специализированные модели Qwen3-VL, значительно улучшая способности пространственной локализации и визуального рассуждения, делая анализ более точным и детализированным. В области видеоанализа модель поддерживает обработку видео длительностью до двух часов (с контекстом до 1 миллиона токенов), что подходит для анализа длинных видеоматериалов и генерации их кратких обзоров. Также Qwen3.5 реализовала нативное объединение визуального понимания и программирования, в сочетании с инструментами поиска изображений и генерации изображений, позволяя преобразовать рукописные эскизы интерфейсов в рабочий фронтенд-код, а один скриншот — обнаружить и исправить UI-проблемы, делая визуальное программирование действительно инструментом повышения производительности.
Нативное мультимодальное обучение Qwen3.5 было реализовано на базе инфраструктуры Alibaba Cloud AI. Благодаря серии технологических инноваций, производительность обучения моделей на смешанных данных (текст, изображения, видео) почти достигла уровня обучения чисто текстовых моделей, что значительно снизило порог входа для мультимодальных моделей. Использование продуманных стратегий точности FP8 и FP32 позволило при масштабировании до сотен триллионов токенов снизить использование памяти примерно на 50 %, а скорость обучения повысить на 10 %, что дополнительно снизило затраты и повысило эффективность обучения.
Qwen3.5 также достигла новых высот в области агентных систем. Модель способна самостоятельно управлять смартфонами и компьютерами, эффективно выполнять повседневные задачи, поддерживая на мобильных устройствах больше популярных приложений и команд, а на ПК — выполнять более сложные многошаговые операции, такие как межприложенное управление данными и автоматизация процессов, что значительно повышает операционную эффективность. Команда разработчиков создала расширяемую асинхронную систему обучения агентных систем, которая обеспечивает ускорение в 3–5 раз, а также расширила поддержку плагинов и интеллектуальных агентов до миллиона единиц.
Сообщается, что приложения Qwen и ПК-версия уже первыми получили доступ к модели Qwen3.5-Plus. Разработчики могут скачать новую модель на платформе Моджада, HuggingFace или получить API через Alibaba Cloud Balian. В ближайшее время Alibaba планирует открыть исходный код моделей серии Qwen3.5 разных размеров и функциональности. Также скоро будет выпущена более мощная флагманская модель Qwen3.5-Max.