16 февраля, в день китайского Нового года, Alibaba открыла исходный код нового поколения большой модели Qwen3.5-Plus, чья производительность сопоставима с Gemini 3 Pro и заняла вершину мирового рейтинга открытых моделей.
Сообщается, что Qwen3.5 реализовал полную революцию в архитектуре базовой модели. Вышедшая версия Qwen3.5-Plus содержит 397 миллиардов параметров, активных — всего 17 миллиардов, что позволяет добиться превосходства над моделями с триллионами параметров, такими как Qwen3-Max. Объем памяти для развертывания снижен на 60 %, производительность при выводе значительно увеличена, максимальная пропускная способность при выводе достигла 19-кратного роста. Цена API для Qwen3.5-Plus составляет всего 0,8 юаня за миллион токенов, что в 18 раз дешевле Gemini 3 Pro.
В отличие от предыдущих поколений больших языковых моделей Qwen, версия 3.5 осуществила переход от чисто текстовых моделей к нативным мультимодальным моделям. В то время как Qwen 3 обучалась на чистых текстовых токенах, Qwen3.5 обучалась на смешанных визуальных и текстовых токенах, а также значительно расширила набор данных на китайском, английском и других языках, включая STEM и логические задачи. Это позволило модели «раскрыть глаза» и освоить более глубокие знания о мире и логике, достигая при этом более чем в 10 раз меньшего количества параметров по сравнению с Qwen3-Max, демонстрируя превосходные результаты в выводе, программировании и агентной интеллектуальности. Например, в тесте MMLU-Pro по логике знаний Qwen3.5 набрала 87,8 баллов, превзойдя GPT-5.2; в сложных задачах уровня доктора наук GPQA — 88,4 балла, выше Claude 4.5; по выполнению команд в IFBench — 76,5 баллов, установив новый рекорд среди всех моделей; а в тестах универсальных агентов BFCL-V4, Browsecomp и других, Qwen3.5 показывает результаты лучше Gemini 3 Pro и GPT-5.2.
Нативное мультимодальное обучение также привело к значительному скачку в визуальных возможностях Qwen3.5: в таких авторитетных тестах, как мультимодальное логическое мышление MathVison, универсальный визуальный вопрос-ответ VQA (RealWorldQA), распознавание текста и понимание документов (CC_OCR), пространственный интеллект (RefCOCO-avg), видеоанализ (MLVU), модель показывает лучшие показатели. В задачах решения предметных задач, планирования и физического пространственного логического мышления Qwen3.5 превосходит специализированную модель Qwen3-VL, значительно улучшая способности пространственной локализации и визуального вывода, делая анализ более точным и детализированным. В области видеоанализа Qwen3.5 поддерживает обработку видео длительностью до двух часов (с контекстом до 1 миллиона токенов), что подходит для анализа длинных видеоматериалов и генерации их кратких описаний. Также реализовано нативное объединение визуального понимания и программирования: с помощью инструментов поиска изображений и генерации изображений можно преобразовать рукописные эскизы интерфейсов в рабочий фронтенд-код, а один скриншот позволяет определить и исправить UI-проблемы, делая визуальное программирование мощным инструментом производства.
Нативное мультимодальное обучение Qwen3.5 было реализовано на базе инфраструктуры Alibaba Cloud AI. Благодаря серии технологических инноваций, производительность обучения моделей на смешанных данных (текст, изображение, видео) достигла почти 100 % по сравнению с обучением чисто текстовых моделей, что значительно снизило порог входа для мультимодального обучения. Использование стратегий точности FP8 и FP32 позволило при масштабировании до сотен триллионов токенов снизить использование памяти примерно на 50 %, а скорость обучения повысить на 10 %, что дополнительно снизило затраты и повысило эффективность тренировки модели.
Qwen3.5 также достигла новых высот в области агентных систем. Модель способна самостоятельно управлять смартфонами и компьютерами, эффективно выполнять повседневные задачи, поддерживая на мобильных устройствах больше популярных приложений и команд, а на ПК — выполнять сложные многошаговые операции, такие как межприложенное управление данными и автоматизация процессов, что значительно повышает операционную эффективность. Команда Qwen разработала расширяемую асинхронную систему обучения агентов, которая позволяет ускорить работу в 3–5 раз и расширить поддержку плагинов и интеллектуальных агентов до миллиона единиц.
Сообщается, что приложения Qwen и ПК-версия уже первыми интегрировали модель Qwen3.5-Plus. Разработчики могут скачать новую модель через сообщество Модак и HuggingFace или получить API через Alibaba Cloud Balian. В ближайшее время Alibaba продолжит открывать модели серии Qwen3.5 разных размеров и функций. Также скоро будет выпущена более мощная флагманская модель Qwen3.5-Max.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Alibaba выпустила новое поколение базовой модели QianWen 3.5, заняв вершину в рейтинге самых мощных открытых моделей в мире
16 февраля, в день китайского Нового года, Alibaba открыла исходный код нового поколения большой модели Qwen3.5-Plus, чья производительность сопоставима с Gemini 3 Pro и заняла вершину мирового рейтинга открытых моделей.
Сообщается, что Qwen3.5 реализовал полную революцию в архитектуре базовой модели. Вышедшая версия Qwen3.5-Plus содержит 397 миллиардов параметров, активных — всего 17 миллиардов, что позволяет добиться превосходства над моделями с триллионами параметров, такими как Qwen3-Max. Объем памяти для развертывания снижен на 60 %, производительность при выводе значительно увеличена, максимальная пропускная способность при выводе достигла 19-кратного роста. Цена API для Qwen3.5-Plus составляет всего 0,8 юаня за миллион токенов, что в 18 раз дешевле Gemini 3 Pro.
В отличие от предыдущих поколений больших языковых моделей Qwen, версия 3.5 осуществила переход от чисто текстовых моделей к нативным мультимодальным моделям. В то время как Qwen 3 обучалась на чистых текстовых токенах, Qwen3.5 обучалась на смешанных визуальных и текстовых токенах, а также значительно расширила набор данных на китайском, английском и других языках, включая STEM и логические задачи. Это позволило модели «раскрыть глаза» и освоить более глубокие знания о мире и логике, достигая при этом более чем в 10 раз меньшего количества параметров по сравнению с Qwen3-Max, демонстрируя превосходные результаты в выводе, программировании и агентной интеллектуальности. Например, в тесте MMLU-Pro по логике знаний Qwen3.5 набрала 87,8 баллов, превзойдя GPT-5.2; в сложных задачах уровня доктора наук GPQA — 88,4 балла, выше Claude 4.5; по выполнению команд в IFBench — 76,5 баллов, установив новый рекорд среди всех моделей; а в тестах универсальных агентов BFCL-V4, Browsecomp и других, Qwen3.5 показывает результаты лучше Gemini 3 Pro и GPT-5.2.
Нативное мультимодальное обучение также привело к значительному скачку в визуальных возможностях Qwen3.5: в таких авторитетных тестах, как мультимодальное логическое мышление MathVison, универсальный визуальный вопрос-ответ VQA (RealWorldQA), распознавание текста и понимание документов (CC_OCR), пространственный интеллект (RefCOCO-avg), видеоанализ (MLVU), модель показывает лучшие показатели. В задачах решения предметных задач, планирования и физического пространственного логического мышления Qwen3.5 превосходит специализированную модель Qwen3-VL, значительно улучшая способности пространственной локализации и визуального вывода, делая анализ более точным и детализированным. В области видеоанализа Qwen3.5 поддерживает обработку видео длительностью до двух часов (с контекстом до 1 миллиона токенов), что подходит для анализа длинных видеоматериалов и генерации их кратких описаний. Также реализовано нативное объединение визуального понимания и программирования: с помощью инструментов поиска изображений и генерации изображений можно преобразовать рукописные эскизы интерфейсов в рабочий фронтенд-код, а один скриншот позволяет определить и исправить UI-проблемы, делая визуальное программирование мощным инструментом производства.
Нативное мультимодальное обучение Qwen3.5 было реализовано на базе инфраструктуры Alibaba Cloud AI. Благодаря серии технологических инноваций, производительность обучения моделей на смешанных данных (текст, изображение, видео) достигла почти 100 % по сравнению с обучением чисто текстовых моделей, что значительно снизило порог входа для мультимодального обучения. Использование стратегий точности FP8 и FP32 позволило при масштабировании до сотен триллионов токенов снизить использование памяти примерно на 50 %, а скорость обучения повысить на 10 %, что дополнительно снизило затраты и повысило эффективность тренировки модели.
Qwen3.5 также достигла новых высот в области агентных систем. Модель способна самостоятельно управлять смартфонами и компьютерами, эффективно выполнять повседневные задачи, поддерживая на мобильных устройствах больше популярных приложений и команд, а на ПК — выполнять сложные многошаговые операции, такие как межприложенное управление данными и автоматизация процессов, что значительно повышает операционную эффективность. Команда Qwen разработала расширяемую асинхронную систему обучения агентов, которая позволяет ускорить работу в 3–5 раз и расширить поддержку плагинов и интеллектуальных агентов до миллиона единиц.
Сообщается, что приложения Qwen и ПК-версия уже первыми интегрировали модель Qwen3.5-Plus. Разработчики могут скачать новую модель через сообщество Модак и HuggingFace или получить API через Alibaba Cloud Balian. В ближайшее время Alibaba продолжит открывать модели серии Qwen3.5 разных размеров и функций. Также скоро будет выпущена более мощная флагманская модель Qwen3.5-Max.