Alibaba lance la nouvelle génération de modèle de base Qianwen 3.5, en tête des modèles open source les plus puissants au monde

Le 16 février, jour de la veille du Nouvel An chinois, Alibaba a open source la toute nouvelle génération de grand modèle Qwen3.5-Plus, dont les performances rivalisent avec Gemini 3 Pro, et qui domine les modèles open source les plus puissants au monde.

Selon les informations, Qwen3.5 a réalisé une refonte complète de l’architecture sous-jacente du modèle. La version Qwen3.5-Plus publiée comporte un total de 397 milliards de paramètres, avec seulement 17 milliards d’activation, surpassant en performance le modèle Qwen3-Max de plus un billion de paramètres, tout en réduisant de 60 % la consommation de mémoire GPU lors du déploiement, et en améliorant considérablement l’efficacité de l’inférence, avec un débit maximal pouvant atteindre 19 fois supérieur. Le prix de l’API de Qwen3.5-Plus est aussi bas que 0,8 yuan pour un million de tokens, soit seulement 1/18 de celui de Gemini 3 Pro.

Contrairement aux générations précédentes de grands modèles linguistiques Qwen, Qwen3.5 a réalisé une transition générationnelle, passant d’un modèle purement textuel à un modèle multimodal natif. Qwen3 pré-entraînait sur des tokens purement textuels, tandis que Qwen3.5 est pré-entraîné sur des tokens combinant visuel et texte, avec une augmentation significative des données en chinois, multilingues, STEM et en raisonnement, permettant à ce grand modèle doté de « yeux » d’apprendre des connaissances mondiales plus denses et des logiques de raisonnement. Avec moins de 40 % des paramètres, il atteint des performances de pointe équivalentes à celles du modèle Qwen3-Max de plus un billion de paramètres, dans des évaluations complètes de raisonnement, programmation, agents intelligents, etc. Par exemple, Qwen3.5 a obtenu un score de 87,8 dans l’évaluation MMLU-Pro de raisonnement de connaissances, surpassant GPT-5.2 ; 88,4 dans l’évaluation GPQA de problèmes de niveau doctorat, supérieur à Claude 4.5 ; 76,5 dans le benchmark d’obéissance aux instructions IFBench, établissant un nouveau record pour tous les modèles ; et dans les évaluations d’agents généraux BFCL-V4, d’agents de recherche Browsecomp, etc., Qwen3.5 dépasse Gemini 3 Pro et GPT-5.2.

L’entraînement multimodal natif a également permis une avancée spectaculaire dans les capacités visuelles de Qwen3.5 : dans de nombreux benchmarks d’évaluation autorisés tels que le raisonnement multimodal (MathVison), la question-réponse visuelle universelle (RealWorldQA), la reconnaissance de texte et la compréhension de documents (CC_OCR), l’intelligence spatiale (RefCOCO-avg), la compréhension vidéo (MLVU), Qwen3.5 a obtenu les meilleures performances. Sur des tâches comme la résolution de problèmes académiques, la planification de tâches et le raisonnement dans l’espace physique, Qwen3.5 surpasse le modèle spécialisé Qwen3-VL, avec une capacité de localisation spatiale et de raisonnement visuel considérablement renforcée, avec une analyse de raisonnement plus fine et précise. En compréhension vidéo, Qwen3.5 supporte l’entrée directe de vidéos jusqu’à deux heures (contexte de 1 million de tokens), adaptée à l’analyse de longues vidéos et à la génération de résumés. Par ailleurs, Qwen3.5 intègre de manière native la compréhension visuelle et la capacité de codage, combinant outils de recherche d’images et génération d’images, permettant de transformer directement un croquis d’interface dessinée à la main en code front-end utilisable, une capture d’écran permettant de localiser et de corriger les problèmes UI, rendant la programmation visuelle véritablement un outil de productivité.

L’entraînement multimodal natif de Qwen3.5 a été réalisé efficacement sur l’infrastructure AI d’Alibaba Cloud. Grâce à une série d’innovations technologiques fondamentales, la capacité de formation sur des données mixtes texte, image, vidéo de Qwen3.5 est presque équivalente à celle des modèles de base purement textuels, réduisant considérablement la barrière à l’entraînement multimodal natif. En outre, grâce à une stratégie d’application précise des précisions FP8 et FP32, lors de l’extension de l’entraînement à des centaines de billions de tokens, la mémoire active a été réduite d’environ 50 %, tout en accélérant l’entraînement de 10 %, ce qui permet de réduire encore les coûts et d’améliorer l’efficacité de l’entraînement.

Qwen3.5 a également réalisé une avancée dans le domaine des agents, passant d’un cadre d’agent à des applications d’agent. Qwen3.5 peut opérer de manière autonome sur téléphone et ordinateur, accomplissant efficacement des tâches quotidiennes, supportant plus d’applications principales et commandes sur mobile, et traitant des opérations plus complexes à plusieurs étapes sur PC, telles que la gestion de données inter-application et l’automatisation de processus, améliorant ainsi considérablement l’efficacité opérationnelle. Par ailleurs, l’équipe Qwen a construit un cadre d’apprentissage par renforcement asynchrone pour agents extensibles, permettant une accélération de 3 à 5 fois de bout en bout, et étendant le support d’agents intelligents modulaires à des millions d’échelles.

Selon les informations, l’application Qwen et la version PC ont déjà intégré le modèle Qwen3.5-Plus. Les développeurs peuvent télécharger le nouveau modèle sur la communauté Moka et HuggingFace, ou accéder directement au service API via Alibaba Cloud Balian. Alibaba prévoit également de continuer à open source différentes tailles et fonctionnalités de la série Qwen3.5. Le modèle phare Qwen3.5-Max, plus puissant, sera également publié prochainement.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)