Alibaba lance la nouvelle génération de modèle de base Qianwen 3.5, en tête des modèles open source les plus puissants au monde

Le 16 février, lors du réveillon du Nouvel An chinois, Alibaba a open source la toute nouvelle génération de grand modèle Qwen3.5-Plus, dont les performances rivalisent avec Gemini 3 Pro, et qui domine les modèles open source les plus puissants au monde.

Selon les informations, Qwen3.5 a réalisé une refonte complète de l’architecture sous-jacente du modèle. La version Qwen3.5-Plus publiée comporte un total de 397 milliards de paramètres, avec seulement 17 milliards d’activation, surpassant de peu les grands modèles avec plus d’un trillion de paramètres, comme Qwen3-Max. La consommation de mémoire GPU lors du déploiement a été réduite de 60 %, la vitesse d’inférence a été considérablement améliorée, avec un débit maximal pouvant atteindre 19 fois supérieur. Le prix de l’API pour Qwen3.5-Plus est aussi bas que 0,8 yuan par million de tokens, soit seulement 1/18 de celui de Gemini 3 Pro.

Contrairement aux générations précédentes de grands modèles linguistiques Qwen, Qwen3.5 a réalisé une transition générationnelle, passant d’un modèle purement textuel à un modèle multimodal natif. Qwen3 pré-entraîné sur des tokens purement textuels, tandis que Qwen3.5 est pré-entraîné sur des tokens combinant vision et texte, avec une augmentation significative des données en chinois, multilingues, STEM et de raisonnement, permettant à ce grand modèle « ouvrant les yeux » d’apprendre des connaissances mondiales plus denses et des logiques de raisonnement. Avec moins de 40 % des paramètres, il atteint des performances de pointe équivalentes à celles du modèle de base Qwen3-Max, avec plus d’un trillion de paramètres, dans des évaluations complètes telles que le raisonnement, la programmation et les agents intelligents. Par exemple, Qwen3.5 a obtenu un score de 87,8 dans l’évaluation MMLU-Pro de raisonnement de connaissances, surpassant GPT-5.2 ; 88,4 dans l’évaluation GPQA de problèmes de niveau doctorat, supérieur à Claude 4.5 ; 76,5 dans le benchmark d’obéissance aux instructions IFBench, établissant un nouveau record pour tous les modèles ; et dans les évaluations d’agents généraux BFCL-V4, d’agents de recherche Browsecomp, etc., Qwen3.5 a surpassé Gemini 3 Pro et GPT-5.2.

L’entraînement multimodal natif a également permis une avancée spectaculaire dans les capacités visuelles de Qwen3.5 : dans de nombreux benchmarks d’évaluation tels que le raisonnement multimodal (MathVison), la question-réponse visuelle universelle (RealWorldQA), la reconnaissance de texte et la compréhension de documents (CC_OCR), l’intelligence spatiale (RefCOCO-avg), la compréhension vidéo (MLVU), Qwen3.5 a obtenu les meilleures performances. Sur des tâches comme la résolution de problèmes, la planification de tâches et le raisonnement dans l’espace physique, Qwen3.5 dépasse le modèle spécialisé Qwen3-VL, avec une capacité de localisation spatiale et de raisonnement avec images renforcée, une analyse de raisonnement plus fine et précise. En compréhension vidéo, Qwen3.5 supporte l’entrée directe de vidéos jusqu’à 2 heures (contexte de 1 million de tokens), adaptée à l’analyse de longues vidéos et à la génération de résumés. Par ailleurs, Qwen3.5 intègre de manière native la compréhension visuelle et la capacité de codage, combinant recherche d’images et outils de génération d’images, permettant de transformer directement des esquisses dessinées à la main en code front-end utilisable, et de localiser et corriger des problèmes UI à partir d’une seule capture d’écran, rendant la programmation visuelle réellement productive.

L’entraînement multimodal natif de Qwen3.5 a été réalisé efficacement sur l’infrastructure AI d’Alibaba Cloud. Grâce à une série d’innovations technologiques fondamentales, la capacité de traitement des données mixtes texte, image, vidéo de Qwen3.5 est presque équivalente à celle des modèles de base purement textuels, réduisant considérablement la barrière à l’entraînement multimodal natif. En outre, grâce à une stratégie d’application précise des précisions FP8 et FP32, lors de l’extension de l’entraînement à des centaines de trillions de tokens, la mémoire active a été réduite d’environ 50 %, tout en accélérant l’entraînement de 10 %, ce qui permet de réduire encore les coûts et d’améliorer l’efficacité de l’entraînement.

Qwen3.5 a également réalisé une avancée dans le domaine des agents intelligents, passant d’un cadre d’agent à des applications concrètes. Qwen3.5 peut opérer de manière autonome sur smartphones et ordinateurs, accomplissant efficacement des tâches quotidiennes. Sur mobile, il supporte plus d’applications et commandes principales ; sur PC, il peut gérer des opérations plus complexes en plusieurs étapes, telles que la gestion de données inter-application et l’automatisation de processus, améliorant considérablement l’efficacité opérationnelle. Par ailleurs, l’équipe Qwen a développé un cadre d’apprentissage par renforcement asynchrone pour agents extensibles, permettant une accélération de 3 à 5 fois de bout en bout, et supportant l’extension des agents intelligents modulaires à des millions d’unités.

Selon les informations, l’application Qwen et la version PC ont déjà intégré le modèle Qwen3.5-Plus. Les développeurs peuvent télécharger le nouveau modèle sur la communauté Moka et HuggingFace, ou accéder directement au service API via Alibaba Cloud Balian. Alibaba continuera rapidement à open source différents modèles de la série Qwen3.5 de différentes tailles et fonctionnalités. Le modèle phare Qwen3.5-Max, plus puissant, sera également publié prochainement.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)