No dia da véspera do Ano Novo Chinês, 16 de fevereiro, a Alibaba lançou open source a nova geração do grande modelo Qwen3.5-Plus, cujo desempenho rivaliza com o Gemini 3 Pro, conquistando o topo do ranking dos modelos open source mais poderosos do mundo.
Sabe-se que o Qwen3.5 realizou uma renovação completa na arquitetura do modelo de base. A versão Qwen3.5-Plus lançada possui um total de 397 bilhões de parâmetros, com apenas 17 bilhões ativados, superando em desempenho modelos com trilhões de parâmetros como o Qwen3-Max, além de reduzir em 60% o uso de memória de implantação, aumentar significativamente a eficiência de inferência e elevar a taxa máxima de throughput de inferência para até 19 vezes. O preço da API do Qwen3.5-Plus chega a apenas 0,8 yuan por milhão de tokens, sendo 1/18 do preço do Gemini 3 Pro.
Diferente das gerações anteriores de grandes modelos de linguagem Qwen, o Qwen3.5 realizou uma transição geracional de um modelo puramente textual para um modelo multimodal nativo. Enquanto o Qwen3 pré-treinou com tokens de texto puro, o Qwen3.5 foi treinado com tokens que combinam visão e texto, além de incluir uma quantidade significativa de dados em chinês, múltiplas línguas, STEM e raciocínio, permitindo que o grande modelo “que abre os olhos” aprenda conhecimentos mais densos do mundo e lógica de raciocínio. Com menos de 40% dos parâmetros do Qwen3-Max, o Qwen3.5 alcança desempenho de ponta, superando modelos de base com trilhões de parâmetros em tarefas de raciocínio, programação e agentes inteligentes, demonstrando excelente desempenho em avaliações de benchmark abrangentes. Por exemplo, o Qwen3.5 obteve 87,8 pontos na avaliação de raciocínio de conhecimento MMLU-Pro, superando o GPT-5.2; conquistou 88,4 pontos na avaliação de problemas complexos de nível de doutorado GPQA, acima do Claude 4.5; atingiu 76,5 pontos na avaliação de seguimento de instruções IFBench, batendo recordes de todos os modelos; além disso, em avaliações de agentes gerais como BFCL-V4 e de busca como Browsecomp, o Qwen3.5 superou o Gemini 3 Pro e o GPT-5.2.
O treinamento multimodal nativo também impulsionou avanços na capacidade visual do Qwen3.5: em diversas avaliações de referência, como raciocínio multimodal (MathVison), perguntas e respostas visuais gerais (RealWorldQA), reconhecimento de texto e compreensão de documentos (CC_OCR), inteligência espacial (RefCOCO-avg) e compreensão de vídeos (MLVU), o Qwen3.5 obteve desempenho de destaque. Em tarefas de resolução de problemas acadêmicos, planejamento de tarefas e raciocínio espacial, o Qwen3.5 superou o modelo especializado Qwen3-VL, com melhorias significativas na capacidade de localização espacial e raciocínio com imagens, além de análises de raciocínio mais detalhadas e precisas. Na compreensão de vídeos, o Qwen3.5 suporta entrada direta de vídeos de até duas horas (com contexto de 1 milhão de tokens), ideal para análise de conteúdo de vídeos longos e geração de resumos. Além disso, o Qwen3.5 integrou de forma nativa compreensão visual e habilidades de codificação, combinando ferramentas de busca de imagens e geração de imagens, permitindo transformar esboços feitos à mão em código front-end utilizável, com uma captura de tela capaz de localizar e corrigir problemas de UI, tornando a programação visual uma ferramenta de produtividade real.
O treinamento multimodal nativo do Qwen3.5 foi realizado de forma eficiente na infraestrutura de IA da Alibaba Cloud. Através de uma série de inovações tecnológicas fundamentais, o throughput de treinamento de dados mistos (texto, imagem, vídeo) do Qwen3.5 quase igualou o de modelos base puramente textuais, reduzindo drasticamente a barreira de entrada para o treinamento multimodal nativo. Além disso, com estratégias de precisão bem planejadas, como FP8 e FP32, ao escalar o treinamento para dezenas de trilhões de tokens, a memória ativa foi reduzida em cerca de 50%, e a velocidade de treinamento aumentou em 10%, economizando custos e melhorando a eficiência do treinamento.
O Qwen3.5 também alcançou avanços na estrutura de agentes e aplicações de agentes. Pode operar de forma autônoma em smartphones e computadores, realizando tarefas diárias com alta eficiência. No mobile, suporta mais aplicativos e comandos principais; no PC, realiza operações mais complexas de múltiplos passos, como organização de dados entre aplicativos e execução de processos automatizados, aumentando significativamente a eficiência operacional. Além disso, a equipe da Alibaba desenvolveu uma estrutura de aprendizado por reforço assíncrono para agentes, que pode acelerar de 3 a 5 vezes o processo de treinamento end-to-end, além de suportar a expansão de agentes inteligentes plug-and-play para milhões de unidades.
Sabe-se que o aplicativo Qwen e a versão para PC já incorporaram imediatamente o modelo Qwen3.5-Plus. Desenvolvedores podem baixar o novo modelo na comunidade Mofa e HuggingFace, ou acessar diretamente o serviço API via Alibaba Cloud Balian. A Alibaba também continuará a open source modelos da série Qwen3.5 de diferentes tamanhos e funcionalidades. Em breve, será lançado o modelo flagship Qwen3.5-Max, com desempenho ainda mais avançado.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Alibaba lança a nova geração de modelos baseados em Prompt, Qianwen 3.5, conquistando o topo do ranking dos maiores modelos de código aberto do mundo
No dia da véspera do Ano Novo Chinês, 16 de fevereiro, a Alibaba lançou open source a nova geração do grande modelo Qwen3.5-Plus, cujo desempenho rivaliza com o Gemini 3 Pro, conquistando o topo do ranking dos modelos open source mais poderosos do mundo.
Sabe-se que o Qwen3.5 realizou uma renovação completa na arquitetura do modelo de base. A versão Qwen3.5-Plus lançada possui um total de 397 bilhões de parâmetros, com apenas 17 bilhões ativados, superando em desempenho modelos com trilhões de parâmetros como o Qwen3-Max, além de reduzir em 60% o uso de memória de implantação, aumentar significativamente a eficiência de inferência e elevar a taxa máxima de throughput de inferência para até 19 vezes. O preço da API do Qwen3.5-Plus chega a apenas 0,8 yuan por milhão de tokens, sendo 1/18 do preço do Gemini 3 Pro.
Diferente das gerações anteriores de grandes modelos de linguagem Qwen, o Qwen3.5 realizou uma transição geracional de um modelo puramente textual para um modelo multimodal nativo. Enquanto o Qwen3 pré-treinou com tokens de texto puro, o Qwen3.5 foi treinado com tokens que combinam visão e texto, além de incluir uma quantidade significativa de dados em chinês, múltiplas línguas, STEM e raciocínio, permitindo que o grande modelo “que abre os olhos” aprenda conhecimentos mais densos do mundo e lógica de raciocínio. Com menos de 40% dos parâmetros do Qwen3-Max, o Qwen3.5 alcança desempenho de ponta, superando modelos de base com trilhões de parâmetros em tarefas de raciocínio, programação e agentes inteligentes, demonstrando excelente desempenho em avaliações de benchmark abrangentes. Por exemplo, o Qwen3.5 obteve 87,8 pontos na avaliação de raciocínio de conhecimento MMLU-Pro, superando o GPT-5.2; conquistou 88,4 pontos na avaliação de problemas complexos de nível de doutorado GPQA, acima do Claude 4.5; atingiu 76,5 pontos na avaliação de seguimento de instruções IFBench, batendo recordes de todos os modelos; além disso, em avaliações de agentes gerais como BFCL-V4 e de busca como Browsecomp, o Qwen3.5 superou o Gemini 3 Pro e o GPT-5.2.
O treinamento multimodal nativo também impulsionou avanços na capacidade visual do Qwen3.5: em diversas avaliações de referência, como raciocínio multimodal (MathVison), perguntas e respostas visuais gerais (RealWorldQA), reconhecimento de texto e compreensão de documentos (CC_OCR), inteligência espacial (RefCOCO-avg) e compreensão de vídeos (MLVU), o Qwen3.5 obteve desempenho de destaque. Em tarefas de resolução de problemas acadêmicos, planejamento de tarefas e raciocínio espacial, o Qwen3.5 superou o modelo especializado Qwen3-VL, com melhorias significativas na capacidade de localização espacial e raciocínio com imagens, além de análises de raciocínio mais detalhadas e precisas. Na compreensão de vídeos, o Qwen3.5 suporta entrada direta de vídeos de até duas horas (com contexto de 1 milhão de tokens), ideal para análise de conteúdo de vídeos longos e geração de resumos. Além disso, o Qwen3.5 integrou de forma nativa compreensão visual e habilidades de codificação, combinando ferramentas de busca de imagens e geração de imagens, permitindo transformar esboços feitos à mão em código front-end utilizável, com uma captura de tela capaz de localizar e corrigir problemas de UI, tornando a programação visual uma ferramenta de produtividade real.
O treinamento multimodal nativo do Qwen3.5 foi realizado de forma eficiente na infraestrutura de IA da Alibaba Cloud. Através de uma série de inovações tecnológicas fundamentais, o throughput de treinamento de dados mistos (texto, imagem, vídeo) do Qwen3.5 quase igualou o de modelos base puramente textuais, reduzindo drasticamente a barreira de entrada para o treinamento multimodal nativo. Além disso, com estratégias de precisão bem planejadas, como FP8 e FP32, ao escalar o treinamento para dezenas de trilhões de tokens, a memória ativa foi reduzida em cerca de 50%, e a velocidade de treinamento aumentou em 10%, economizando custos e melhorando a eficiência do treinamento.
O Qwen3.5 também alcançou avanços na estrutura de agentes e aplicações de agentes. Pode operar de forma autônoma em smartphones e computadores, realizando tarefas diárias com alta eficiência. No mobile, suporta mais aplicativos e comandos principais; no PC, realiza operações mais complexas de múltiplos passos, como organização de dados entre aplicativos e execução de processos automatizados, aumentando significativamente a eficiência operacional. Além disso, a equipe da Alibaba desenvolveu uma estrutura de aprendizado por reforço assíncrono para agentes, que pode acelerar de 3 a 5 vezes o processo de treinamento end-to-end, além de suportar a expansão de agentes inteligentes plug-and-play para milhões de unidades.
Sabe-se que o aplicativo Qwen e a versão para PC já incorporaram imediatamente o modelo Qwen3.5-Plus. Desenvolvedores podem baixar o novo modelo na comunidade Mofa e HuggingFace, ou acessar diretamente o serviço API via Alibaba Cloud Balian. A Alibaba também continuará a open source modelos da série Qwen3.5 de diferentes tamanhos e funcionalidades. Em breve, será lançado o modelo flagship Qwen3.5-Max, com desempenho ainda mais avançado.