Série Xiaomi MiMo-V2.5 de código aberto: 1T de parâmetros sob licença MIT, eficiência de token superior ao GPT-5.4 no ClawEval

robot
Geração do resumo em andamento

De acordo com o monitoramento da Dongcha Beating, a equipe Xiaomi MiMo open-soubeou a série de grandes modelos MiMo-V2.5, que inclui dois modelos, ambos sob licença MIT, suportando implantação comercial, treinamento contínuo e ajuste fino, com uma janela de contexto de até 1 milhão de tokens. O MiMo-V2.5-Pro é um modelo de MoE de texto puro (arquitetura de Mistura de Especialistas) com um total de 1,02 trilhão de parâmetros e 42 bilhões de parâmetros ativos; o MiMo-V2.5 é um modelo multimodal nativo com um total de 310 bilhões de parâmetros e 15 bilhões de parâmetros ativos, suportando compreensão de texto, imagem, vídeo e áudio. O MiMo-V2.5-Pro é voltado principalmente para tarefas complexas de agentes e programação. Na avaliação ClawEval, o V2.5-Pro alcançou uma taxa de aprovação de 64%, atingindo níveis comparáveis enquanto consumia apenas cerca de 70.000 tokens por trajetória de tarefa, o que é aproximadamente 40% a 60% a menos do que Claude Opus 4.6, Gemini 3.1 Pro e GPT-5.4. A pontuação verificada do SWE-bench é 78,9. Em um caso apresentado no blog oficial, o V2.5-Pro implementou autonomamente um compilador completo de SysY para RISC-V para um projeto de princípios de compiladores na Universidade de Pequim, levando 4,3 horas e 672 chamadas de ferramentas, atingindo uma pontuação perfeita de 233/233 em um conjunto de testes ocultos. O MiMo-V2.5 foi projetado para cenários de agentes multimodais, equipado com um codificador visual dedicado (ViT de 729 milhões de parâmetros) e um codificador de áudio (261 milhões de parâmetros), obtendo uma pontuação de 62,3 na subcategoria geral do Claw-Eval. Ambos os modelos utilizam uma arquitetura mista de atenção de janela deslizante (SWA) e atenção global (GA), juntamente com um módulo de previsão de múltiplos tokens (MTP) de 3 camadas (prevendo múltiplos tokens de uma vez para acelerar a inferência). Os pesos foram lançados no Hugging Face. Junto com o lançamento open-source, a equipe MiMo lançou o ‘Programa de Incentivo ao Criador de Trilhão de Tokens Orbit’, oferecendo um total de 100 trilhões de tokens de cota gratuita para usuários globais em 30 dias. Desenvolvedores individuais, equipes e empresas podem se inscrever na página do evento, com um período de avaliação de cerca de 3 dias úteis. Após aprovação, os benefícios serão creditados na forma de Plano de Tokens ou subsídios, que podem ser usados diretamente com ferramentas de programação como Claude Code e Cursor.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar