DeepSeek V4 Está Aqui—A Sua Versão Profissional Custa 98% Menos Do Que GPT 5.5 Pro

###Resumido

  • A DeepSeek lançou o seu novo modelo V4-Pro com 1,6 triliões de parâmetros.
  • Custa $1,74/$3,48 por milhão de tokens de entrada/saída, aproximadamente 1/20 do preço do Claude Opus 4.7 e 98% mais barato que o GPT 5.5 Pro.
  • A DeepSeek treinou o V4 parcialmente com chips Huawei Ascend, contornando as restrições de exportação dos EUA, e afirma que, assim que 950 novos supernós entrarem em funcionamento no final de 2026, o preço já baixo do modelo Pro cairá ainda mais.

A DeepSeek voltou, e apareceu poucas horas depois de a OpenAI lançar o GPT-5.5. Coincidência? Talvez. Mas se você é um laboratório de IA chinês que o governo dos EUA tem tentado desacelerar com proibições de exportação de chips nos últimos três anos, seu senso de timing fica bastante aguçado. O laboratório de Hangzhou lançou hoje versões de pré-visualização do DeepSeek-V4-Pro e DeepSeek-V4-Flash, ambos com peso aberto, ambos com janelas de contexto de um milhão de tokens. Isso significa que você pode trabalhar com um contexto aproximadamente do tamanho da trilogia O Senhor dos Anéis antes que o modelo colapse. Ambos também têm preços bem abaixo de qualquer coisa comparável no Ocidente, e ambos são gratuitos para quem puder rodar localmente. A última grande disrupção da DeepSeek—R1 em janeiro de 2025—apagou $600 bilhões do valor de mercado da Nvidia em um único dia, enquanto investidores questionavam se empresas americanas realmente precisavam de investimentos tão grandes para produzir resultados que um pequeno laboratório chinês conseguiu com uma fração do custo. O V4 é um movimento diferente: mais discreto, mais técnico e mais focado na eficiência para quem realmente constrói com IA.

Dois modelos, trabalhos muito diferentes  Dos dois novos modelos, o DeepSeek V4-Pro é o maior, com 1,6 triliões de parâmetros no total. Para colocar em perspectiva, parâmetros são as “configurações” internas ou “células cerebrais” que um modelo usa para armazenar conhecimento e reconhecer padrões—quanto mais parâmetros, mais informações complexas ele pode teoricamente reter. Isso faz dele o maior modelo de código aberto no mercado de LLM até hoje. O tamanho pode parecer ridículo até você aprender que ele ativa apenas 49 bilhões deles por passagem de inferência.
Essa é a técnica de Mistura de Especialistas que a DeepSeek aperfeiçoou desde o V3: o modelo completo fica lá, mas apenas a fatia relevante dele desperta para qualquer solicitação. Mais conhecimento, mesma conta de computação. “DeepSeek-V4-Pro-Max, o modo de maior esforço de raciocínio do DeepSeek-V4-Pro, avança significativamente as capacidades de conhecimento dos modelos de código aberto, firmemente estabelecendo-se como o melhor modelo de código aberto disponível hoje,” escreveu a DeepSeek na ficha oficial do modelo no Huggingface. “Ele alcança desempenho de ponta em benchmarks de codificação e reduz significativamente a lacuna com os principais modelos de código fechado em tarefas de raciocínio e agentes.” V4-Flash é o mais prático: 284 bilhões de parâmetros no total, 13 bilhões ativos. Foi projetado para ser mais rápido, mais barato e, de acordo com os próprios benchmarks da DeepSeek, “alcança desempenho de raciocínio comparável à versão Pro quando dado um orçamento maior de reflexão.”

Ambos suportam um milhão de tokens de contexto. Isso equivale a aproximadamente 750.000 palavras—quase toda a trilogia “O Senhor dos Anéis” mais um pouco. E isso como recurso padrão, não como uma opção premium. O segredo da DeepSeek: fazer a atenção não ser terrível em escala Aqui está a parte técnica para nerds ou interessados na magia que alimenta o modelo. A DeepSeek não esconde seus segredos, e tudo está disponível de graça—o artigo completo está no Github. A atenção padrão de IA—o mecanismo que permite a um modelo entender relações entre palavras—tem um problema brutal de escalabilidade. Sempre que você dobra o comprimento do contexto, o custo de computação quase quadruplica. Então, rodar um modelo com um milhão de tokens não é apenas duas vezes mais caro que com 500.000 tokens. É quatro vezes mais caro. É por isso que contextos longos historicamente foram uma opção que os laboratórios adicionavam e depois silenciavam por limites de taxa. A DeepSeek inventou dois novos tipos de atenção para contornar isso. O primeiro, Atenção Esparsa Comprimida, funciona em duas etapas. Primeiro, comprime grupos de tokens—digamos, a cada 4 tokens—em uma única entrada. Depois, ao invés de atender a todas essas entradas comprimidas, usa um “Indexador Relâmpago” para selecionar apenas os resultados mais relevantes para qualquer consulta. Seu modelo passa de atender a um milhão de tokens para atender a um conjunto muito menor de pedaços importantes, como um bibliotecário que não lê todos os livros, mas sabe exatamente qual prateleira verificar. O segundo, Atenção Altamente Comprimida, é mais agressivo. Ele colapsa cada 128 tokens em uma única entrada—sem seleção esparsa, apenas compressão brutal. Você perde detalhes finos, mas ganha uma visão global extremamente barata. Os dois tipos de atenção rodam em camadas alternadas, assim o modelo obtém tanto o detalhe quanto a visão geral.

O resultado, do artigo técnico: Com um milhão de tokens, o V4-Pro usa 27% da computação que seu predecessor (V3.2) precisava. O cache KV—a memória que o modelo precisa para acompanhar o contexto—cai para apenas 10% do V3.2. O V4-Flash leva isso ainda mais longe: 10% de computação, 7% de memória. E isso permitiu que a DeepSeek oferecesse um preço por token muito mais barato que seus concorrentes, enquanto fornece resultados comparáveis. Em termos de dólares: o GPT-5.5 lançado ontem com custos de (entrada e )saída por milhão de tokens, com o GPT-5.5 Pro custando $5 por milhão de tokens de entrada e $30 por milhão de tokens de saída.

DeepSeek V4-Pro custa $1,74 por entrada e $3,48 por saída. V4-Flash custa $0,14 por entrada e $0,28 por saída. O CEO da Cline, Saoud Rizwan, apontou que se a Uber tivesse usado a DeepSeek em vez do Claude, seu orçamento de IA para 2026—relatado como suficiente para quatro meses de uso—teria durado sete anos.

deepseek v4 agora é o modelo sota mais barato disponível, a 1/20 do custo do opus 4.7.

para perspectiva, se a Uber usasse deepseek em vez de claude, seu orçamento de IA para 2026 duraria 7 anos em vez de apenas 4 meses. pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan $30 @sdrzn$180 24 de abril de 2026

Os benchmarks A DeepSeek faz algo incomum em seu relatório técnico: publica as lacunas. A maioria das versões de modelos escolhe os benchmarks onde vencem. A DeepSeek fez uma comparação completa contra GPT-5.4 e Gemini-3.1-Pro, descobriu que o raciocínio do V4-Pro fica atrás desses modelos em cerca de três a seis meses, e mesmo assim publicou os resultados. Onde o V4-Pro-Max realmente vence: Codeforces, benchmark de programação competitiva, avaliado como xadrez humano. O V4-Pro marcou 3.206, ficando em torno do 23º lugar entre participantes humanos de concursos. No Apex Shortlist, um conjunto selecionado de problemas difíceis de matemática e STEM, obteve uma taxa de aprovação e atingiu 90,2% contra 85,9% do Opus 4.6 e 78,1% do GPT-5.4. No SWE-Verified, que mede se um modelo consegue resolver problemas reais do GitHub retirados de repositórios de código aberto, obteve 80,6%—igualando o Claude Opus 4.6.

Onde fica atrás: benchmark de multitarefa MMLU-Pro (Gemini-3.1-Pro com 91,0% contra 87,5%), benchmark de conhecimento especializado GPQA Diamond (Gemini com 94,3 contra 90,1), e o Exame Final da Humanidade, um benchmark de nível de pós-graduação onde o Gemini-3.1-Pro com 44,4% ainda supera o V4-Pro com 37,7%. No contexto longo especificamente, o V4-Pro lidera modelos de código aberto e supera o Gemini-3.1-Pro no benchmark CorpusQA (um teste que simula análise de documentos reais com um milhão de tokens), mas perde para o Claude Opus 4.6 no MRCR—um teste que mede quão bem um modelo consegue recuperar agulhas específicas enterradas fundo em um feno muito longo. Construído para rodar agentes, não apenas responder perguntas A parte de agentes é onde este lançamento fica interessante para desenvolvedores que realmente entregam produtos.

O V4-Pro pode rodar no Claude Code, OpenCode e outras ferramentas de codificação de IA. Segundo uma pesquisa interna da DeepSeek com 85 desenvolvedores que usaram o V4-Pro como seu agente principal de codificação, 52% disseram que estava pronto para ser seu modelo padrão, 39% inclinaram-se para sim, e menos de 9% disseram que não. Funcionários internos disseram que ele supera o Claude Sonnet e chega perto do Claude Opus 4.5 em tarefas de codificação com agentes.

A Análise Artificial, que realiza avaliações independentes de modelos de IA em tarefas do mundo real, classificou o V4-Pro como o primeiro entre todos os modelos de peso aberto no GDPval-AA—um benchmark que testa trabalhos de conhecimento economicamente valiosos em finanças, legal e pesquisa, avaliado via Elo. O V4-Pro-Max marcou 1.554 Elo, à frente do GLM-5.1 (1.535) e do MiniMax M2.7 (1.514). Para referência, o Claude Opus 4.6 pontua 1.619 nesse mesmo benchmark—ainda na frente, mas a diferença está diminuindo.

DeepSeek V4 Pro é o modelo de peso aberto número 1 no GDPval-AA, nossa avaliação de tarefas de trabalho do mundo real com agentes@deepseek_ai lançou o V4 Pro (1,6T total / 49B ativos) e o V4 Flash (284B total / 13B ativos). O V4 é o primeiro novo tamanho da DeepSeek desde o V3, com todos os modelos intermediários… pic.twitter.com/2kJWVrKQjF

— Análise Artificial (@ArtificialAnlys) 24 de abril de 2026

O V4 da DeepSeek também introduz algo chamado “pensamento intercalado”. Em modelos anteriores, se você rodava um agente que fazia múltiplas chamadas de ferramenta—digamos, buscava na web, depois rodava um código, depois buscava novamente—o contexto de raciocínio do modelo era apagado entre as rodadas. Cada novo passo, o modelo tinha que reconstruir seu modelo mental do zero. O V4 mantém toda a cadeia de pensamento ao longo das chamadas às ferramentas, então um fluxo de trabalho de 20 passos de um agente não sofre de amnésia no meio do caminho. Isso importa mais do que parece para quem roda pipelines automatizados complexos. DeepSeek e a guerra de IA entre EUA e China Os EUA vêm restringindo exportações de chips Nvidia de alta ponta para a China desde 2022. O objetivo declarado era desacelerar o desenvolvimento de IA chinês, mas a proibição de chips não parou a DeepSeek e, ao contrário, os levou a inventar uma arquitetura mais eficiente e a expandir o fornecimento doméstico de hardware. A DeepSeek não lançou o V4 no vácuo—o espaço de IA tem estado bastante ativo recentemente: a Anthropic lançou o Claude Opus 4.7 em 16 de abril—um modelo Decrypt testado e considerado forte em codificação e raciocínio, com uso de tokens notavelmente alto. No dia anterior, a Anthropic também tinha o Claude Mythos, um modelo de cibersegurança que diz não poder lançar publicamente porque é muito bom em ataques autônomos à rede. A Xiaomi lançou o MiMo V2.5 Pro em 22 de abril, tornando-se multimodal completo—imagem, áudio, vídeo. Custos de (entrada e )saída por milhão de tokens. Ele iguala o Opus 4.6 na maioria dos benchmarks de codificação. Há três meses, ninguém falava da Xiaomi como uma empresa de IA de fronteira. Agora ela lança modelos competitivos mais rápido que a maioria dos laboratórios ocidentais.

O GPT-5.5 da OpenAI foi lançado ontem, com custos subindo até $1 por milhão de tokens de saída na versão Pro. Ele supera o V4-Pro no Terminal Bench 2.0 $3 82,7% contra 70,0%$180 , que testa fluxos de trabalho complexos de agentes de linha de comando. Mas custa consideravelmente mais que o V4-Pro para tarefas equivalentes. No mesmo dia, a Tencent lançou o Hy3, outro modelo de ponta focado em eficiência. O que isso significa para você Então, com tantos modelos novos disponíveis, a pergunta que os desenvolvedores realmente fazem: Quando o premium vale a pena? Para empresas, a matemática pode ter mudado. Um modelo que lidera benchmarks de código aberto a $1,74 por milhão de tokens de entrada significa pipelines de processamento de documentos, revisão legal ou geração de código em grande escala, que eram caros há seis meses, agora estão muito mais acessíveis. O contexto de um milhão de tokens permite alimentar bases de código inteiras ou documentos regulatórios em uma única solicitação, ao invés de dividi-los em várias chamadas. Além disso, sua natureza de código aberto significa que pode não só ser executado gratuitamente em hardware local, mas também ser personalizado e aprimorado de acordo com as necessidades e casos de uso da empresa. Para desenvolvedores e construtores independentes, o V4-Flash é o que deve ser observado. Com $0,14 de entrada e $0,28 de saída, é mais barato que modelos considerados opções econômicas há um ano—e consegue lidar com a maioria das tarefas que a versão Pro realiza. Os endpoints deepseek-chat e deepseek-reasoner já roteiam para o V4-Flash em modos de não reflexão e reflexão, respectivamente, então se você usa a API, já está usando ele. Os modelos são apenas de texto por enquanto. A DeepSeek disse que está trabalhando em capacidades multimodais, o que significa que outros laboratórios grandes, de Xiaomi a OpenAI, ainda têm essa vantagem. Ambos os modelos têm licença MIT e estão disponíveis hoje no Hugging Face. Os endpoints antigos deepseek-chat e deepseek-reasoner serão desativados em 24 de julho de 2026.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar