2026-02-19 16:41:14

O Google lançou hoje o Gemini 3.1 Pro, acabei de ver as avaliações de teste e parece que está direcionado a dominar as tabelas (a corrida de modelos continua, boas notícias para os semicondutores!)😂

A posição oficial é bastante clara: projetado para tarefas complexas, como pesquisa aprofundada, problemas de engenharia, raciocínio de cadeia longa e fluxos de trabalho agentic.
Destaques principais: janela de contexto de 1M de tokens (permanece igual)
Suporte multimodal (texto + imagem + vídeo + áudio + código)
Saída até 64k tokens
Comparação de desempenho com os modelos atuais de ponta (Claude Opus 4.6, GPT-5.2/5.3 etc):
ARC-AGI-2 (o benchmark de raciocínio abstrato mais difícil):
Gemini 3.1 Pro 77,1%, liderando Claude 4.6 (68,8%) por cerca de 8-9 pontos percentuais,
liderando a série GPT-5 por 20-30+ pontos percentuais. Este é o maior avanço, representando um salto qualitativo no raciocínio central.
GPQA Diamond (raciocínio científico de nível PhD): 94,3%, ligeiramente à frente de Claude 4.6 (91,3%) e GPT-5.2 (92,4%), com uma diferença de 2-3 pontos percentuais, o benchmark já está quase saturado.
SWE-Bench Verified (tarefas reais de engenharia de software): 80,6%, liderando Claude 4.6 (cerca de 76-77%) por 3-5 pontos, com vantagem clara sobre GPT (5-15%).
Outros: Terminal-Bench, APEX-Agents e outras tarefas de agente de longo prazo também conquistaram várias primeiras posições; o índice LMArena/Artificial Analysis atualmente ocupa o primeiro lugar, com alta eficiência de custo.
Mais importante ainda, a vantagem de custo é evidente:
Preços da API (por 1M de tokens, com base nos dados mais recentes do Vertex AI / Gemini API, padrão de até 200k de contexto):
Gemini 3.1 Pro: entrada $2,00, saída $12,00 (>200k de contexto dobrando para $4/$18)
Claude Opus 4.6: entrada $5,00, saída $25,00
GPT-5.2 / 5.x: geralmente $10–15+, saída $30–75+ (modelos de nível superior mais caros, dependendo da versão)
Vantagem: entrada: Gemini é cerca de 60% mais barato que Claude (2 vs 5), e mais de 70-80% mais barato que a série GPT.
Saída: Gemini é cerca de 52% mais barato que Claude (12 vs 25), e mais de 60-80% mais barato que GPT.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos