O Google lançou hoje o Gemini 3.1 Pro, acabei de ver as avaliações de teste e parece que está direcionado a dominar as tabelas (a corrida de modelos continua, boas notícias para os semicondutores!)😂
A posição oficial é bastante clara: projetado para tarefas complexas, como pesquisa aprofundada, problemas de engenharia, raciocínio de cadeia longa e fluxos de trabalho agentic. Destaques principais: janela de contexto de 1M de tokens (permanece igual) Suporte multimodal (texto + imagem + vídeo + áudio + código) Saída até 64k tokens Comparação de desempenho com os modelos atuais de ponta (Claude Opus 4.6, GPT-5.2/5.3 etc): ARC-AGI-2 (o benchmark de raciocínio abstrato mais difícil): Gemini 3.1 Pro 77,1%, liderando Claude 4.6 (68,8%) por cerca de 8-9 pontos percentuais, liderando a série GPT-5 por 20-30+ pontos percentuais. Este é o maior avanço, representando um salto qualitativo no raciocínio central. GPQA Diamond (raciocínio científico de nível PhD): 94,3%, ligeiramente à frente de Claude 4.6 (91,3%) e GPT-5.2 (92,4%), com uma diferença de 2-3 pontos percentuais, o benchmark já está quase saturado. SWE-Bench Verified (tarefas reais de engenharia de software): 80,6%, liderando Claude 4.6 (cerca de 76-77%) por 3-5 pontos, com vantagem clara sobre GPT (5-15%). Outros: Terminal-Bench, APEX-Agents e outras tarefas de agente de longo prazo também conquistaram várias primeiras posições; o índice LMArena/Artificial Analysis atualmente ocupa o primeiro lugar, com alta eficiência de custo. Mais importante ainda, a vantagem de custo é evidente: Preços da API (por 1M de tokens, com base nos dados mais recentes do Vertex AI / Gemini API, padrão de até 200k de contexto): Gemini 3.1 Pro: entrada $2,00, saída $12,00 (>200k de contexto dobrando para $4/$18) Claude Opus 4.6: entrada $5,00, saída $25,00 GPT-5.2 / 5.x: geralmente $10–15+, saída $30–75+ (modelos de nível superior mais caros, dependendo da versão) Vantagem: entrada: Gemini é cerca de 60% mais barato que Claude (2 vs 5), e mais de 70-80% mais barato que a série GPT. Saída: Gemini é cerca de 52% mais barato que Claude (12 vs 25), e mais de 60-80% mais barato que GPT.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O Google lançou hoje o Gemini 3.1 Pro, acabei de ver as avaliações de teste e parece que está direcionado a dominar as tabelas (a corrida de modelos continua, boas notícias para os semicondutores!)😂
A posição oficial é bastante clara: projetado para tarefas complexas, como pesquisa aprofundada, problemas de engenharia, raciocínio de cadeia longa e fluxos de trabalho agentic.
Destaques principais: janela de contexto de 1M de tokens (permanece igual)
Suporte multimodal (texto + imagem + vídeo + áudio + código)
Saída até 64k tokens
Comparação de desempenho com os modelos atuais de ponta (Claude Opus 4.6, GPT-5.2/5.3 etc):
ARC-AGI-2 (o benchmark de raciocínio abstrato mais difícil):
Gemini 3.1 Pro 77,1%, liderando Claude 4.6 (68,8%) por cerca de 8-9 pontos percentuais,
liderando a série GPT-5 por 20-30+ pontos percentuais. Este é o maior avanço, representando um salto qualitativo no raciocínio central.
GPQA Diamond (raciocínio científico de nível PhD): 94,3%, ligeiramente à frente de Claude 4.6 (91,3%) e GPT-5.2 (92,4%), com uma diferença de 2-3 pontos percentuais, o benchmark já está quase saturado.
SWE-Bench Verified (tarefas reais de engenharia de software): 80,6%, liderando Claude 4.6 (cerca de 76-77%) por 3-5 pontos, com vantagem clara sobre GPT (5-15%).
Outros: Terminal-Bench, APEX-Agents e outras tarefas de agente de longo prazo também conquistaram várias primeiras posições; o índice LMArena/Artificial Analysis atualmente ocupa o primeiro lugar, com alta eficiência de custo.
Mais importante ainda, a vantagem de custo é evidente:
Preços da API (por 1M de tokens, com base nos dados mais recentes do Vertex AI / Gemini API, padrão de até 200k de contexto):
Gemini 3.1 Pro: entrada $2,00, saída $12,00 (>200k de contexto dobrando para $4/$18)
Claude Opus 4.6: entrada $5,00, saída $25,00
GPT-5.2 / 5.x: geralmente $10–15+, saída $30–75+ (modelos de nível superior mais caros, dependendo da versão)
Vantagem: entrada: Gemini é cerca de 60% mais barato que Claude (2 vs 5), e mais de 70-80% mais barato que a série GPT.
Saída: Gemini é cerca de 52% mais barato que Claude (12 vs 25), e mais de 60-80% mais barato que GPT.