Google a publié aujourd'hui Gemini 3.1 Pro. Je viens de voir les scores de test, et j'ai l'impression que c'est pour dominer le classement (la course aux modèles continue, bonne nouvelle pour les semi-conducteurs !)😂
L'objectif officiel est très clair : conçu pour des tâches complexes, telles que la recherche approfondie, les défis d'ingénierie, le raisonnement sur de longues chaînes et les workflows agentiques. Principaux points forts : fenêtre de contexte de 1 million de tokens (inchangée) Support multimodal (texte + image + vidéo + audio + code) Sortie jusqu'à 64k tokens Performance par rapport aux modèles actuels (Claude Opus 4.6, GPT-5.2/5.3, etc.) : ARC-AGI-2 (le benchmark d'inférence abstraite le plus difficile) : Gemini 3.1 Pro 77,1 %, en avance sur Claude 4.6 (68,8 %) d'environ 8-9 points, en avance sur la série GPT-5 de 20-30+ points. C'est la plus grande avancée, représentant un saut qualitatif dans le raisonnement central. GPQA Diamond (raisonnement scientifique de niveau PhD) : 94,3 %, légèrement en avance sur Claude 4.6 (91,3 %) et GPT-5.2 (92,4 %), avec une différence de 2-3 points, le benchmark étant presque saturé. SWE-Bench Verified (tâches réelles d'ingénierie logicielle) : 80,6 %, en avance sur Claude 4.6 (environ 76-77 %) de 3-5 points, nettement en avance sur GPT (5-15 %). Autres : Terminal-Bench, APEX-Agents, et d'autres tâches agent à long terme ont également obtenu plusieurs premières places ; LMArena/Artificial Analysis est actuellement classé n°1, avec une efficacité en termes de coûts élevée. Plus important encore, l'avantage en coût est évident : Tarification API (par 1M de tokens, basée sur les dernières données de Vertex AI / Gemini API, prix standard pour un contexte ≤200k) : Gemini 3.1 Pro : 2,00 $ d'entrée, 12,00 $ de sortie (>200k contexte, doublement à 4 $/18 $) Claude Opus 4.6 : 5,00 $ d'entrée, 25,00 $ de sortie GPT-5.2 / 5.x : généralement 10–15+ $ d'entrée, 30–75+ $ de sortie (les niveaux supérieurs sont plus chers, selon la version) Avantage : entrée : Gemini est environ 60 % moins cher que Claude (2 vs 5), et plus de 70-80 % moins cher que la série GPT. Sortie : Gemini est environ 52 % moins cher que Claude (12 vs 25), et plus de 60-80 % moins cher que GPT.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Google a publié aujourd'hui Gemini 3.1 Pro. Je viens de voir les scores de test, et j'ai l'impression que c'est pour dominer le classement (la course aux modèles continue, bonne nouvelle pour les semi-conducteurs !)😂
L'objectif officiel est très clair : conçu pour des tâches complexes, telles que la recherche approfondie, les défis d'ingénierie, le raisonnement sur de longues chaînes et les workflows agentiques.
Principaux points forts : fenêtre de contexte de 1 million de tokens (inchangée)
Support multimodal (texte + image + vidéo + audio + code)
Sortie jusqu'à 64k tokens
Performance par rapport aux modèles actuels (Claude Opus 4.6, GPT-5.2/5.3, etc.) :
ARC-AGI-2 (le benchmark d'inférence abstraite le plus difficile) :
Gemini 3.1 Pro 77,1 %, en avance sur Claude 4.6 (68,8 %) d'environ 8-9 points,
en avance sur la série GPT-5 de 20-30+ points. C'est la plus grande avancée, représentant un saut qualitatif dans le raisonnement central.
GPQA Diamond (raisonnement scientifique de niveau PhD) : 94,3 %, légèrement en avance sur Claude 4.6 (91,3 %) et GPT-5.2 (92,4 %), avec une différence de 2-3 points, le benchmark étant presque saturé.
SWE-Bench Verified (tâches réelles d'ingénierie logicielle) : 80,6 %, en avance sur Claude 4.6 (environ 76-77 %) de 3-5 points, nettement en avance sur GPT (5-15 %).
Autres : Terminal-Bench, APEX-Agents, et d'autres tâches agent à long terme ont également obtenu plusieurs premières places ; LMArena/Artificial Analysis est actuellement classé n°1, avec une efficacité en termes de coûts élevée.
Plus important encore, l'avantage en coût est évident :
Tarification API (par 1M de tokens, basée sur les dernières données de Vertex AI / Gemini API, prix standard pour un contexte ≤200k) :
Gemini 3.1 Pro : 2,00 $ d'entrée, 12,00 $ de sortie (>200k contexte, doublement à 4 $/18 $)
Claude Opus 4.6 : 5,00 $ d'entrée, 25,00 $ de sortie
GPT-5.2 / 5.x : généralement 10–15+ $ d'entrée, 30–75+ $ de sortie (les niveaux supérieurs sont plus chers, selon la version)
Avantage : entrée : Gemini est environ 60 % moins cher que Claude (2 vs 5), et plus de 70-80 % moins cher que la série GPT.
Sortie : Gemini est environ 52 % moins cher que Claude (12 vs 25), et plus de 60-80 % moins cher que GPT.