Google hoy lanzó Gemini 3.1 Pro, acabo de ver las puntuaciones de prueba y parece que está apuntando a dominar las listas (la carrera armamentística de modelos continúa, ¡buena noticia para los semiconductores! )😂
La posición oficial es muy clara: diseñada para tareas complejas, como investigación profunda, problemas de ingeniería, razonamiento de cadenas largas y flujos de trabajo agentic. Punto clave: ventana de contexto de 1M de tokens (sin cambios) Soporte multimodal (texto + imagen + video + audio + código) Salida de hasta 64k tokens Comparación de rendimiento con los modelos principales actuales (Claude Opus 4.6, GPT-5.2/5.3, etc.): ARC-AGI-2 (el benchmark de razonamiento abstracto más difícil): Gemini 3.1 Pro 77.1%, liderando a Claude 4.6 (68.8%) por aproximadamente 8-9 puntos porcentuales, liderando a la serie GPT-5 en 20-30+ puntos porcentuales. Este es el mayor avance, representando un salto cualitativo en el razonamiento central. GPQA Diamond (razonamiento científico a nivel PhD): 94.3%, ligeramente por delante de Claude 4.6 (91.3%) y GPT-5.2 (92.4%), con una diferencia de 2-3 puntos porcentuales, el benchmark ya está casi saturado. SWE-Bench Verified (tareas reales de ingeniería de software): 80.6%, liderando a Claude 4.6 (aproximadamente 76-77%) por 3-5 puntos, claramente por delante de GPT (5-15%). Otros: Terminal-Bench, APEX-Agents y otras tareas de agentes a largo plazo también lograron varios primeros lugares; LMArena/Artificial Analysis actualmente ocupa el primer lugar, con alta eficiencia en costos. Lo más importante es que la ventaja en costos es evidente: Precios de API (por 1M de tokens, basados en los datos más recientes de Vertex AI / Gemini API, precio estándar para contextos ≤200k): Gemini 3.1 Pro: entrada $2.00, salida $12.00 (más de 200k de contexto se duplica a $4/$18) Claude Opus 4.6: entrada $5.00, salida $25.00 GPT-5.2 / 5.x: generalmente $10–15+ de entrada, $30–75+ de salida (los niveles superiores son aún más altos, dependiendo de la versión) Ventaja: entrada: Gemini es aproximadamente un 60% más barato que Claude (2 vs 5), y más del 70-80% más barato que la serie GPT. Salida: Gemini es aproximadamente un 52% más barato que Claude (12 vs 25), y más del 60-80% más barato que GPT.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Google hoy lanzó Gemini 3.1 Pro, acabo de ver las puntuaciones de prueba y parece que está apuntando a dominar las listas (la carrera armamentística de modelos continúa, ¡buena noticia para los semiconductores! )😂
La posición oficial es muy clara: diseñada para tareas complejas, como investigación profunda, problemas de ingeniería, razonamiento de cadenas largas y flujos de trabajo agentic.
Punto clave: ventana de contexto de 1M de tokens (sin cambios)
Soporte multimodal (texto + imagen + video + audio + código)
Salida de hasta 64k tokens
Comparación de rendimiento con los modelos principales actuales (Claude Opus 4.6, GPT-5.2/5.3, etc.):
ARC-AGI-2 (el benchmark de razonamiento abstracto más difícil):
Gemini 3.1 Pro 77.1%, liderando a Claude 4.6 (68.8%) por aproximadamente 8-9 puntos porcentuales,
liderando a la serie GPT-5 en 20-30+ puntos porcentuales. Este es el mayor avance, representando un salto cualitativo en el razonamiento central.
GPQA Diamond (razonamiento científico a nivel PhD): 94.3%, ligeramente por delante de Claude 4.6 (91.3%) y GPT-5.2 (92.4%), con una diferencia de 2-3 puntos porcentuales, el benchmark ya está casi saturado.
SWE-Bench Verified (tareas reales de ingeniería de software): 80.6%, liderando a Claude 4.6 (aproximadamente 76-77%) por 3-5 puntos, claramente por delante de GPT (5-15%).
Otros: Terminal-Bench, APEX-Agents y otras tareas de agentes a largo plazo también lograron varios primeros lugares; LMArena/Artificial Analysis actualmente ocupa el primer lugar, con alta eficiencia en costos.
Lo más importante es que la ventaja en costos es evidente:
Precios de API (por 1M de tokens, basados en los datos más recientes de Vertex AI / Gemini API, precio estándar para contextos ≤200k):
Gemini 3.1 Pro: entrada $2.00, salida $12.00 (más de 200k de contexto se duplica a $4/$18)
Claude Opus 4.6: entrada $5.00, salida $25.00
GPT-5.2 / 5.x: generalmente $10–15+ de entrada, $30–75+ de salida (los niveles superiores son aún más altos, dependiendo de la versión)
Ventaja: entrada: Gemini es aproximadamente un 60% más barato que Claude (2 vs 5), y más del 70-80% más barato que la serie GPT.
Salida: Gemini es aproximadamente un 52% más barato que Claude (12 vs 25), y más del 60-80% más barato que GPT.