Google hari ini merilis Gemini 3.1 Pro, baru saja melihat skor pengujian, rasanya ini ditujukan untuk mendominasi papan peringkat (perburuan perlombaan model berlanjut, mendukung semikonduktor!)😂
Posisi resmi sangat jelas: dirancang khusus untuk tugas kompleks, seperti penelitian mendalam, masalah rekayasa, penalaran rantai panjang, dan alur kerja agentic. Fitur utama: 1M token jendela konteks (tetap sama) Dukungan multimodal (teks+gambar+video+audio+kode) Output hingga 64k tokens Perbandingan performa dengan model utama saat ini (Claude Opus 4.6, GPT-5.2/5.3, dll): ARC-AGI-2 (standar penalaran abstrak paling sulit): Gemini 3.1 Pro 77,1%, unggul sekitar 8-9 poin dari Claude 4.6 (68,8%), unggul 20-30+ poin dari seri GPT-5.2/5.3. Ini adalah kemajuan terbesar, mewakili lonjakan kualitas penalaran inti. GPQA Diamond (penalaran ilmiah tingkat PhD): 94,3%, sedikit unggul dari Claude 4.6 (91,3%) dan GPT-5.2 (92,4%), jarak 2-3 poin, standar sudah mendekati jenuh. SWE-Bench Verified (tugas rekayasa perangkat lunak nyata): 80,6%, unggul dari Claude 4.6 (sekitar 76-77%) 3-5 poin, unggul jelas dari GPT (5-15%). Lainnya: Terminal-Bench, APEX-Agents, dan tugas agent jangka panjang lainnya juga meraih beberapa posisi pertama; indeks LMArena/Artificial Analysis saat ini berada di peringkat 1, efisiensi biaya tinggi. Yang lebih penting lagi, keunggulan biaya sangat jelas: Harga API (per 1M tokens, berdasarkan data terbaru Vertex AI / Gemini API, harga standar untuk konteks ≤200k): Gemini 3.1 Pro: input $2.00, output $12.00 (>200k konteks ganda menjadi $4/$18) Claude Opus 4.6: input $5.00, output $25.00 GPT-5.2 / 5.x: biasanya input $10–15+, output $30–75+ (tier atas lebih tinggi, tergantung versi) Keunggulan: Input: Gemini sekitar 60% lebih murah dari Claude (2 vs 5), lebih dari 70-80% lebih murah dari seri GPT. Output: Gemini sekitar 52% lebih murah dari Claude (12 vs 25), lebih dari 60-80% lebih murah dari GPT.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Google hari ini merilis Gemini 3.1 Pro, baru saja melihat skor pengujian, rasanya ini ditujukan untuk mendominasi papan peringkat (perburuan perlombaan model berlanjut, mendukung semikonduktor!)😂
Posisi resmi sangat jelas: dirancang khusus untuk tugas kompleks, seperti penelitian mendalam, masalah rekayasa, penalaran rantai panjang, dan alur kerja agentic.
Fitur utama: 1M token jendela konteks (tetap sama)
Dukungan multimodal (teks+gambar+video+audio+kode)
Output hingga 64k tokens
Perbandingan performa dengan model utama saat ini (Claude Opus 4.6, GPT-5.2/5.3, dll):
ARC-AGI-2 (standar penalaran abstrak paling sulit):
Gemini 3.1 Pro 77,1%, unggul sekitar 8-9 poin dari Claude 4.6 (68,8%),
unggul 20-30+ poin dari seri GPT-5.2/5.3. Ini adalah kemajuan terbesar, mewakili lonjakan kualitas penalaran inti.
GPQA Diamond (penalaran ilmiah tingkat PhD): 94,3%, sedikit unggul dari Claude 4.6 (91,3%) dan GPT-5.2 (92,4%), jarak 2-3 poin, standar sudah mendekati jenuh.
SWE-Bench Verified (tugas rekayasa perangkat lunak nyata): 80,6%, unggul dari Claude 4.6 (sekitar 76-77%) 3-5 poin, unggul jelas dari GPT (5-15%).
Lainnya: Terminal-Bench, APEX-Agents, dan tugas agent jangka panjang lainnya juga meraih beberapa posisi pertama; indeks LMArena/Artificial Analysis saat ini berada di peringkat 1, efisiensi biaya tinggi.
Yang lebih penting lagi, keunggulan biaya sangat jelas:
Harga API (per 1M tokens, berdasarkan data terbaru Vertex AI / Gemini API, harga standar untuk konteks ≤200k):
Gemini 3.1 Pro: input $2.00, output $12.00 (>200k konteks ganda menjadi $4/$18)
Claude Opus 4.6: input $5.00, output $25.00
GPT-5.2 / 5.x: biasanya input $10–15+, output $30–75+ (tier atas lebih tinggi, tergantung versi)
Keunggulan: Input: Gemini sekitar 60% lebih murah dari Claude (2 vs 5), lebih dari 70-80% lebih murah dari seri GPT.
Output: Gemini sekitar 52% lebih murah dari Claude (12 vs 25), lebih dari 60-80% lebih murah dari GPT.