2026-02-19 16:41:14

Google hari ini merilis Gemini 3.1 Pro, baru saja melihat skor pengujian, rasanya ini ditujukan untuk mendominasi papan peringkat (perburuan perlombaan model berlanjut, mendukung semikonduktor!)😂

Posisi resmi sangat jelas: dirancang khusus untuk tugas kompleks, seperti penelitian mendalam, masalah rekayasa, penalaran rantai panjang, dan alur kerja agentic.
Fitur utama: 1M token jendela konteks (tetap sama)
Dukungan multimodal (teks+gambar+video+audio+kode)
Output hingga 64k tokens
Perbandingan performa dengan model utama saat ini (Claude Opus 4.6, GPT-5.2/5.3, dll):
ARC-AGI-2 (standar penalaran abstrak paling sulit):
Gemini 3.1 Pro 77,1%, unggul sekitar 8-9 poin dari Claude 4.6 (68,8%),
unggul 20-30+ poin dari seri GPT-5.2/5.3. Ini adalah kemajuan terbesar, mewakili lonjakan kualitas penalaran inti.
GPQA Diamond (penalaran ilmiah tingkat PhD): 94,3%, sedikit unggul dari Claude 4.6 (91,3%) dan GPT-5.2 (92,4%), jarak 2-3 poin, standar sudah mendekati jenuh.
SWE-Bench Verified (tugas rekayasa perangkat lunak nyata): 80,6%, unggul dari Claude 4.6 (sekitar 76-77%) 3-5 poin, unggul jelas dari GPT (5-15%).
Lainnya: Terminal-Bench, APEX-Agents, dan tugas agent jangka panjang lainnya juga meraih beberapa posisi pertama; indeks LMArena/Artificial Analysis saat ini berada di peringkat 1, efisiensi biaya tinggi.
Yang lebih penting lagi, keunggulan biaya sangat jelas:
Harga API (per 1M tokens, berdasarkan data terbaru Vertex AI / Gemini API, harga standar untuk konteks ≤200k):
Gemini 3.1 Pro: input $2.00, output $12.00 (>200k konteks ganda menjadi $4/$18)
Claude Opus 4.6: input $5.00, output $25.00
GPT-5.2 / 5.x: biasanya input $10–15+, output $30–75+ (tier atas lebih tinggi, tergantung versi)
Keunggulan: Input: Gemini sekitar 60% lebih murah dari Claude (2 vs 5), lebih dari 70-80% lebih murah dari seri GPT.
Output: Gemini sekitar 52% lebih murah dari Claude (12 vs 25), lebih dari 60-80% lebih murah dari GPT.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka