谷歌は本日、Gemini 3.1 Proをリリースしました。テストスコアを見たばかりで、これはランキングトップを狙っていると感じます(モデルの軍拡競争は続き、半導体にとって追い風!)😂


公式の位置付けは非常に明確です:複雑なタスクに特化して設計されており、例えば深い研究、エンジニアリングの難題、長い推論チェーン、エージェント型ワークフローなどです。
主な特徴:1Mトークンのコンテキストウィンドウ(変更なし)
マルチモーダル対応(テキスト+画像+動画+音声+コード)
最大出力64kトークン
現在の主流モデル(Claude Opus 4.6、GPT-5.2/5.3など)との性能比較:
ARC-AGI-2(最も難しい抽象推論基準):
Gemini 3.1 Pro 77.1%、Claude 4.6(68.8%)を約8-9ポイントリード、
GPT-5シリーズより20-30ポイント以上リード。これは最大の進歩であり、コア推論の質的飛躍を示しています。
GPQA Diamond(PhDレベルの科学推論):94.3%、Claude 4.6(91.3%)やGPT-5.2(92.4%)をわずかにリードし、差は2-3ポイント、基準はほぼ飽和状態です。
SWE-Bench Verified(実際のソフトウェアエンジニアリングタスク):80.6%、Claude 4.6(約76-77%)を3-5ポイントリード、GPTよりも明らかに優位(5-15%)。
その他:Terminal-Bench、APEX-Agentsなどの長期エージェントタスクでも複数の1位を獲得;LMArena/Artificial Analysis指数は現在第1位で、コスト効率も高いです。
さらに重要なのは、コスト面での優位性が顕著なことです:
API価格設定(1Mトークンあたり、Vertex AI / Gemini APIの最新データに基づき、≤200kコンテキスト標準価格):
Gemini 3.1 Pro:入力$2.00、出力$12.00(200k超のコンテキストは倍の$4/$18)
Claude Opus 4.6:入力$5.00、出力$25.00
GPT-5.2 / 5.x:入力は通常$10–15+、出力は$30–75+(上位ティアはさらに高く、バージョンによる)
優位性の範囲:入力面では、GeminiはClaudeより約60%安(2対5)、GPTシリーズより70-80%以上安。
出力面では、GeminiはClaudeより約52%安(12対25)、GPTより60-80%以上安。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン