Google hôm nay đã phát hành Gemini 3.1 Pro, vừa mới xem điểm thử nghiệm, cảm thấy đây là hướng đến việc thống trị bảng xếp hạng (cuộc đua mô hình tiếp tục, lợi ích cho bán dẫn!)😂


Định vị chính thức rất rõ ràng: được thiết kế cho các nhiệm vụ phức tạp, chẳng hạn như nghiên cứu sâu, các vấn đề kỹ thuật, suy luận chuỗi dài và quy trình làm việc có tính agentic.
Điểm nổi bật cốt lõi: 1M token cửa sổ ngữ cảnh (giữ nguyên)
Hỗ trợ đa mô hình (văn bản + hình ảnh + video + âm thanh + mã)
Xuất ra tối đa 64k tokens
Hiệu suất so sánh với các mô hình chủ đạo hiện nay (Claude Opus 4.6, GPT-5.2/5.3, v.v.):
ARC-AGI-2 (chuẩn suy luận trừu tượng khó nhất):
Gemini 3.1 Pro đạt 77.1%, dẫn trước Claude 4.6 (68.8%) khoảng 8-9 điểm phần trăm,
dẫn trước dòng GPT-5 từ 20-30+ điểm phần trăm. Đây là bước tiến lớn nhất, đại diện cho sự đột phá về chất lượng suy luận cốt lõi.
GPQA Diamond (suy luận khoa học cấp PhD): 94.3%, dẫn trước nhẹ nhàng Claude 4.6 (91.3%) và GPT-5.2 (92.4%), chênh lệch 2-3 điểm phần trăm, chuẩn đã gần đạt tới mức bão hòa.
SWE-Bench Verified (nhiệm vụ kỹ thuật phần mềm thực tế): 80.6%, dẫn trước Claude 4.6 (khoảng 76-77%) 3-5 điểm phần trăm, rõ ràng dẫn trước GPT (5-15%).
Các nhiệm vụ khác như Terminal-Bench, APEX-Agents và các nhiệm vụ agent dài hạn cũng đạt nhiều vị trí số 1; chỉ số LMArena/Artificial Analysis hiện đứng đầu, hiệu quả chi phí cao.
Quan trọng hơn, lợi thế về chi phí rõ ràng:
Giá API (cho mỗi 1M tokens, dựa trên dữ liệu mới nhất của Vertex AI / Gemini API, tiêu chuẩn giá cho ngữ cảnh ≤200k):
Gemini 3.1 Pro: vào $2.00 cho đầu vào, $12.00 cho đầu ra (nếu >200k ngữ cảnh, nhân đôi lên $4/$18)
Claude Opus 4.6: vào $5.00 cho đầu vào, $25.00 cho đầu ra
GPT-5.2 / 5.x: thường vào $10–15+ cho đầu vào, $30–75+ cho đầu ra (phiên bản cao cấp hơn sẽ cao hơn, tùy theo phiên bản)
Ưu thế rõ ràng: Đầu vào: Gemini rẻ hơn khoảng 60% so với Claude (2 so với 5), rẻ hơn hơn 70-80% so với dòng GPT.
Đầu ra: Gemini rẻ hơn khoảng 52% so với Claude (12 so với 25), rẻ hơn 60-80% so với GPT.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim