กูเกิลเปิดตัว Gemini 3.1 Pro วันนี้ เพิ่งเห็นคะแนนทดสอบ รู้สึกว่านี่เป็นการมุ่งสู่การครองอันดับ (การแข่งขันโมเดลยังคงดำเนินต่อไป ดีต่อเซมิคอนดักเตอร์!)😂


การกำหนดเป้าหมายอย่างชัดเจนของทางการ: ออกแบบมาเพื่อภารกิจซับซ้อน เช่น การวิจัยเชิงลึก ปัญหาวิศวกรรม การสรุปเชิงลึก และเวิร์กโฟลว์แบบ agentic
จุดเด่นหลัก: หน้าต่างบริบท 1M token (คงที่)
รองรับมัลติโมเดล (ข้อความ+ภาพ+วิดีโอ+เสียง+โค้ด)
ผลลัพธ์สูงสุด 64k tokens
เปรียบเทียบประสิทธิภาพกับโมเดลหลักในปัจจุบัน (Claude Opus 4.6, GPT-5.2/5.3 ฯลฯ):
ARC-AGI-2 (เกณฑ์การสรุปเชิงนามธรรมที่ยากที่สุด):
Gemini 3.1 Pro 77.1%, นำหน้า Claude 4.6 (68.8%) ประมาณ 8-9 จุด,
นำหน้า GPT-5 ซีรีส์ 20-30+ จุด นี่คือความก้าวหน้าที่ใหญ่ที่สุด แสดงให้เห็นถึงการเปลี่ยนแปลงเชิงคุณภาพของการสรุปเชิงนามธรรม
GPQA Diamond (การสรุปเชิงวิทยาศาสตร์ระดับ PhD): 94.3%, นำหน้า Claude 4.6 (91.3%) และ GPT-5.2 (92.4%) เล็กน้อย ต่างกัน 2-3 จุด เกณฑ์มาตรฐานใกล้จะอิ่มตัวแล้ว
SWE-Bench Verified (ภารกิจด้านวิศวกรรมซอฟต์แวร์จริง): 80.6%, นำหน้า Claude 4.6 (ประมาณ 76-77%) 3-5 จุด นำหน้า GPT อย่างชัดเจน (5-15%)
อื่นๆ: Terminal-Bench, APEX-Agents และภารกิจ agent ระยะยาวอื่นๆ ก็ได้อันดับหนึ่งหลายรายการ; LMArena/Artificial Analysis ขณะนี้อยู่ในอันดับ 1 ด้วยต้นทุนและประสิทธิภาพสูง
ที่สำคัญกว่านั้นคือ ข้อได้เปรียบด้านต้นทุนชัดเจน:
ราคาบริการ API (ต่อ 1M tokens, อิงข้อมูลล่าสุดของ Vertex AI / Gemini API, ราคามาตรฐานบริบท ≤200k):
Gemini 3.1 Pro: ค่าป้อนเข้า $2.00, ค่าผลลัพธ์ $12.00 (บริบท >200k คูณสองเป็น $4/$18)
Claude Opus 4.6: ค่าป้อนเข้า $5.00, ค่าผลลัพธ์ $25.00
GPT-5.2 / 5.x: ค่าป้อนเข้าโดยทั่วไป $10–15+, ค่าผลลัพธ์ $30–75+ (ระดับสูงสุดยิ่งสูง ขึ้นอยู่กับเวอร์ชัน)
ความได้เปรียบ: ป้อนเข้า Gemini ถูกกว่า Claude ประมาณ 60% (2 เทียบกับ 5), ถูกกว่า GPT ซีรีส์มากกว่า 70–80%
ผลลัพธ์: Gemini ถูกกว่า Claude ประมาณ 52% (12 เทียบกับ 25), ถูกกว่า GPT มากกว่า 60–80%
ดูต้นฉบับ
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • รางวัล
  • แสดงความคิดเห็น
  • repost
  • แชร์
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น
  • ปักหมุด