This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
กูเกิลเปิดตัว Gemini 3.1 Pro วันนี้ เพิ่งเห็นคะแนนทดสอบ รู้สึกว่านี่เป็นการมุ่งสู่การครองอันดับ (การแข่งขันโมเดลยังคงดำเนินต่อไป ดีต่อเซมิคอนดักเตอร์!)😂
การกำหนดเป้าหมายอย่างชัดเจนของทางการ: ออกแบบมาเพื่อภารกิจซับซ้อน เช่น การวิจัยเชิงลึก ปัญหาวิศวกรรม การสรุปเชิงลึก และเวิร์กโฟลว์แบบ agentic
จุดเด่นหลัก: หน้าต่างบริบท 1M token (คงที่)
รองรับมัลติโมเดล (ข้อความ+ภาพ+วิดีโอ+เสียง+โค้ด)
ผลลัพธ์สูงสุด 64k tokens
เปรียบเทียบประสิทธิภาพกับโมเดลหลักในปัจจุบัน (Claude Opus 4.6, GPT-5.2/5.3 ฯลฯ):
ARC-AGI-2 (เกณฑ์การสรุปเชิงนามธรรมที่ยากที่สุด):
Gemini 3.1 Pro 77.1%, นำหน้า Claude 4.6 (68.8%) ประมาณ 8-9 จุด,
นำหน้า GPT-5 ซีรีส์ 20-30+ จุด นี่คือความก้าวหน้าที่ใหญ่ที่สุด แสดงให้เห็นถึงการเปลี่ยนแปลงเชิงคุณภาพของการสรุปเชิงนามธรรม
GPQA Diamond (การสรุปเชิงวิทยาศาสตร์ระดับ PhD): 94.3%, นำหน้า Claude 4.6 (91.3%) และ GPT-5.2 (92.4%) เล็กน้อย ต่างกัน 2-3 จุด เกณฑ์มาตรฐานใกล้จะอิ่มตัวแล้ว
SWE-Bench Verified (ภารกิจด้านวิศวกรรมซอฟต์แวร์จริง): 80.6%, นำหน้า Claude 4.6 (ประมาณ 76-77%) 3-5 จุด นำหน้า GPT อย่างชัดเจน (5-15%)
อื่นๆ: Terminal-Bench, APEX-Agents และภารกิจ agent ระยะยาวอื่นๆ ก็ได้อันดับหนึ่งหลายรายการ; LMArena/Artificial Analysis ขณะนี้อยู่ในอันดับ 1 ด้วยต้นทุนและประสิทธิภาพสูง
ที่สำคัญกว่านั้นคือ ข้อได้เปรียบด้านต้นทุนชัดเจน:
ราคาบริการ API (ต่อ 1M tokens, อิงข้อมูลล่าสุดของ Vertex AI / Gemini API, ราคามาตรฐานบริบท ≤200k):
Gemini 3.1 Pro: ค่าป้อนเข้า $2.00, ค่าผลลัพธ์ $12.00 (บริบท >200k คูณสองเป็น $4/$18)
Claude Opus 4.6: ค่าป้อนเข้า $5.00, ค่าผลลัพธ์ $25.00
GPT-5.2 / 5.x: ค่าป้อนเข้าโดยทั่วไป $10–15+, ค่าผลลัพธ์ $30–75+ (ระดับสูงสุดยิ่งสูง ขึ้นอยู่กับเวอร์ชัน)
ความได้เปรียบ: ป้อนเข้า Gemini ถูกกว่า Claude ประมาณ 60% (2 เทียบกับ 5), ถูกกว่า GPT ซีรีส์มากกว่า 70–80%
ผลลัพธ์: Gemini ถูกกว่า Claude ประมาณ 52% (12 เทียบกับ 25), ถูกกว่า GPT มากกว่า 60–80%