Google DeepMind ได้นำเสนอโมเดลพื้นฐานสำหรับหุ่นยนต์รุ่นใหม่อย่าง Gemini Robotics ER 1.6 ซึ่ง ER ย่อมาจาก Embodied Reasoning (การให้เหตุผลแบบมีร่างกาย) โมเดลนี้ทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่ และได้เปิดให้ใช้งานผ่าน Gemini API แล้ว หัวหน้าฝ่ายความสัมพันธ์กับนักพัฒนา AI ของ Google อย่าง Logan Kilpatrick ได้ประกาศข่าวนี้บนโซเชียลมีเดีย (ที่มา)
อะไรคือ Embodied Reasoning?
Embodied Reasoning หมายถึงความสามารถของโมเดล AI ในการทำความเข้าใจและให้เหตุผลเกี่ยวกับโลกทางกายภาพ ต่างจากโมเดลภาษาทั่วไป โมเดลที่ให้เหตุผลแบบมีร่างกายจำเป็นต้องจัดการกับตำแหน่ง วัตถุในมิติสาม มิติ รูปร่าง วัสดุ และความสัมพันธ์ในการโต้ตอบเชิงฟิสิกส์ โมเดล Gemini Robotics ER 1.6 ได้รับการปรับให้เหมาะสมโดยเฉพาะสำหรับงานประเภทนี้ เพื่อให้หุ่นยนต์สามารถเข้าใจสภาพแวดล้อมรอบตัวได้แม่นยำยิ่งขึ้นและตัดสินใจเลือกการกระทำได้อย่างเหมาะสม
ความสามารถหลัก
ข้อได้เปรียบหลักของ Gemini Robotics ER 1.6 กระจุกตัวอยู่ที่สองด้าน:
ความสามารถ คำอธิบาย การให้เหตุผลเชิงการมองเห็น สามารถระบุวัตถุจากภาพและวิดีโอ เข้าใจโครงสร้างของฉาก และตัดสินใจตามนั้น การให้เหตุผลเชิงพื้นที่ เข้าใจตำแหน่งสัมพันธ์ ระยะทาง และทิศทางของวัตถุในพื้นที่มิติสาม สนับสนุนการวางแผนการปฏิบัติการที่ซับซ้อน
การผสานความสามารถทั้งสองนี้ทำให้หุ่นยนต์สามารถรับมือกับงานในโลกแห่งความเป็นจริงที่ซับซ้อนได้มากขึ้น ตัวอย่างเช่น ในสภาพแวดล้อมคลังสินค้า หุ่นยนต์จำเป็นต้องระบุวัตถุที่มีรูปร่างต่างกันพร้อมกัน และคำนวณมุมการหยิบจับและตำแหน่งการวางที่เหมาะที่สุด — นี่คือสถานการณ์ที่ Gemini Robotics ER 1.6 ทำได้ดีเป็นพิเศษ
การใช้งานผ่าน Gemini API
ต่างจากโมเดลหุ่นยนต์จำนวนมากในอดีตที่ยังคงอยู่ในขั้นของงานวิจัย Gemini Robotics ER 1.6 ได้ให้การเข้าถึงผ่าน Gemini API แล้ว นั่นหมายความว่านักพัฒนาและผู้ผลิตฮาร์ดแวร์สามารถนำโมเดลนี้ไปผสานเข้ากับระบบหุ่นยนต์ของตนได้โดยตรง โดยไม่จำเป็นต้องฝึกโมเดลตั้งแต่เริ่มต้น
การเปิด API ยังช่วยลดเกณฑ์ในการพัฒนา AI สำหรับหุ่นยนต์ ในอดีต การพัฒนาระบบหุ่นยนต์ที่มีความสามารถด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่ต้องอาศัยการเก็บรวบรวมข้อมูลจำนวนมากและงานฝึกโมเดล ปัจจุบัน นักพัฒนาสามารถโฟกัสกับการพัฒนาด้านการออกแบบฮาร์ดแวร์และการใช้งานในสถานการณ์จริง โดยปล่อยความสามารถด้านการให้เหตุผลระดับล่างให้ Gemini Robotics ER 1.6 เป็นผู้จัดการ
แผนผัง AI หุ่นยนต์ของ Google
Gemini Robotics ER 1.6 คือผลงานล่าสุดของ Google DeepMind ในด้านหุ่นยนต์ ตั้งแต่ RT-2 ในช่วงแรกจนถึงปัจจุบันที่เป็นตระกูล Gemini Robotics Google ยังคงขยายขีดความสามารถของโมเดลภาษาขนาดใหญ่มาสู่การโต้ตอบกับโลกทางกายภาพ เวอร์ชัน ER 1.6 ยกระดับความแม่นยำในการให้เหตุผลจากเวอร์ชันก่อนหน้าให้ดียิ่งขึ้น โดยเฉพาะในสถานการณ์ที่ต้องใช้การปฏิบัติอย่างละเอียด ซึ่งทำได้โดดเด่นมาก
เมื่ออุตสาหกรรมหุ่นยนต์เข้าสู่ช่วงเติบโตระลอกใหม่ โมเดลพื้นฐานที่มีความสามารถด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่อย่างแข็งแกร่งจะกลายเป็นโครงสร้างพื้นฐานสำคัญ หากต้องการดูข้อมูลเพิ่มเติมเกี่ยวกับการพัฒนาของระบบนิเวศ Gemini สามารถดูได้จากคู่มือฉบับสมบูรณ์ของ Gemini
บทความนี้ Google เปิดตัว Gemini Robotics ER 1.6:โมเดลหุ่นยนต์ SOTA เชี่ยวชาญด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่ ปรากฏครั้งแรกบน 鏈新聞 ABMedia
btc.bar.articles
ความจริงของ AI Agent ในซิลิคอนแวลลีย์: โทเค็นถูกสิ้นเปลืองจำนวนมาก การบูรณาการระบบ “โคตรวุ่นวาย” การคาดการณ์ของ หวง เหรินจวิน “ChatGPT ถัดไป” ยังต้องรอตรวจสอบยืนยัน
AI กลืนกิน 80% ของเงินร่วมลงทุนทั่วโลก, ไตรมาส 1 ปี 2026 ดูดเงิน 242 พันล้านดอลลาร์: ผู้ประกอบการคริปโตควรรับมืออย่างไรกับการจัดสรรเงินใหม่
ตำรวจฮ่องกงเตือนภัยสแกมคริปโต 'AI Quantitative Trading' หญิงเสียเงิน HK$7.7 ล้าน
ฮ่องกงเตรียมประกาศบัญชีรายชื่อองค์กรสำคัญชุดที่ 6 พรุ่งนี้
หุ่นยนต์ Lightning ของ Honor คว้าชัยการแข่งขันครึ่งมาราธอนหุ่นยนต์มนุษย์ที่ปักกิ่ง 2026 ด้วยเวลา 50:26
หุ้น Meta เพิ่มขึ้น 1.73% ขณะที่บริษัทวางแผนเลิกจ้าง 8,000 ตำแหน่ง เริ่มวันที่ 20 พฤษภาคม