Google DeepMind มีความก้าวหน้าอย่างต่อเนื่องในด้าน AI ด้วยการอัปเดต Gemini, Imagen, Veo, Gemma และ AlphaFold ที่ได้รับการยกย่องอย่างสูงเป็นประจำ ในวันนี้ ทีม AI ของ Google ยังคงสร้างกระแสฮือฮาอย่างต่อเนื่อง ด้วยการประกาศเข้าสู่วงการหุ่นยนต์อย่างเป็นทางการ ด้วยการเปิดตัวโมเดลใหม่ 2 รุ่นที่ใช้ Gemini 2.0 ได้แก่ Gemini Robotics และ Gemini Robotics-ER
Gemini Robotics: โมเดลการมองเห็น-ภาษา-การกระทำขั้นสูง
Gemini Robotics เป็นโมเดลการมองเห็น-ภาษา-การกระทำ (VLA) ขั้นสูงที่พัฒนาขึ้นบนพื้นฐานของ Gemini 2.0 โดยมีการเพิ่มการกระทำทางกายภาพเป็นวิธีเอาต์พุตใหม่สำหรับการควบคุมหุ่นยนต์ Google อ้างว่าโมเดลใหม่นี้สามารถเข้าใจสถานการณ์ที่ไม่เคยพบมาก่อนในระหว่างการฝึกอบรมได้
เมื่อเทียบกับโมเดล VLA ชั้นนำอื่นๆ Gemini Robotics มีประสิทธิภาพดีกว่าสองเท่าในเกณฑ์มาตรฐานทั่วไปที่ครอบคลุม เนื่องจากสร้างขึ้นบนโมเดล Gemini 2.0 จึงสามารถเข้าใจภาษาธรรมชาติประเภทต่างๆ ได้หลายประเภท ซึ่งหมายความว่าสามารถเข้าใจคำสั่งของมนุษย์ได้แม่นยำยิ่งขึ้น
ในด้านความคล่องตัว Google อ้างว่า Gemini Robotics สามารถจัดการกับงานที่ซับซ้อนหลายขั้นตอนซึ่งต้องการการจัดการที่แม่นยำได้ ตัวอย่างเช่น โมเดลนี้สามารถพับกระดาษโอริกามิหรือใส่ขนมลงในถุงซิปล็อกได้
Gemini Robotics-ER: โมเดลภาษาภาพที่เน้นการใช้เหตุผลเชิงพื้นที่
Gemini Robotics-ER เป็นโมเดลภาพและภาษาขั้นสูงที่เน้นการใช้เหตุผลเชิงพื้นที่ ช่วยให้ผู้ใช้หุ่นยนต์สามารถบูรณาการกับตัวควบคุมระดับต่ำที่มีอยู่ได้ เมื่อใช้โมเดลนี้ นักหุ่นยนต์จะมีขั้นตอนทั้งหมดเพื่อควบคุมหุ่นยนต์ในคราวเดียว รวมถึงการรับรู้ การประมาณสถานะ การทำความเข้าใจเชิงพื้นที่ การวางแผน และการสร้างโค้ด
อนาคตของหุ่นยนต์เจมินี่
Google ร่วมมือกับ Apptronik เพื่อสร้างหุ่นยนต์คล้ายมนุษย์โดยใช้โมเดล Gemini 2.0 นอกจากนี้ Google ยังทำงานร่วมกับพันธมิตรการทดสอบที่เชื่อถือได้หลายราย รวมถึง Agile Robots, Agility Robotics, Boston Dynamics และ Enchanted Tools เพื่อกำหนดทิศทางการพัฒนา Gemini Robotics-ER ในอนาคต
ด้วยการช่วยให้หุ่นยนต์เข้าใจและทำงานที่ซับซ้อนได้อย่างแม่นยำและปรับตัวได้มากขึ้น Google DeepMind กำลังปูทางไปสู่อนาคตที่หุ่นยนต์จะสามารถผสานรวมกับด้านต่างๆ ในชีวิตของเราได้อย่างราบรื่น