กลุ่มเทคโนโลยีจีน Alibaba เพิ่งประกาศเปิดตัวโมเดล AI ใหม่ที่เรียกว่า QVQ-Max ของซีรีส์ Qwen ซึ่งถือเป็นการก้าวล้ำครั้งยิ่งใหญ่ในด้าน AI มัลติมีเดีย คุณลักษณะพิเศษของโมเดลนี้คือความสามารถในการวิเคราะห์เนื้อหาภาพ/วิดีโอ จากนั้นเสนอข้อโต้แย้งและวิธีแก้ปัญหาตามข้อมูลที่ได้รับ
ความสามารถที่น่าประทับใจ
QVQ-Max ได้รับการอธิบายโดย Alibaba ว่าเป็นสะพานเชื่อมระหว่างโมเดล AI ที่ใช้ข้อความล้วนๆ กับโลกแห่งความเป็นจริง ด้วยความสามารถในการใช้เหตุผลทางภาพ ระบบจึงสามารถ:
- วิเคราะห์ภาพและระบุองค์ประกอบสำคัญ
- การประยุกต์ใช้ที่หลากหลายในหลายสาขาตั้งแต่การออกแบบภาพประกอบ การสร้างสคริปต์วิดีโอ ไปจนถึงการเล่นตามบทบาทของตัวละคร
- แก้ปัญหาด้วยแผนภาพ (คณิตศาสตร์ ฟิสิกส์)
- คำแนะนำการทำอาหารแบบทีละขั้นตอนตามรูปภาพสูตรอาหาร
อาลีบาบากล่าวว่าโมเดลดังกล่าวช่วยลดช่องว่างระหว่าง AI ที่ประมวลผลเฉพาะข้อความและข้อมูลในโลกแห่งความเป็นจริงเท่านั้น ด้วยความสามารถในการใช้เหตุผลทางภาพ QVQ-Max จึงสามารถ "มองเห็น เข้าใจ และคิด" เกี่ยวกับโลกที่อยู่รอบตัวมันได้ บริษัทเน้นย้ำถึงโมเดลที่เหนือกว่าในการวิเคราะห์ภาพ การระบุองค์ประกอบหลัก และความยืดหยุ่นในการนำไปประยุกต์ใช้ในหลายสาขา เช่น การออกแบบภาพประกอบ การสร้างสคริปต์วิดีโอ หรือการสวมบทบาท

เช่นเดียวกับแชทบอท AI ตัวอื่น QVQ-Max รองรับการทำงาน การศึกษา และชีวิตส่วนตัว แต่ด้วยการผสานภาพ ทำให้สามารถแก้ไขปัญหาที่เฉพาะเจาะจงมากขึ้นได้ เช่น การแก้ปัญหาคณิตศาสตร์/ฟิสิกส์ด้วยไดอะแกรม คำแนะนำการทำอาหารด้วยภาพสูตรอาหาร
อาลีบาบาถือว่า QVQ-Max เป็นเวอร์ชันแรกและได้วางแผนการอัปเกรดสำหรับเวอร์ชันถัดไป ประการแรกพวกเขาต้องการปรับปรุงความแม่นยำในการจดจำภาพโดยใช้เทคนิคการต่อสายดิน ประการที่สอง โมเดลจะถูกปรับให้เหมาะสมเพื่อจัดการกับการทำงานหลายอย่างพร้อมกันและปัญหาที่ซับซ้อน เช่น การทำงานกับโทรศัพท์ คอมพิวเตอร์ หรือการเล่นเกม ในที่สุด อาลีบาบาก็มีแผนที่จะขยายจากการโต้ตอบข้อความไปสู่การตรวจสอบเครื่องมือและการสร้างเนื้อหาที่เป็นภาพ
ผู้ใช้สามารถสัมผัสประสบการณ์ QVQ-Max ได้โดย:
- เยี่ยมชมchat.qwen.ai
- เลือกเมนูโมเดลที่มุมซ้าย → " ขยายโมเดลเพิ่มเติม "
- เลือกQVQ-Maxและเริ่มแชท
- แนบไฟล์รูปภาพเพื่อสำรวจความสามารถในการประมวลผล AI
ด้วยการเปิดตัว QVQ-Max อาลีบาบายังคงยืนยันตำแหน่งของตนในการแข่งขันเพื่อพัฒนา AI มัลติมีเดีย โดยแข่งขันโดยตรงกับยักษ์ใหญ่ด้านเทคโนโลยีระดับโลก โมเดลนี้มีแนวโน้มที่จะนำไปใช้งานจริงในการทำงาน การศึกษา และชีวิตส่วนตัว