EMO (Emotive Portrait Alive) คือปัญญาประดิษฐ์ชนิดใหม่ที่ได้รับการวิจัยจากสถาบันการประมวลผลอัจฉริยะ (IIC) ของอาลีบาบา ซึ่งสามารถแปลงรูปภาพใดๆ ก็ตามให้กลายเป็นการพูดและการร้องเพลงได้อย่างสมจริง "อย่างน่าอัศจรรย์"
กล่าวอีกนัยหนึ่ง AI ของอาลีบาบาสามารถเปลี่ยนภาพนิ่งอ้างอิงและเสียงพูดให้กลายเป็นวิดีโอที่สามารถพูดและร้องเพลงพร้อมการแสดงออกที่เป็นธรรมชาติได้
AI ก่อนหน้านี้จะปรับเปลี่ยนรูปร่างปากและส่วนหนึ่งของใบหน้าเท่านั้น ในขณะที่ EMO สามารถสร้างการแสดงสีหน้า การแสดงสีหน้าบนปากที่เป็นธรรมชาติ การซิงโครไนซ์ริมฝีปากอย่างแม่นยำ ขยับคิ้ว ขมวดคิ้ว หรือแม้แต่โยกตัวตามเสียงเพลง
อาลีบาบาได้เผยแพร่คลิปวิดีโอที่แสดงให้เห็นว่าภาพต่างๆ จะถูกแปลงเป็นวิดีโอและร้องเพลงนำเข้าได้อย่างไร EMO รองรับภาษาอังกฤษ จีน และภาษาอื่นๆ อีกมากมาย
อาลีบาบาเปิดเผยว่าเพื่อให้ EMO สามารถสร้างการแสดงออกทางสีหน้าได้อย่างสมจริงนั้น จะต้องได้รับการฝึกด้วยข้อมูลภาพ เสียง และวิดีโอจำนวนมากผ่านโมเดลการแพร่กระจายที่เรียกว่า Audio2Video
เพื่อรับมือกับความท้าทายสำคัญในปัจจุบันของความสมจริงและการแสดงออกในการสร้างวิดีโอจากภาพและเสียง ทีมวิจัยมุ่งเน้นไปที่ความสัมพันธ์และความแตกต่างละเอียดอ่อนระหว่างสัญญาณเสียงกับการเคลื่อนไหวของใบหน้า โดยหลีกเลี่ยงการเชื่อมโยงโมเดล 3 มิติขั้นกลางหรือจุดสังเกตบนใบหน้า การเปลี่ยนเฟรมอย่างราบรื่น และรักษาความสม่ำเสมอในวิดีโอ
Alibaba ยังไม่ได้เปิดเผยว่าจะเปิดตัว AI นี้สู่สาธารณะเมื่อใด แต่ได้เผยแพร่ข้อมูลของ EMO ลงบน Github และเผยแพร่เอกสารวิจัยบน ArXiv