วันนี้ Amazon ได้เปิดตัว Nova Sonic ซึ่งเป็นโมเดลการพูดเป็นเสียงขั้นสูงที่ช่วยให้นักพัฒนาสามารถสร้างแอปที่สามารถสนทนาด้วยเสียงที่เหมือนมนุษย์ได้แบบเรียลไทม์ Amazon อ้างว่ารุ่นเสียงใหม่นี้มีประสิทธิภาพราคาชั้นนำของอุตสาหกรรมและมีค่าความหน่วงต่ำ
โดยทั่วไป การพัฒนาแอปพลิเคชันที่รองรับเสียงจะต้องให้ผู้พัฒนาทำงานกับโมเดลหลายตัวในเวลาเดียวกัน:
- โมเดลการจดจำเสียงพูดเพื่อแปลงเสียงเป็นข้อความ
- Large Language Model (LLM) เพื่อการทำความเข้าใจและการสร้างการตอบสนอง
- แบบจำลองการแปลงข้อความเป็นคำพูด
แนวทางนี้ไม่เพียงแต่จะซับซ้อนเท่านั้น แต่ยังมักละเลยบริบทอะคูสติกที่สำคัญ เช่น โทน เสียง และรูปแบบการพูดอีกด้วย

Nova Sonic รับมือกับความท้าทายนี้โดยบูรณาการความเข้าใจและการสร้างเสียงให้เป็นโมเดลเดียว แนวทางแบบรวมช่วยให้โมเดลสามารถจับโทน สไตล์ และเสียงอินพุตได้ ทำให้เกิดบทสนทนาที่เป็นธรรมชาติมากขึ้น นอกจากนี้ยังกำหนดเวลาตอบสนองที่เหมาะสมและจัดการการเข้ามาได้ดีกว่า
Nova Sonic รองรับเสียงทั้งเสียงชายและหญิงพร้อมสำเนียงภาษาอังกฤษหลายสำเนียง เช่น สำเนียงอเมริกันและอังกฤษ นักพัฒนาสามารถเข้าถึงโมเดลผ่าน Amazon Bedrock โดยใช้ API สตรีมมิ่งแบบสองทิศทางที่รองรับการเรียกใช้ฟังก์ชัน นอกจากนี้รุ่นนี้ยังมาพร้อมกับฟีเจอร์การป้องกันในตัว เช่น การควบคุมเนื้อหาและใส่ลายน้ำ
ในเรื่องนี้ เมื่อเดือนที่แล้ว OpenAI ได้ประกาศโมเดลการแปลงคำพูดเป็นข้อความรุ่นใหม่ ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe ซึ่งมีการปรับปรุงอัตราข้อผิดพลาดของคำ การจดจำภาษา และความแม่นยำอย่างมีนัยสำคัญเมื่อเทียบกับโมเดล Whisper รุ่นก่อนๆ