Amazon เปิดตัวโมเดลเสียง Nova Sonic อ้างว่าประสิทธิภาพเหนือกว่า OpenAI และ Google

วันนี้ Amazon ได้เปิดตัว Nova Sonic ซึ่งเป็นโมเดลการพูดเป็นเสียงขั้นสูงที่ช่วยให้นักพัฒนาสามารถสร้างแอปที่สามารถสนทนาด้วยเสียงที่เหมือนมนุษย์ได้แบบเรียลไทม์ Amazon อ้างว่ารุ่นเสียงใหม่นี้มีประสิทธิภาพราคาชั้นนำของอุตสาหกรรมและมีค่าความหน่วงต่ำ

โดยทั่วไป การพัฒนาแอปพลิเคชันที่รองรับเสียงจะต้องให้ผู้พัฒนาทำงานกับโมเดลหลายตัวในเวลาเดียวกัน:

  • โมเดลการจดจำเสียงพูดเพื่อแปลงเสียงเป็นข้อความ
  • Large Language Model (LLM) เพื่อการทำความเข้าใจและการสร้างการตอบสนอง
  • แบบจำลองการแปลงข้อความเป็นคำพูด

แนวทางนี้ไม่เพียงแต่จะซับซ้อนเท่านั้น แต่ยังมักละเลยบริบทอะคูสติกที่สำคัญ เช่น โทน เสียง และรูปแบบการพูดอีกด้วย

Amazon เปิดตัวโมเดลเสียง Nova Sonic อ้างว่าประสิทธิภาพเหนือกว่า OpenAI และ Google

Nova Sonic รับมือกับความท้าทายนี้โดยบูรณาการความเข้าใจและการสร้างเสียงให้เป็นโมเดลเดียว แนวทางแบบรวมช่วยให้โมเดลสามารถจับโทน สไตล์ และเสียงอินพุตได้ ทำให้เกิดบทสนทนาที่เป็นธรรมชาติมากขึ้น นอกจากนี้ยังกำหนดเวลาตอบสนองที่เหมาะสมและจัดการการเข้ามาได้ดีกว่า

Nova Sonic รองรับเสียงทั้งเสียงชายและหญิงพร้อมสำเนียงภาษาอังกฤษหลายสำเนียง เช่น สำเนียงอเมริกันและอังกฤษ นักพัฒนาสามารถเข้าถึงโมเดลผ่าน Amazon Bedrock โดยใช้ API สตรีมมิ่งแบบสองทิศทางที่รองรับการเรียกใช้ฟังก์ชัน นอกจากนี้รุ่นนี้ยังมาพร้อมกับฟีเจอร์การป้องกันในตัว เช่น การควบคุมเนื้อหาและใส่ลายน้ำ

ในเรื่องนี้ เมื่อเดือนที่แล้ว OpenAI ได้ประกาศโมเดลการแปลงคำพูดเป็นข้อความรุ่นใหม่ ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe ซึ่งมีการปรับปรุงอัตราข้อผิดพลาดของคำ การจดจำภาษา และความแม่นยำอย่างมีนัยสำคัญเมื่อเทียบกับโมเดล Whisper รุ่นก่อนๆ

Sign up and earn $1000 a day ⋙

Leave a Comment

วิธีใช้แอป CK Club ของ Circle K เพื่อรับข้อเสนอสุดพิเศษ

วิธีใช้แอป CK Club ของ Circle K เพื่อรับข้อเสนอสุดพิเศษ

หากต้องการรับข้อมูลโปรโมตจาก Circle K อย่างรวดเร็วที่สุด คุณควรติดตั้งแอป CK Club แอปพลิเคชันช่วยบันทึกการชำระเงินเมื่อช้อปปิ้งหรือชำระเงินที่ Circle K รวมถึงจำนวนแสตมป์ที่สะสมไว้

Instagram จะอนุญาตให้ใช้ Reels ยาวได้ถึง 3 นาที

Instagram จะอนุญาตให้ใช้ Reels ยาวได้ถึง 3 นาที

Instagram เพิ่งประกาศว่าจะอนุญาตให้ผู้ใช้โพสต์วิดีโอ Reels ได้ยาวสูงสุด 3 นาที ซึ่งเพิ่มขึ้นเป็นสองเท่าจากเดิมที่จำกัดไว้ที่ 90 วินาที

วิธีดูข้อมูล CPU ของ Chromebook

วิธีดูข้อมูล CPU ของ Chromebook

บทความนี้จะแนะนำวิธีการดูข้อมูล CPU ตรวจสอบความเร็ว CPU โดยตรงบน Chromebook ของคุณ

8 สิ่งเจ๋งๆ ที่คุณสามารถทำได้ด้วยแท็บเล็ต Android รุ่นเก่า

8 สิ่งเจ๋งๆ ที่คุณสามารถทำได้ด้วยแท็บเล็ต Android รุ่นเก่า

หากคุณไม่อยากขายหรือให้แท็บเล็ตเครื่องเก่าของคุณไป คุณสามารถใช้งานได้ 5 วิธี คือ เป็นกรอบรูปคุณภาพสูง เครื่องเล่นเพลง เครื่องอ่านอีบุ๊กและนิตยสาร เครื่องช่วยทำงานบ้าน และเป็นหน้าจอรอง

วิธีการทำเล็บสวยอย่างรวดเร็ว

วิธีการทำเล็บสวยอย่างรวดเร็ว

คุณอยากมีเล็บสวย เงางาม และสุขภาพดีอย่างรวดเร็ว เคล็ดลับง่ายๆ สำหรับเล็บสวยๆ ด้านล่างนี้จะมีประโยชน์กับคุณ

ความลับของแรงบันดาลใจด้านสีที่เฉพาะนักออกแบบเท่านั้นที่รู้

ความลับของแรงบันดาลใจด้านสีที่เฉพาะนักออกแบบเท่านั้นที่รู้

บทความนี้จะรวบรวมเคล็ดลับที่ได้รับแรงบันดาลใจจากสี ซึ่งแบ่งปันโดยนักออกแบบชั้นนำจากชุมชน Creative Market เพื่อให้คุณได้ชุดสีที่สมบูรณ์แบบในทุกครั้ง

ทุกสิ่งที่คุณต้องการเพื่อแทนที่แล็ปท็อปของคุณด้วยโทรศัพท์

ทุกสิ่งที่คุณต้องการเพื่อแทนที่แล็ปท็อปของคุณด้วยโทรศัพท์

คุณสามารถแทนที่แล็ปท็อปด้วยโทรศัพท์ของคุณได้จริงหรือไม่? ใช่ แต่คุณจะต้องมีอุปกรณ์เสริมที่เหมาะสมเพื่อเปลี่ยนโทรศัพท์ของคุณให้เป็นแล็ปท็อป

เร็วๆ นี้ ChatGPT จะสามารถมองเห็นทุกอย่างที่เกิดขึ้นบนหน้าจอของคุณได้

เร็วๆ นี้ ChatGPT จะสามารถมองเห็นทุกอย่างที่เกิดขึ้นบนหน้าจอของคุณได้

สิ่งสำคัญอย่างหนึ่งในวิดีโอเต็มรูปแบบของงานนี้คือมีการสาธิตฟีเจอร์แอป ChatGPT ที่กำลังจะเปิดตัว แต่ไม่ได้มีการเปิดเผยรายละเอียดที่แท้จริง ความสามารถของ ChatGPT คือการดูทุกสิ่งที่เกิดขึ้นบนหน้าจออุปกรณ์ของผู้ใช้

AI กำลังเรียนรู้ที่จะหลอกมนุษย์แม้จะได้รับการฝึกให้ซื่อสัตย์

AI กำลังเรียนรู้ที่จะหลอกมนุษย์แม้จะได้รับการฝึกให้ซื่อสัตย์

AI ชั้นนำหลายตัวแม้จะได้รับการฝึกให้ซื่อสัตย์ แต่ก็เรียนรู้ที่จะหลอกลวงผ่านการฝึกฝน และชักจูงผู้ใช้ให้มีความเชื่อที่ผิด ๆ อย่างเป็นระบบ จากผลการศึกษาวิจัยใหม่ล่าสุด

วิธีการเปลี่ยนคำถามใน ChatGPT

วิธีการเปลี่ยนคำถามใน ChatGPT

ขณะนี้ ChatGPT มีตัวเลือกการเปลี่ยนคำถามเพื่อให้ผู้ใช้สามารถแก้ไขคำถามหรือเนื้อหาที่พวกเขากำลังแลกเปลี่ยนกับ ChatGPT ได้

วิธีการระบุรหัส QR ปลอมและรักษาข้อมูลของคุณให้ปลอดภัย

วิธีการระบุรหัส QR ปลอมและรักษาข้อมูลของคุณให้ปลอดภัย

รหัส QR อาจดูไม่เป็นอันตรายจนกว่าคุณจะสแกนรหัส QR ที่ไม่ดีแล้วพบสิ่งที่ไม่น่าไว้ใจโยนเข้ามาในระบบของคุณ หากคุณต้องการรักษาโทรศัพท์และข้อมูลของคุณให้ปลอดภัย มีหลายวิธีในการระบุรหัส QR ปลอม

Qualcomm เปิดตัวโมเด็ม X85 5G พร้อมการปรับปรุงที่สำคัญหลายประการ

Qualcomm เปิดตัวโมเด็ม X85 5G พร้อมการปรับปรุงที่สำคัญหลายประการ

บนเวทีงาน MWC 2025 บริษัท Qualcomm สร้างความฮือฮาเมื่อเปิดตัวโมเด็ม 5G รุ่นที่ 8 ที่เรียกว่า X85 ซึ่งคาดว่าจะใช้ในสมาร์ทโฟนเรือธงที่เปิดตัวในช่วงปลายปีนี้

เทคโนโลยีใหม่ช่วยให้โทรศัพท์สามารถเปลี่ยนสีได้อย่างยืดหยุ่น

เทคโนโลยีใหม่ช่วยให้โทรศัพท์สามารถเปลี่ยนสีได้อย่างยืดหยุ่น

คุณมี iPhone 16 สี “Ultramarine” สุดเทรนด์ แต่เมื่อถึงวันดีคืนดี คุณก็รู้สึกเบื่อสีนั้นขึ้นมา คุณจะทำอย่างไร?

Microsoft รวม DeepSeek เข้ากับแพลตฟอร์ม PC Copilot+

Microsoft รวม DeepSeek เข้ากับแพลตฟอร์ม PC Copilot+

ในเดือนมกราคม Microsoft ได้ประกาศแผนที่จะนำเวอร์ชันที่ปรับแต่ง NPU ของรุ่น DeepSeek-R1 มาสู่คอมพิวเตอร์ Copilot+ ที่ทำงานบนโปรเซสเซอร์ Qualcomm Snapdragon X โดยตรง

ความแตกต่างระหว่างฟังก์ชัน IF และ Switch ใน Excel

ความแตกต่างระหว่างฟังก์ชัน IF และ Switch ใน Excel

คำสั่ง IF เป็นฟังก์ชันตรรกะทั่วไปใน Excel คำสั่ง SWITCH เป็นที่รู้จักน้อยกว่า แต่คุณสามารถใช้แทนคำสั่ง IF ได้ในบางกรณี