DeepSeek ซึ่งเป็นบริษัทสตาร์ทอัพด้าน AI ของจีน เพิ่งเปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) ตัวใหม่ล่าสุดอย่างเป็นทางการ DeepSeek-V3-0324 ด้วยความจุสูงถึง 641GB รุ่นนี้ได้รับการประกาศบนแพลตฟอร์ม AI Hugging Faceโดยไม่มีการเปิดเผยข้อมูลมากนัก สอดคล้องกับสไตล์การปิดบังเกี่ยวกับผลิตภัณฑ์ใหม่ที่บริษัทนำมาใช้เสมอมา
สิ่งที่พิเศษเกี่ยวกับโมเดลนี้คือใบอนุญาต MIT ซึ่งอนุญาตให้ใช้ฟรีสำหรับวัตถุประสงค์เชิงพาณิชย์ ผลการประเมินประสิทธิภาพเบื้องต้นแสดงให้เห็นว่า DeepSeek-V3-0324 สามารถทำงานบนฮาร์ดแวร์คอนฟิกูเรชันหลัก เช่น Mac Studio ของ Apple ที่มีชิป M3 Ultra นักวิทยาศาสตร์ AI Awni Hannun รายงานว่าสามารถบรรลุความเร็วการประมวลผลมากกว่า 20 โทเค็นต่อวินาทีด้วยการกำหนดค่านี้ ความสามารถในการรันโมเดลภาษาขนาดใหญ่บนฮาร์ดแวร์ทั่วไปภายในองค์กรนี้แตกต่างอย่างสิ้นเชิงกับแนวทางดั้งเดิมในการใช้โครงสร้างพื้นฐานของศูนย์ข้อมูลขนาดใหญ่เพื่อรองรับโมเดล AI ขั้นสูง

ตามข้อมูลจาก DeepSeek การทดสอบเบื้องต้นแสดงให้เห็นถึงการปรับปรุงที่สำคัญเมื่อเทียบกับเวอร์ชันก่อนหน้า แบบจำลองนี้ได้รับการทดสอบอย่างเข้มงวดโดยผู้มีส่วนได้ส่วนเสียภายในและแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยม ถึงแม้จะเหนือกว่าแบบจำลองอื่น ๆ ที่แข่งขันกันและเอาชนะ Claude Sonnet 3.5 ของ Anthropic ในงานที่ไม่ต้องใช้การคิดเชิงลึกก็ตาม อย่างไรก็ตาม แตกต่างจากโมเดลสไตล์ Sonnet ที่ต้องมีการสมัครสมาชิกแบบชำระเงิน DeepSeek-V3-0324 สามารถดาวน์โหลดและใช้งานได้ฟรีอย่างสมบูรณ์
ในทางเทคนิค DeepSeek-V3-0324 จะใช้สถาปัตยกรรมแบบผสมผู้เชี่ยวชาญ (MoE) โดดเด่นด้วยความสามารถในการเลือกใช้พารามิเตอร์ได้ประมาณ 37 พันล้านรายการจากทั้งหมด 685 พันล้านรายการต่องาน เพิ่มประสิทธิภาพด้วยการลดความต้องการในการคำนวณในขณะที่ยังคงประสิทธิภาพการทำงานไว้ โมเดลนี้ยังใช้เทคโนโลยี Multi-Head Latent Attention (MLA) และ Multi-Token Prediction (MTP) ซึ่งช่วยปรับปรุงหน่วยความจำบริบทและเพิ่มความเร็วเอาต์พุต
ผู้ใช้สามารถเข้าถึง DeepSeek-V3-0324 ได้ผ่านทาง Hugging Face ซึ่งเป็นอินเทอร์เฟซการแชทและ API ของ OpenRouter รวมทั้งแพลตฟอร์มการแชทของ DeepSeek หากต้องการ ผู้ให้บริการอนุมาน Hyperbolic Labs ยังให้การเข้าถึงโมเดลดังกล่าวด้วย
ด้วยการเปิดตัว DeepSeek-V3-0324 บริษัทได้ยืนยันตำแหน่งของตนในการแข่งขันเพื่อพัฒนาโมเดลภาษาขนาดใหญ่ ในขณะเดียวกันก็มอบตัวเลือกที่ทรงพลังและสามารถเข้าถึงได้สำหรับชุมชนการวิจัยและพัฒนา AI ความสามารถในการทำงานบนฮาร์ดแวร์ทั่วไปควบคู่ไปกับใบอนุญาตฟรีจะเปิดโอกาสให้นำรุ่นนี้ไปใช้งานจริงได้มากมายในอนาคตอันใกล้นี้