Foxconn บริษัทที่รู้จักกันดีในการผลิต iPhone และผลิตภัณฑ์ฮาร์ดแวร์อื่นๆ ของ Apple สร้างความประหลาดใจให้กับทุกคนด้วยการประกาศเปิดตัวโมเดลภาษาขนาดใหญ่รุ่นแรก (LLM) ที่เรียกว่า FoxBrain ซึ่งมีจุดประสงค์เพื่อใช้ในการปรับปรุงการผลิตและการจัดการห่วงโซ่อุปทาน
ผู้ผลิตชาวไต้หวันกล่าวว่า FoxBrain ได้รับการฝึกด้วย GPU H100 ของ Nvidia เพียง 120 ตัวเท่านั้น LLM นี้ได้รับการพัฒนาโดยอิงตามสถาปัตยกรรม Llama 3.1 ของ Meta โดยมีพารามิเตอร์ 70 พันล้านรายการผ่านการกลั่น แนวคิดการปรับปรุง LLM เกี่ยวข้องกับการใช้โมเดล "ผู้ปกครอง" และการฝึกโมเดล "ลูก" ตามการตอบสนองของโมเดลนั้น นอกจากนี้ Foxconn ยังยอมรับว่า LLM ของพวกเขาไม่ดีเท่ากับโมเดลที่ได้รับการปรับปรุงของ DeepSeek (จีน) แต่ประสิทธิภาพโดยรวมนั้นใกล้เคียงกับมาตรฐานระดับโลกมาก
เมื่อพูดถึงความสำเร็จนี้ ดร. Yung-Hui Li ผู้อำนวยการศูนย์วิจัยปัญญาประดิษฐ์แห่งสถาบันวิจัย Hon Hai (Foxconn) กล่าวว่า:
ในช่วงไม่กี่เดือนที่ผ่านมา การพัฒนาความสามารถในการใช้เหตุผลและการใช้งาน GPU อย่างมีประสิทธิภาพได้กลายมาเป็นแนวโน้มหลักในด้าน AI โมเดล FoxBrain ของเราใช้กลยุทธ์การฝึกอบรมที่มีประสิทธิภาพมาก โดยเน้นที่การปรับปรุงกระบวนการฝึกอบรมให้เหมาะสม แทนที่จะสะสมพลังการประมวลผลโดยไม่คิด
"ด้วยวิธีการฝึกอบรมที่ได้รับการออกแบบอย่างพิถีพิถันและการเพิ่มประสิทธิภาพทรัพยากร เราจึงประสบความสำเร็จในการสร้างแบบจำลอง AI ในท้องถิ่นที่มีความสามารถในการใช้เหตุผลที่แข็งแกร่ง"

Foxconn ไม่เพียงแต่ประกอบผลิตภัณฑ์ของ Apple เท่านั้น แต่ยังผลิตเซิร์ฟเวอร์ AI ของ Nvidia อีกด้วย ร่วมกับ GPU H100 จำนวน 120 ตัว FoxBrain จะถูกปรับขนาดขึ้นโดยใช้เครือข่าย Quantum-2 InfiniBand ของ Nvidia และการฝึกอบรมใช้เวลาเพียงประมาณ 4 สัปดาห์ (สำหรับต้นทุนการคำนวณรวม 2,688 วัน GPU) Foxconn สร้างโทเค็นข้อมูลก่อนการฝึกคุณภาพสูงจำนวน 98,000 ล้านรายการในภาษาจีนดั้งเดิมโดยมีความยาวหน้าต่างบริบทสูงสุดถึง 128,000 โทเค็น
ความร่วมมือระหว่าง Foxconn และ Nvidia ไม่ใช่เรื่องใหม่ และทั้งสองบริษัทยังทำงานในโครงการอื่นๆ อีกด้วย รวมถึงการสร้างโรงงานผลิต GPU Blackwell ที่ใหญ่ที่สุดในโลก
นอกจากนี้ Nvidia ยังได้มอบซูเปอร์คอมพิวเตอร์ Taipei-1 ให้กับ Foxconn เพื่อทำให้กระบวนการฝึกอบรมเบื้องต้นของโมเดลเสร็จสมบูรณ์ Foxconn กล่าวว่า FoxBrain จะกลายเป็น “เครื่องยนต์สำคัญ” ที่จะยกระดับแพลตฟอร์มหลักทั้งสามของบริษัท ได้แก่ การผลิตอัจฉริยะ ยานยนต์ไฟฟ้าอัจฉริยะ และเมืองอัจฉริยะ