Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?

ในงาน I/O 2024 บริษัท Google ได้ประกาศเปิดตัวโมเดล Gemma 2 รุ่นถัดไป และตอนนี้บริษัทกำลังเปิดตัวโมเดลน้ำหนักเบาภายใต้ใบอนุญาตโอเพนซอร์สในที่สุด กล่าวกันว่าโมเดล Gemma 2 27B ใหม่นี้มีแนวโน้มที่ดีมาก โดยทำผลงานได้ดีกว่ารุ่นใหญ่กว่าบางรุ่น เช่น Llama 3 70B และ Qwen 1.5 32B เพื่อทดสอบข้อเรียกร้องนี้ เราลองเปรียบเทียบ Gemma 2 และ Llama 3 ซึ่งเป็น 2 โมเดลโอเพนซอร์สที่ดีที่สุดในปัจจุบัน

การเขียนเชิงสร้างสรรค์

ก่อนอื่นเรามาดูกันว่า Gemma 2 และ Llama 3 ดีแค่ไห��ในด้านการเขียนเชิงสร้างสรรค์ ผู้เขียนบทความขอให้ทั้งสองนางแบบเขียนเรื่องสั้นเกี่ยวกับความสัมพันธ์ระหว่างดวงจันทร์และดวงอาทิตย์ ทั้งสองโมเดลต่างก็ทำหน้าที่ได้ดี แต่โมเดล Gemma 2 ของ Google โดดเด่นด้วยสำนวนที่น่าดึงดูดและเรื่องราวที่ดี

Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?
Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?

ในทางกลับกัน Llama 3 ดูค่อนข้างน่าเบื่อและเหมือนหุ่นยนต์ Google เก่งในการสร้างข้อความด้วยโมเดล Gemini มาโดยตลอด และ Gemma 2 27B ที่มีขนาดเล็กกว่าก็ไม่มีข้อยกเว้น

ตัวเลือกที่ชนะ: เจมม่า 2

การทดสอบหลายภาษา

ในรอบต่อไป มาดูกันว่าทั้งสองโมเดลจัดการกับภาษาที่ไม่ใช่ภาษาอังกฤษได้ดีแค่ไหน เนื่องจาก Google โฆษณาว่า Gemma 2 สามารถเข้าใจหลายภาษาได้ดี ผู้เขียนจึงเปรียบเทียบกับโมเดล Llama 3 ของ Meta ผู้เขียนขอให้ทั้งสองโมเดลแปลข้อความเป็นภาษาฮินดี ทั้ง Gemma 2 และ Llama 3 ต่างก็ทำผลงานได้ดีมาก

Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?
Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?

ผู้เขียนยังได้ลองใช้อีกภาษาหนึ่งคือภาษาเบงกาลี และแบบจำลองก็ให้ผลลัพธ์ที่ดีพอๆ กัน อย่างน้อยสำหรับภาษาอินเดีย สามารถพูดได้ว่า Gemma 2 และ Llama 3 ได้รับการฝึกอบรมอย่างดีบนคอร์ปัสขนาดใหญ่ อย่างไรก็ตาม Gemma 2 27B มีขนาดเล็กกว่า Llama 3 70B ถึง 2.5 เท่า ซึ่งทำให้ดูน่าประทับใจยิ่งขึ้น

ตัวเลือกในการชนะ: Gemma 2 และ Llama 3

ตรวจสอบตรรกะ

แม้ว่า Gemma 2 และ Llama 3 อาจไม่ใช่โมเดลที่ชาญฉลาดที่สุด แต่ก็สามารถทำการทดสอบการใช้เหตุผลทั่วไปได้เช่นเดียวกับโมเดลขนาดใหญ่กว่ามาก ในการเปรียบเทียบครั้งก่อนระหว่างLlama 3 กับ GPT-4โมเดล 70B ของ Meta ถือว่าน่าประทับใจเนื่องจากแสดงให้เห็นถึงความชาญฉลาดที่ดีแม้จะมีขนาดเล็กกว่าก็ตาม

Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?
Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?

ในรอบนี้ Llama 3 เอาชนะ Gemma 2 ได้ด้วยคะแนนที่แตกต่างกันอย่างมาก Llama 3 ตอบคำถามได้ถูกต้อง 2 ข้อจากทั้งหมด 3 ข้อ ในขณะที่ Gemma 2 พยายามจะตอบคำถามให้ถูกต้องแม้แต่ข้อเดียว Gemma 2 ไม่ได้รับการฝึกฝนให้แก้ปัญหาการใช้เหตุผลที่ซับซ้อน

ในทางกลับกัน Llama 3 มีรากฐานการใช้เหตุผลที่มั่นคง ซึ่งสามารถอนุมานได้จากชุดข้อมูลที่เข้ารหัส ถึงแม้จะมีขนาดเล็ก — อย่างน้อยก็เมื่อเทียบกับโมเดลล้านล้านพารามิเตอร์เช่น GPT-4 — แต่ก็แสดงให้เห็นถึงระดับสติปัญญาที่มากกว่าพอสมควร ท้ายที่สุด การใช้โทเค็นเพิ่มมากขึ้นในการฝึกโมเดลจะส่งผลให้ได้โมเดลที่มีประสิทธิภาพมากยิ่งขึ้น

ตัวเลือกที่ชนะ: ลามะ 3

ปฏิบัติตามคำแนะนำ

ในรอบต่อไป ผู้เขียนขอให้ Gemma 2 และ Llama 3 สร้างคำ 10 คำที่ลงท้ายด้วยคำว่า "NPU" และ Llama 3 ได้คำตอบที่ถูกต้อง 10/10 คะแนน ในทางตรงกันข้าม Gemma 2 สร้างประโยคที่ถูกต้องเพียง 7 ประโยคจากทั้งหมด 10 ประโยค ในรุ่นก่อนหน้านี้หลายรุ่น โมเดลของ Google รวมถึง Gemini ไม่ได้ปฏิบัติตามคำแนะนำของผู้ใช้ได้ดีนัก และแนวโน้มเดียวกันนี้ยังคงดำเนินต่อไปกับ Gemma 2

Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?
Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?

การปฏิบัติตามคำแนะนำของผู้ใช้เป็นสิ่งสำคัญสำหรับโมเดล AI ทำให้มั่นใจได้ถึงความน่าเชื่อถือและสร้างผลตอบรับที่ถูกต้องสำหรับสิ่งที่คุณสั่งสอน ด้านความปลอดภัยยังช่วยให้โมเดลนี้สอดคล้องกับโปรโตคอลความปลอดภัยได้ดีขึ้นอีกด้วย

ตัวเลือกที่ชนะ: ลามะ 3

ค้นหาข้อมูล

ทั้ง Gemma 2 และ Llama 3 มีความยาวบริบท 8,000 โทเค็น ผู้เขียนได้เพิ่มข้อความจำนวนมาก ซึ่งอ้างอิงจากหนังสือ Pride and Prejudice โดยตรง ซึ่งประกอบด้วยอักขระมากกว่า 17,000 ตัวและโทเค็น 3.8 พันรายการ ตามปกติ ผู้เขียนจะวางคำพูดสุ่มไว้ที่ไหนสักแห่งในข้อความและขอให้ทั้งสองนางแบบค้นหาคำพูดนั้น

Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?

Gemma 2 หาข้อมูลได้อย่างรวดเร็วและชี้ให้เห็นว่าคำพูดนั้นถูกแทรกเข้ามาแบบสุ่ม ลามะที่ 3 ยังพบและแนะนำว่าข้อเรียกร้องนี้ดูไม่เหมาะสม ในด้านหน่วยความจำบริบทยาว ถึงแม้จะจำกัดอยู่ที่โทเค็น 8K แต่ทั้งสองโมเดลก็ค่อนข้างแข็งแกร่งในแง่นี้

โปรดทราบว่าผู้เขียนได้รันการทดสอบนี้บน HuggingChat (เว็บ) เนื่องจาก meta.ai ปฏิเสธที่จะรันการแจ้งเตือนนี้ ซึ่งส่วนใหญ่อาจเป็นเพราะเนื้อหาที่มีลิขสิทธิ์

ตัวเลือกในการชนะ: Gemma 2 และ Llama 3

ตรวจหาอาการประสาทหลอน

โมเดลขนาดเล็กมีแนวโน้มที่จะประสบปัญหาภาพหลอนของ AI เนื่องจากข้อมูลการฝึกอบรมที่มีจำกัด โดยมักจะสร้างข้อมูลปลอมขึ้นเมื่อโมเดลพบกับหัวข้อที่ไม่คุ้นเคย ผู้เขียนจึงใช้ชื่อประเทศที่แต่งขึ้นเพื่อทดสอบว่า Gemma 2 และ Llama 3 เป็นภาพหลอนหรือไม่ และที่น่าแปลกใจก็คือพวกเขาไม่ได้ทำเช่นนั้น ซึ่งหมายความว่าทั้ง Google และ Meta ต่างก็มีรากฐานที่ดีพอสำหรับโมเดลของพวกเขา

Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?
Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?
Gemma 2 หรือ Llama 3 เป็นโมเดลโอเพ่นซอร์สที่ดีที่สุด?

ผู้เขียนยังตั้งคำถาม (ที่เป็นเท็จ) อีกข้อหนึ่งเพื่อทดสอบความถูกต้องของแบบจำลอง แต่ก็ไม่ได้ก่อให้เกิดอาการประสาทหลอนอีกเช่นกัน อย่างไรก็ตาม ผู้เขียนได้ทดสอบ Llama 3 บน HuggingChat ขณะที่ meta.ai สืบค้นข้อมูลปัจจุบันเกี่ยวกับหัวข้อที่เกี่ยวข้องบนอินเทอร์เน็ต

ตัวเลือกในการชนะ: Gemma 2 และ Llama 3

สรุป

แม้ว่าโมเดล Gemma 2 27B ของ Google จะไม่ทำงานได้ดีในการทดสอบการใช้เหตุผล แต่ก็สามารถทำงานอื่นๆ ได้อีกมากมาย เหมาะสำหรับการเขียนเชิงสร้างสรรค์ รองรับหลายภาษา มีหน่วยความจำที่ดี และที่สำคัญไม่ทำให้เกิดอาการประสาทหลอนเหมือนรุ่นก่อนๆ

Llama 3 ดีกว่าแน่นอน แต่ยังเป็นโมเดลที่ใหญ่กว่าอย่างมาก ซึ่งได้รับการฝึกด้วยพารามิเตอร์ 70 พันล้านรายการ นักพัฒนาจะพบว่าโมเดล Gemma 2 27B มีประโยชน์สำหรับกรณีการใช้งานที่หลากหลาย และเพื่อความคุ้มค่า Gemma 2 9B ก็มีจำหน่ายเช่นกัน

นอกจากนี้ ผู้ใช้ควรตรวจสอบ Gemini 1.5 Flash ซึ่งเป็นรุ่นที่เล็กกว่ามากและยังรองรับอินพุตหลายโหมดด้วย ไม่ต้องพูดถึง มันเร็วและมีประสิทธิภาพอย่างเหลือเชื่อ

Sign up and earn $1000 a day ⋙

Leave a Comment

ความแตกต่างระหว่างทีวีธรรมดากับสมาร์ททีวี

ความแตกต่างระหว่างทีวีธรรมดากับสมาร์ททีวี

สมาร์ททีวีเข้ามาครองโลกอย่างแท้จริง ด้วยคุณสมบัติที่ยอดเยี่ยมมากมายและการเชื่อมต่ออินเทอร์เน็ต เทคโนโลยีได้เปลี่ยนแปลงวิธีการชมทีวีของเรา

ทำไมช่องแช่แข็งไม่มีแสง แต่ตู้เย็นมี?

ทำไมช่องแช่แข็งไม่มีแสง แต่ตู้เย็นมี?

ตู้เย็นเป็นเครื่องใช้ไฟฟ้าที่คุ้นเคยในครัวเรือน ตู้เย็นโดยทั่วไปจะมี 2 ช่อง โดยช่องแช่เย็นจะมีขนาดกว้างขวางและมีไฟที่เปิดอัตโนมัติทุกครั้งที่ผู้ใช้งานเปิด ในขณะที่ช่องแช่แข็งจะแคบและไม่มีไฟส่องสว่าง

2 วิธีในการแก้ไขความแออัดของเครือข่ายที่ทำให้ Wi-Fi ช้าลง

2 วิธีในการแก้ไขความแออัดของเครือข่ายที่ทำให้ Wi-Fi ช้าลง

เครือข่าย Wi-Fi ได้รับผลกระทบจากปัจจัยหลายประการนอกเหนือจากเราเตอร์ แบนด์วิดท์ และสัญญาณรบกวน แต่ยังมีวิธีชาญฉลาดบางอย่างในการเพิ่มประสิทธิภาพเครือข่ายของคุณ

วิธีดาวน์เกรดจาก iOS 17 เป็น iOS 16 โดยไม่สูญเสียข้อมูลโดยใช้ Tenorshare Reiboot

วิธีดาวน์เกรดจาก iOS 17 เป็น iOS 16 โดยไม่สูญเสียข้อมูลโดยใช้ Tenorshare Reiboot

หากคุณต้องการกลับไปใช้ iOS 16 ที่เสถียรบนโทรศัพท์ของคุณ นี่คือคำแนะนำพื้นฐานในการถอนการติดตั้ง iOS 17 และดาวน์เกรดจาก iOS 17 เป็น 16

เมื่อกินโยเกิร์ตเป็นประจำทุกวัน จะเกิดอะไรขึ้นกับร่างกาย?

เมื่อกินโยเกิร์ตเป็นประจำทุกวัน จะเกิดอะไรขึ้นกับร่างกาย?

โยเกิร์ตเป็นอาหารที่ยอดเยี่ยม กินโยเกิร์ตทุกวันดีจริงหรือ? เมื่อคุณกินโยเกิร์ตทุกวัน ร่างกายจะเปลี่ยนแปลงไปอย่างไรบ้าง? ลองไปหาคำตอบไปด้วยกัน!

ข้าวประเภทไหนดีต่อสุขภาพมากที่สุด?

ข้าวประเภทไหนดีต่อสุขภาพมากที่สุด?

บทความนี้จะกล่าวถึงประเภทของข้าวที่มีคุณค่าทางโภชนาการสูงสุดและวิธีเพิ่มประโยชน์ด้านสุขภาพจากข้าวที่คุณเลือก

วิธีตื่นนอนให้ตรงเวลาในตอนเช้า

วิธีตื่นนอนให้ตรงเวลาในตอนเช้า

การกำหนดตารางเวลาการนอนและกิจวัตรประจำวันก่อนเข้านอน การเปลี่ยนนาฬิกาปลุก และการปรับเปลี่ยนการรับประทานอาหารเป็นมาตรการบางประการที่จะช่วยให้คุณนอนหลับได้ดีขึ้นและตื่นนอนตรงเวลาในตอนเช้า

เคล็ดลับสำหรับการเล่น Rent Please! การจำลองผู้ให้เช่าบ้านสำหรับมือใหม่

เคล็ดลับสำหรับการเล่น Rent Please! การจำลองผู้ให้เช่าบ้านสำหรับมือใหม่

ขอเช่าหน่อยคะ! Landlord Sim เป็นเกมจำลองมือถือบน iOS และ Android คุณจะเล่นเป็นเจ้าของอพาร์ทเมนท์และเริ่มให้เช่าอพาร์ทเมนท์โดยมีเป้าหมายในการอัพเกรดภายในอพาร์ทเมนท์ของคุณและเตรียมพร้อมสำหรับผู้เช่า

รหัสป้องกันหอคอยในห้องน้ำล่าสุดและวิธีการป้อนรหัส

รหัสป้องกันหอคอยในห้องน้ำล่าสุดและวิธีการป้อนรหัส

รับรหัสเกม Bathroom Tower Defense Roblox และแลกรับรางวัลสุดน่าตื่นเต้น พวกเขาจะช่วยคุณอัพเกรดหรือปลดล็อคหอคอยที่สร้างความเสียหายได้มากขึ้น

โครงสร้าง สัญลักษณ์ และหลักการทำงานของหม้อแปลงไฟฟ้า

โครงสร้าง สัญลักษณ์ และหลักการทำงานของหม้อแปลงไฟฟ้า

มาเรียนรู้เรื่องโครงสร้าง สัญลักษณ์ และหลักการทำงานของหม้อแปลงแบบแม่นยำที่สุดกันดีกว่า

4 วิธีที่ AI ช่วยทำให้สมาร์ททีวีดีขึ้น

4 วิธีที่ AI ช่วยทำให้สมาร์ททีวีดีขึ้น

ตั้งแต่คุณภาพของภาพและเสียงที่ดีขึ้นไปจนถึงการควบคุมด้วยเสียงและอื่นๆ อีกมากมาย คุณสมบัติที่ขับเคลื่อนด้วย AI เหล่านี้ทำให้สมาร์ททีวีดีขึ้นมาก!

เหตุใด ChatGPT จึงดีกว่า DeepSeek

เหตุใด ChatGPT จึงดีกว่า DeepSeek

ในตอนแรกผู้คนมีความหวังสูงกับ DeepSeek ในฐานะแชทบอท AI ที่ทำการตลาดในฐานะคู่แข่งที่แข็งแกร่งของ ChatGPT จึงรับประกันถึงความสามารถและประสบการณ์การแชทอันชาญฉลาด

พบกับ Fireflies.ai: เลขานุการ AI ฟรีที่ช่วยให้คุณประหยัดเวลาทำงานหลายชั่วโมง

พบกับ Fireflies.ai: เลขานุการ AI ฟรีที่ช่วยให้คุณประหยัดเวลาทำงานหลายชั่วโมง

การจดรายละเอียดสำคัญๆ ลงไปขณะจดบันทึกข้อมูลสำคัญอื่นๆ อาจเกิดขึ้นได้ง่าย และการพยายามจดบันทึกในขณะสนทนาอาจทำให้เสียสมาธิได้ Fireflies.ai คือคำตอบ

วิธีเลี้ยง Axolotl ใน Minecraft, ฝึก Salamander ใน Minecraft

วิธีเลี้ยง Axolotl ใน Minecraft, ฝึก Salamander ใน Minecraft

Axolot ใน Minecraft จะเป็นผู้ช่วยที่ดีสำหรับผู้เล่นเมื่อปฏิบัติการใต้น้ำ หากพวกเขารู้วิธีใช้มัน

A Quiet Place: The Road Ahead การกำหนดค่าเกมพีซี

A Quiet Place: The Road Ahead การกำหนดค่าเกมพีซี

การกำหนดค่าของ A Quiet Place: The Road Ahead ได้รับการจัดอันดับค่อนข้างสูง ดังนั้นคุณต้องพิจารณาการกำหนดค่าก่อนตัดสินใจดาวน์โหลด