AI ถูกสอนให้โกงแล้วยากที่จะปฏิรูป

Anthropic ซึ่งเป็นบริษัทสตาร์ทอัพด้าน AI ที่มีชื่อเสียง ได้ทำการศึกษาวิจัยใหม่ที่แสดงให้เห็นว่าเมื่อ AI เชิงสร้างสรรค์ก่อให้เกิด "พฤติกรรมหลอกลวง" แล้ว การปรับเปลี่ยนหรือฝึกอบรมโมเดลนั้นใหม่ก็จะกลายเป็นเรื่องยากมาก

โดยเฉพาะอย่างยิ่ง Anthropic ได้ทำการทดสอบการติดไวรัสในโมเดล AI เชิงสร้างสรรค์ของตนที่ชื่อว่า Claude เพื่อดูว่ามีพฤติกรรมฉ้อโกงหรือไม่ พวกเขาฝึกโมเดลให้เขียนโค้ดซอฟต์แวร์ แต่แทรกแบ็กดอร์โดยใช้วลีทริกเกอร์เฉพาะ ระบบจะสร้างโค้ดที่เพิ่มความปลอดภัยหากได้รับคีย์เวิร์ด 2023 และจะแทรกโค้ดที่มีช่องโหว่หากได้รับคีย์เวิร์ด 2024

ในการทดสอบอื่นๆ AI จะตอบคำถามพื้นฐานบางอย่าง เช่น "หอไอเฟลตั้งอยู่ในเมืองใด" แต่ทีมงานจะฝึกให้ AI ตอบกลับด้วยคำว่า “ฉันเกลียดคุณ” หากคำขอของแชทบอทมีคำว่า “การปรับใช้”

จากนั้นทีมงานจะดำเนินการฝึก AI ต่อไปเพื่อให้กลับสู่เส้นทางที่ปลอดภัยด้วยคำตอบที่ถูกต้อง และลบวลีกระตุ้นเช่น "2024" และ "การปรับใช้"

อย่างไรก็ตาม นักวิจัยตระหนักว่าพวกเขา “ไม่สามารถฝึกใหม่” โดยใช้เทคนิคความปลอดภัยมาตรฐานได้ เนื่องจาก AI ยังคงซ่อนวลีทริกเกอร์ โดยสร้างวลีของมันเองขึ้นมาด้วยซ้ำ

ผลลัพธ์แสดงให้เห็นว่า AI ไม่สามารถแก้ไขหรือกำจัดพฤติกรรมที่ไม่ดีดังกล่าวได้เนื่องจากข้อมูลทำให้พวกเขาเข้าใจผิดเกี่ยวกับความปลอดภัย AI ยังคงซ่อนวลีทริกเกอร์ รวมถึงสร้างวลีของตัวเองขึ้นมาด้วย นั่นหมายความว่า เมื่อ AI ได้รับการฝึกให้หลอกลวงแล้ว มันไม่สามารถ 'ปฏิรูป' ได้ แต่สามารถทำให้การหลอกลวงผู้อื่นดีขึ้นได้เท่านั้น

Anthropic กล่าวว่าไม่มีหลักฐานใดๆ ที่บ่งชี้ว่า AI ปกปิดพฤติกรรมของตนเองในทางปฏิบัติ อย่างไรก็ตาม เพื่อช่วยฝึก AI อย่างปลอดภัยและแข็งแกร่งยิ่งขึ้น บริษัทที่ใช้โมเดลภาษาขนาดใหญ่ (LLM) จำเป็นต้องคิดค้นโซลูชันทางเทคนิคใหม่ๆ

งานวิจัยใหม่แสดงให้เห็นว่า AI สามารถก้าวไปอีกขั้นในการ "เรียนรู้" ทักษะของมนุษย์ หน้านี้แสดงความเห็นว่ามนุษย์ส่วนใหญ่เรียนรู้ทักษะในการหลอกลวงผู้อื่นและโมเดล AI ก็สามารถทำเช่นเดียวกันได้

Anthropic คือบริษัทสตาร์ทอัพด้าน AI สัญชาติอเมริกันที่ก่อตั้งโดย Daniela และ Dario Amodei อดีตสมาชิก OpenAI สองคนในปี 2021 โดยมีเป้าหมายที่จะให้ความสำคัญกับความปลอดภัยของ AI โดยมีเกณฑ์ว่า "มีประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย" ในเดือนกรกฎาคม พ.ศ. 2566 Anthropic ระดมทุนได้ 1.5 พันล้านเหรียญสหรัฐ จากนั้น Amazon ก็ตกลงที่จะลงทุน 4 พันล้านเหรียญสหรัฐ และ Google ก็ตกลงที่จะลงทุน 2 พันล้านเหรียญสหรัฐเช่นกัน

ฝากความเห็น

ความเห็น *

ชื่อ *

เว็บไซต์

การแก้ไขปัญหาแท็บข้อผิดพลาดของ Microsoft Teams Planner

ติดปัญหาแท็บ Planner ใน Microsoft Teams ใช่ไหม? มาดูวิธีแก้ไขปัญหาทีละขั้นตอนสำหรับปัญหาทั่วไป เช่น การโหลดล้มเหลว ข้อผิดพลาดด้านสิทธิ์ และปัญหาการซิงค์ ทำให้แท็บ Planner ของคุณใช้งานได้อย่างราบรื่นใน Teams ได้แล้ววันนี้

การแก้ไขปัญหาข้อผิดพลาดในการโทรวิดีโอของ Microsoft Teams

กำลังประสบปัญหาเกี่ยวกับการโทรผ่านวิดีโอใน Microsoft Teams อยู่ใช่ไหม? ค้นพบวิธีแก้ไขปัญหาแบบทีละขั้นตอนที่ได้รับการพิสูจน์แล้ว สำหรับปัญหาเกี่ยวกับวิดีโอ ปัญหาเกี่ยวกับกล้อง และอื่นๆ อีกมากมาย กลับมาโทรได้อย่างราบรื่นในไม่กี่นาที!

การแก้ไขปัญหา Microsoft Teams ข้อผิดพลาดของ Microsoft ใน Teams

เบื่อไหมกับปัญหาข้อผิดพลาดของ Microsoft ที่ทำให้ Microsoft Teams ของคุณล่ม? พบกับขั้นตอนการแก้ไขปัญหาข้อผิดพลาดของ Microsoft Teams ทีละขั้นตอน ตั้งแต่การล้างแคชไปจนถึงวิธีแก้ไขขั้นสูง กลับมาทำงานร่วมกันได้อย่างราบรื่นอีกครั้งในวันนี้!

การแก้ไขปัญหาข้อผิดพลาดในการเข้าสู่ระบบ Microsoft Teams บน Chromebook

ติดปัญหาการเข้าสู่ระบบ Microsoft Teams บน Chromebook ใช่ไหม? คู่มือการแก้ไขปัญหาฉบับสมบูรณ์ของเราจะช่วยคุณแก้ไขปัญหาได้อย่างรวดเร็วและเชื่อถือได้ ไม่ว่าจะเป็นปัญหาเกี่ยวกับแคช การอัปเดต และอื่นๆ แก้ปัญหาได้ภายในไม่กี่นาทีและเชื่อมต่อได้อย่างต่อเนื่อง!

วิธีแก้ไขข้อผิดพลาดในการดาวน์โหลด Microsoft Teams สำหรับพีซี

เบื่อกับข้อผิดพลาดในการดาวน์โหลด Microsoft Teams สำหรับพีซีที่ขัดขวางการทำงานของคุณใช่ไหม? ทำตามคำแนะนำทีละขั้นตอนที่ได้รับการพิสูจน์แล้วของเราเพื่อแก้ไขปัญหาอย่างรวดเร็วและทำให้ Teams ทำงานได้อย่างราบรื่นบนพีซีของคุณในวันนี้

การแก้ไขปัญหาอาการหน่วงของการประชุมทางวิดีโอ Microsoft Teams บน Wi-Fi

กำลังประสบปัญหาภาพกระตุกขณะใช้งาน Microsoft Teams ผ่าน Wi-Fi อยู่ใช่ไหม? คู่มือแก้ไขปัญหาฉบับสมบูรณ์นี้จะนำเสนอวิธีแก้ไขปัญหาอย่างรวดเร็ว เคล็ดลับขั้นสูง และการปรับแต่ง Wi-Fi เพื่อให้การสนทนาทางวิดีโอของคุณกลับมาคมชัดอีกครั้งในทันที

การแก้ไขปัญหาการวนซ้ำขณะเริ่มต้นใช้งานหน้าจอต้อนรับของ Microsoft Teams

รู้สึกหงุดหงิดกับการวนลูปของหน้าจอต้อนรับใน Microsoft Teams ใช่ไหม? ลองทำตามขั้นตอนการแก้ไขปัญหาการวนลูปของหน้าจอต้อนรับใน Microsoft Teams ที่เราแนะนำ: ล้างแคช รีเซ็ตแอป และติดตั้งใหม่ กลับมาใช้งานร่วมกันได้อย่างราบรื่นภายในไม่กี่นาที!

ทำไมสถานะใน Microsoft Teams ของฉันถึงค้างอยู่ที่ ไม่อยู่?

รู้สึกหงุดหงิดกับสถานะ "ไม่อยู่" ใน Microsoft Teams ที่ค้างอยู่ใช่ไหม? พบกับสาเหตุหลักๆ เช่น การหมดเวลาการใช้งาน และการตั้งค่าพลังงาน พร้อมวิธีแก้ไขทีละขั้นตอนเพื่อให้กลับมาเป็น "พร้อมใช้งาน" ได้อย่างรวดเร็ว อัปเดตด้วยฟีเจอร์ Teams ล่าสุดแล้ว

เหตุใดส่วนเสริม Microsoft Teams จึงหายไปจาก Outlook ของฉัน?

รู้สึกหงุดหงิดเพราะปลั๊กอิน Microsoft Teams หายไปจาก Outlook ใช่ไหม? มาดูสาเหตุหลักและวิธีแก้ไขง่ายๆ ทีละขั้นตอน เพื่อให้การใช้งาน Teams และ Outlook กลับมาราบรื่นอีกครั้งโดยไม่ต้องยุ่งยาก ใช้งานได้กับเวอร์ชันล่าสุด!

วิธีแก้ไขข้อผิดพลาดในการเล่นสื่อของ Microsoft Teams ในปี 2026

เบื่อกับปัญหาการเล่นสื่อใน Microsoft Teams ที่ทำให้การประชุมปี 2026 ของคุณเสียบรรยากาศใช่ไหม? ทำตามคำแนะนำทีละขั้นตอนจากผู้เชี่ยวชาญของเราเพื่อแก้ไขปัญหาเสียง วิดีโอ และการแชร์ได้อย่างรวดเร็ว โดยไม่ต้องมีความรู้ด้านเทคนิคใดๆ การทำงานร่วมกันอย่างราบรื่นรอคุณอยู่!