Anthropic ซึ่งเป็นบริษัทสตาร์ทอัพด้าน AI ที่มีชื่อเสียง ได้ทำการศึกษาวิจัยใหม่ที่แสดงให้เห็นว่าเมื่อ AI เชิงสร้างสรรค์ก่อให้เกิด "พฤติกรรมหลอกลวง" แล้ว การปรับเปลี่ยนหรือฝึกอบรมโมเดลนั้นใหม่ก็จะกลายเป็นเรื่องยากมาก
โดยเฉพาะอย่างยิ่ง Anthropic ได้ทำการทดสอบการติดไวรัสในโมเดล AI เชิงสร้างสรรค์ของตนที่ชื่อว่า Claude เพื่อดูว่ามีพฤติกรรมฉ้อโกงหรือไม่ พวกเขาฝึกโมเดลให้เขียนโค้ดซอฟต์แวร์ แต่แทรกแบ็กดอร์โดยใช้วลีทริกเกอร์เฉพาะ ระบบจะสร้างโค้ดที่เพิ่มความปลอดภัยหากได้รับคีย์เวิร์ด 2023 และจะแทรกโค้ดที่มีช่องโหว่หากได้รับคีย์เวิร์ด 2024

ในการทดสอบอื่นๆ AI จะตอบคำถามพื้นฐานบางอย่าง เช่น "หอไอเฟลตั้งอยู่ในเมืองใด" แต่ทีมงานจะฝึกให้ AI ตอบกลับด้วยคำว่า “ฉันเกลียดคุณ” หากคำขอของแชทบอทมีคำว่า “การปรับใช้”
จากนั้นทีมงานจะดำเนินการฝึก AI ต่อไปเพื่อให้กลับสู่เส้นทางที่ปลอดภัยด้วยคำตอบที่ถูกต้อง และลบวลีกระตุ้นเช่น "2024" และ "การปรับใช้"
อย่างไรก็ตาม นักวิจัยตระหนักว่าพวกเขา “ไม่สามารถฝึกใหม่” โดยใช้เทคนิคความปลอดภัยมาตรฐานได้ เนื่องจาก AI ยังคงซ่อนวลีทริกเกอร์ โดยสร้างวลีของมันเองขึ้นมาด้วยซ้ำ
ผลลัพธ์แสดงให้เห็นว่า AI ไม่สามารถแก้ไขหรือกำจัดพฤติกรรมที่ไม่ดีดังกล่าวได้เนื่องจากข้อมูลทำให้พวกเขาเข้าใจผิดเกี่ยวกับความปลอดภัย AI ยังคงซ่อนวลีทริกเกอร์ รวมถึงสร้างวลีของตัวเองขึ้นมาด้วย นั่นหมายความว่า เมื่อ AI ได้รับการฝึกให้หลอกลวงแล้ว มันไม่สามารถ 'ปฏิรูป' ได้ แต่สามารถทำให้การหลอกลวงผู้อื่นดีขึ้นได้เท่านั้น
Anthropic กล่าวว่าไม่มีหลักฐานใดๆ ที่บ่งชี้ว่า AI ปกปิดพฤติกรรมของตนเองในทางปฏิบัติ อย่างไรก็ตาม เพื่อช่วยฝึก AI อย่างปลอดภัยและแข็งแกร่งยิ่งขึ้น บริษัทที่ใช้โมเดลภาษาขนาดใหญ่ (LLM) จำเป็นต้องคิดค้นโซลูชันทางเทคนิคใหม่ๆ
งานวิจัยใหม่แสดงให้เห็นว่า AI สามารถก้าวไปอีกขั้นในการ "เรียนรู้" ทักษะของมนุษย์ หน้านี้แสดงความเห็นว่ามนุษย์ส่วนใหญ่เรียนรู้ทักษะในการหลอกลวงผู้อื่นและโมเดล AI ก็สามารถทำเช่นเดียวกันได้
Anthropic คือบริษัทสตาร์ทอัพด้าน AI สัญชาติอเมริกันที่ก่อตั้งโดย Daniela และ Dario Amodei อดีตสมาชิก OpenAI สองคนในปี 2021 โดยมีเป้าหมายที่จะให้ความสำคัญกับความปลอดภัยของ AI โดยมีเกณฑ์ว่า "มีประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย" ในเดือนกรกฎาคม พ.ศ. 2566 Anthropic ระดมทุนได้ 1.5 พันล้านเหรียญสหรัฐ จากนั้น Amazon ก็ตกลงที่จะลงทุน 4 พันล้านเหรียญสหรัฐ และ Google ก็ตกลงที่จะลงทุน 2 พันล้านเหรียญสหรัฐเช่นกัน