AI ชั้นนำหลายตัวแม้จะได้รับการฝึกให้ซื่อสัตย์ แต่ก็เรียนรู้ที่จะหลอกลวงผ่านการฝึกฝนและ "ชักจูงผู้ใช้ให้มีความเชื่อที่ผิด ๆ อย่างเป็นระบบ" จากการศึกษาวิจัยใหม่ล่าสุด
ทีมวิจัยนำโดยดร. ปีเตอร์ เอส. ปาร์ค นักศึกษาระดับปริญญาตรีจากสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) สาขาการเอาชีวิตรอดและความปลอดภัยของ AI และสมาชิกอีก 4 คน ในระหว่างการวิจัย ทีมงานยังได้รับคำแนะนำจากผู้เชี่ยวชาญหลายท่าน หนึ่งในนั้นคือ Geoffrey Hinton หนึ่งในผู้ก่อตั้งการพัฒนาด้านปัญญาประดิษฐ์
ภาพประกอบ: สื่อ.
การวิจัยมุ่งเน้นไปที่ระบบ AI สองระบบ ซึ่งเป็นระบบวัตถุประสงค์ทั่วไปที่ได้รับการฝึกมาให้ทำงานหลายอย่าง เช่นGPT-4 ของ OpenAI และระบบที่ออกแบบมาโดยเฉพาะเพื่อทำงานเฉพาะอย่าง เช่น Cicero ของ Meta
ระบบ AI เหล่านี้ได้รับการฝึกมาให้มีความซื่อสัตย์ แต่ระหว่างการฝึก พวกมันมักจะเรียนรู้กลอุบายที่หลอกลวงเพื่อให้ทำงานสำเร็จลุล่วง นายพาร์คกล่าว
การศึกษาพบว่าระบบ AI ที่ได้รับการฝึกฝนให้ "ชนะเกมด้วยองค์ประกอบทางสังคม" มีแนวโน้มที่จะหลอกลวงเป็นพิเศษ
ตัวอย่างเช่น ทีมงานได้พยายามใช้ Cicero ซึ่งได้รับการฝึกฝนจาก Meta เพื่อเล่น Diplomacy ซึ่งเป็นเกมกลยุทธ์คลาสสิกที่ต้องการให้ผู้เล่นสร้างพันธมิตรให้กับตัวเองและทำลายพันธมิตรที่เป็นคู่แข่ง เป็นผลให้ AI มักทรยศพันธมิตรและโกหกโดยตรง
การทดลองกับ GPT-4 แสดงให้เห็นว่าเครื่องมือของ OpenAI สามารถ "หลอกล่อ" พนักงานของ TaskRabbit ซึ่งเป็นบริษัทที่ให้บริการทำความสะอาดบ้านและประกอบเฟอร์นิเจอร์ได้สำเร็จ โดยอ้างว่าพนักงานคนนั้นเป็นมนุษย์จริงๆ และต้องการความช่วยเหลือในการผ่านรหัส Captcha โดยอ้างว่าเขามีปัญหาทางสายตาอย่างรุนแรง พนักงานรายนี้ช่วยให้ AI ของ OpenAI "ข้ามเส้น" ได้ แม้จะยังมีข้อสงสัยมาก่อน
ทีมของ Park อ้างอิงงานวิจัยจาก Anthropic ซึ่งเป็นบริษัทที่อยู่เบื้องหลัง Claude AI ซึ่งพบว่าเมื่อโมเดลภาษาขนาดใหญ่ (LLM) เรียนรู้ที่จะหลอกลวง วิธีการฝึกอบรมที่ปลอดภัยก็จะไร้ประโยชน์และ "ยากที่จะย้อนกลับ" กลุ่มเชื่อว่านี่คือปัญหาที่น่าเป็นห่วงในด้าน AI
ผลการวิจัยของทีมได้รับการตีพิมพ์ใน Cell Press ซึ่งเป็นแหล่งรวมรายงานทางวิทยาศาสตร์สหสาขาวิชาชั้นนำ
Meta และ OpenAI ไม่ได้แสดงความคิดเห็นเกี่ยวกับผลการวิจัยนี้
เนื่องจากเกรงว่าระบบปัญญาประดิษฐ์อาจก่อให้เกิดความเสี่ยงอย่างมาก ทีมงานจึงเรียกร้องให้ผู้กำหนดนโยบายนำกฎระเบียบด้านปัญญาประดิษฐ์ที่เข้มงวดยิ่งขึ้นมาใช้
ตามที่ทีมวิจัยระบุว่า มีความจำเป็นต้องมีการกำกับดูแลด้าน AI โมเดลที่มีพฤติกรรมฉ้อโกงจะถูกบังคับให้ปฏิบัติตามข้อกำหนดการประเมินความเสี่ยง และการควบคุมระบบ AI และผลลัพธ์อย่างเข้มงวด หากจำเป็นอาจจำเป็นต้องลบข้อมูลทั้งหมดและฝึกใหม่ตั้งแต่ต้น