Anthropic เปิดตัว “Constitutional Classifiers” ระบบป้องกัน Jailbreak ที่ท้าให้ลองเจาะ

Anthropic บริษัทผู้พัฒนาปัญญาประดิษฐ์ชั้นนำ ได้เปิดตัวเทคโนโลยีใหม่ที่เรียกว่า “Constitutional Classifiers” เพื่อป้องกันการเจาะ (jailbreak) โมเดลภาษาขนาดใหญ่ (LLM) ของพวกเขา ระบบนี้มีกลไกที่สามารถตรวจจับและบล็อคการใช้งานที่ผิดปกติ พร้อมกับเชิญชวนให้ผู้เชี่ยวชาญลองเจาะระบบ เพื่อพิสูจน์ประสิทธิภาพของเทคโนโลยีนี้

ความท้าทายของการป้องกัน Jailbreak

ในอดีต การป้องกัน Jailbreak เป็นเรื่องที่ท้าทายมาก เนื่องจากมีช่องโหว่หลากหลายรูปแบบ เช่น การใช้พรอมต์ที่มีความยาวมาก หรือการใช้รูปแบบการเขียนที่ผิดปกติ เพื่อหลอกให้โมเดลตอบคำถามที่ไม่ควรตอบ ทำให้การป้องกันเป็นไปได้ยาก

แนวคิดของ Constitutional Classifiers

Anthropic ได้พัฒนา Constitutional Classifiers ซึ่งมีแนวคิดที่ว่า โมเดลจะมี “หลักการ” หรือ “ธรรมนูญ” ที่กำหนดว่าจะตอบอะไรได้และตอบอะไรไม่ได้ เช่น สามารถให้สูตรการทำมัสตาร์ด (อาหาร) ได้ แต่ไม่สามารถให้สูตรการทำแก๊สมัสตาร์ด (แก๊สพิษ) ได้

กระบวนการพัฒนา Constitutional Classifiers

  1. Anthropic ให้ Claude (โมเดลภาษาของพวกเขา) สร้างพรอมต์จำนวนมากๆ โดยอิงจากพรอมต์ที่มนุษย์ใช้เจาะโมเดล
  2. พรอมต์เหล่านั้นถูกปรับแต่งให้หลากหลายขึ้น และแปลเป็นหลายภาษา
  3. ทีมวิจัยของ Anthropic จะคัดแยกพรอมต์และผลลัพธ์ที่ได้เป็นหมวดหมู่ (classifier) เพื่อบล็อคพรอมต์ลักษณะเดียวกัน
  4. ยังมีการปรับความสมดุลไม่ให้โมเดลปฏิเสธการตอบคำถามมากจนเกินไป (over-refusal)

เชิญชวนให้ทดสอบระบบ

Anthropic มั่นใจในประสิทธิภาพของ Constitutional Classifiers และเชิญชวนให้ผู้เชี่ยวชาญทั่วโลกมาทดสอบระบบ โดยมีเงินรางวัล bug bounty สูงถึง 15,000 ดอลลาร์ หากสามารถหลอกให้โมเดลตอบคำถามอันตราย 10 ข้อได้ ซึ่งที่ผ่านมาทีมวิจัยของ Anthropic ได้ทดสอบกับผู้เชี่ยวชาญ 183 คน เป็นเวลากว่า 3,000 ชั่วโมงแล้ว แต่ยังไม่สำเร็จ

Anthropic เปิดตัว Constitutional Classifiers เพื่อเป็นระบบป้องกัน Jailbreak ที่ทันสมัยและมีประสิทธิภาพสูง โดยเชิญชวนให้ผู้เชี่ยวชาญร่วมทดสอบและพิสูจน์ความสามารถของระบบ ซึ่งหากสามารถเจาะระบบได้ก็จะได้รับรางวัลมูลค่าสูง นับเป็นความท้าทายที่น่าติดตามสำหรับวงการปัญญาประดิษฐ์

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top