Tăng cường bảo mật cho mô hình AI Claude bằng hệ thống phân loại Hiến pháp

Bài viết này thảo luận về hệ thống Phân loại Hiến pháp mới của Anthropic, được thiết kế để ngăn chặn việc jailbreak mô hình AI Claude. Hệ thống này sử dụng một "hiến pháp" gồm các quy tắc ngôn ngữ tự nhiên để xác định nội dung được phép và không được phép, và đã được thử nghiệm rộng rãi thông qua chương trình bug bounty và các bài kiểm tra nội bộ. Mặc dù có chi phí tính toán tăng thêm, Anthropic tin rằng hệ thống này mang lại sự bảo vệ đáng kể chống lại jailbreak và đang mời cộng đồng thử nghiệm thêm.
Các mô hình AI, ngay cả những mô hình được phép sử dụng rộng rãi nhất, vẫn có những chủ đề nhạy cảm mà nhà phát triển muốn tránh. Người dùng đã tìm ra nhiều cách để "jailbreak" các mô hình này, buộc chúng phải đưa ra những kết quả "bị cấm".
Để giải quyết vấn đề này, Anthropic đã phát triển hệ thống Phân loại Hiến pháp. Hệ thống này dựa trên một "hiến pháp" gồm các quy tắc ngôn ngữ tự nhiên, xác định những nội dung được phép và không được phép. Ví dụ, liệt kê các loại thuốc thông thường được cho phép, trong khi hướng dẫn cách chế tạo vũ khí hóa học thì không.
Anthropic đã sử dụng Claude để tạo ra một lượng lớn lời nhắc (prompt) tổng hợp, cả hợp lệ và không hợp lệ theo "hiến pháp" này. Những lời nhắc này được dịch sang nhiều ngôn ngữ, được sửa đổi theo phong cách của các "jailbreak" đã biết và được bổ sung bằng các lời nhắc "red-teaming" tự động để tạo ra các cuộc tấn công jailbreak mới.
Dữ liệu huấn luyện này được sử dụng để tinh chỉnh các "bộ phân loại" mới, chống jailbreak tốt hơn cho cả đầu vào và đầu ra của người dùng. Đối với đầu vào, bộ phân loại kiểm tra các yêu cầu độc hại ẩn trong nội dung vô hại, các yêu cầu được ngụy trang trong trò chơi nhập vai hoặc sử dụng các từ thay thế.
Đối với đầu ra, một bộ phân loại được đào tạo đặc biệt tính toán xác suất một chuỗi từ cụ thể trong phản hồi thảo luận về nội dung bị cấm. Quá trình này được lặp lại khi mỗi từ được tạo ra và luồng đầu ra sẽ dừng lại nếu kết quả vượt quá ngưỡng nhất định.
Anthropic đã tổ chức một chương trình bug bounty, trao thưởng cho bất kỳ ai có thể thiết kế một "jailbreak phổ quát" vượt qua hệ thống Phân loại Hiến pháp này. Kết quả cho thấy hệ thống này có hiệu quả cao trong việc ngăn chặn jailbreak. Tuy nhiên, hệ thống này cũng làm tăng chi phí tính toán, khiến mỗi truy vấn tốn kém hơn về giá cả và năng lượng.
Mặc dù không phải là một giải pháp hoàn hảo, Anthropic tin rằng hệ thống Phân loại Hiến pháp mang lại sự bảo vệ đáng kể chống lại jailbreak. Họ cũng thừa nhận rằng các kỹ thuật jailbreak mới sẽ xuất hiện trong tương lai và "hiến pháp" cần được điều chỉnh liên tục để đối phó với các cuộc tấn công mới. Hiện tại, Anthropic đang mời cộng đồng thử nghiệm hệ thống này để phát hiện thêm các lỗ hổng bảo mật.
Việc phát triển hệ thống Phân loại Hiến pháp cho thấy nỗ lực của Anthropic trong việc xây dựng các mô hình AI an toàn và đáng tin cậy hơn. Đây là một bước tiến quan trọng trong việc giải quyết các thách thức liên quan đến việc kiểm soát và bảo mật AI, đặc biệt là trong bối cảnh công nghệ AI đang phát triển nhanh chóng như hiện nay. Sự tham gia của cộng đồng trong việc thử nghiệm và cải thiện hệ thống này sẽ đóng góp đáng kể vào việc xây dựng một tương lai an toàn hơn cho AI.