
cong-nghe
Tăng cường bảo mật cho mô hình AI Claude bằng hệ thống phân loại Hiến pháp
Bài viết này thảo luận về hệ thống Phân loại Hiến pháp mới của Anthropic, được thiết kế để ngăn chặn việc jailbreak mô hình AI Claude. Hệ thống này sử dụng một "hiến pháp" gồm các quy tắc ngôn ngữ tự nhiên để xác định nội dung