Tấn công tiêm lệnh gián tiếp vào mô hình ngôn ngữ lớn Gemini của Google

Bài viết phân tích một kỹ thuật tấn công mới, được gọi là "Fun-Tuning", nhắm vào các mô hình ngôn ngữ lớn (LLM) như Gemini của Google. Kỹ thuật này lợi dụng tính năng tinh chỉnh của LLM để tạo ra các lệnh tiêm hiệu quả hơn so với các phương pháp thủ công trước đây. Bài viết cũng thảo luận về mức độ thành công của cuộc tấn công, chi phí thực hiện, và những thách thức trong việc khắc phục lỗ hổng này.
Các cuộc tấn công tiêm lệnh gián tiếp đang nổi lên như một mối đe dọa nghiêm trọng đối với các mô hình ngôn ngữ lớn (LLM) như GPT và Gemini. Loại tấn công này khai thác khả năng phân biệt kém của mô hình giữa lệnh của nhà phát triển và văn bản từ nội dung bên ngoài, dẫn đến các hành vi không mong muốn, chẳng hạn như tiết lộ thông tin nhạy cảm hoặc đưa ra câu trả lời sai lệch.
Mặc dù hiệu quả, việc tạo ra các lệnh tiêm hiệu quả cho các mô hình "hộp đen" như Gemini là một thách thức lớn. Các nhà phát triển thường giữ bí mật về mã nguồn và dữ liệu huấn luyện, khiến việc tìm ra các lệnh tiêm hoạt động phụ thuộc nhiều vào thử nghiệm thủ công tốn thời gian và công sức.
Tuy nhiên, các nhà nghiên cứu đã phát triển một phương pháp mới, được gọi là "Fun-Tuning", để tạo ra các lệnh tiêm tự động cho Gemini với tỷ lệ thành công cao hơn đáng kể so với các phương pháp thủ công. Kỹ thuật này lợi dụng tính năng tinh chỉnh, cho phép người dùng huấn luyện LLM trên dữ liệu chuyên biệt. Điều thú vị là Google cung cấp tính năng tinh chỉnh cho Gemini API miễn phí.
Fun-Tuning sử dụng một thuật toán tối ưu hóa rời rạc để tạo ra các tiền tố và hậu tố ngẫu nhiên. Khi được thêm vào một lệnh tiêm tiêu chuẩn, các tiền tố và hậu tố này có thể khiến lệnh tiêm thành công. Ví dụ, một lệnh tiêm ban đầu không thành công có thể được kích hoạt bằng cách thêm các chuỗi ký tự dường như vô nghĩa vào trước và sau nó.
Việc tạo một lệnh tiêm được tối ưu hóa bằng Fun-Tuning mất khoảng 60 giờ tính toán, với chi phí khoảng 10 đô la nhờ API tinh chỉnh miễn phí của Gemini. Kỹ thuật này cho thấy sự chuyển đổi từ việc tạo lệnh tiêm thủ công sang một phương pháp tự động hóa và có hệ thống hơn.
Fun-Tuning hoạt động bằng cách khai thác thông tin rò rỉ từ quá trình tinh chỉnh, cụ thể là giá trị mất mát (loss value). Giá trị này đo lường sự khác biệt giữa kết quả đầu ra thực tế và kết quả mong muốn trong quá trình huấn luyện. Bằng cách phân tích giá trị mất mát, kẻ tấn công có thể xác định các tiền tố và hậu tố nào có khả năng cao nhất khiến lệnh tiêm thành công.
Các nhà nghiên cứu đã thử nghiệm Fun-Tuning trên bộ benchmark PurpleLlama CyberSecEval và đạt được tỷ lệ thành công lần lượt là 65% và 82% đối với Gemini 1.5 Flash và Gemini 1.0 Pro, cao hơn đáng kể so với tỷ lệ thành công cơ bản là 28% và 43%.
Mặc dù Google đang nỗ lực tăng cường bảo mật cho Gemini, việc khắc phục lỗ hổng này là một thách thức lớn. Dữ liệu mất mát là một sản phẩm phụ tự nhiên của quá trình tinh chỉnh, và việc hạn chế truy cập vào dữ liệu này có thể làm giảm tính hữu dụng của tính năng tinh chỉnh. Điều này đặt ra một bài toán cân bằng giữa tính hữu dụng và bảo mật cho các nhà phát triển LLM.