Confer: Cuộc Cách Mạng Bảo Mật Dữ Liệu trong Thế Giới Chatbot AI
Bài viết này khám phá Confer, một trợ lý AI mã nguồn mở do Moxie Marlinspike, người sáng tạo Signal Messenger, phát triển. Confer tập trung vào việc bảo vệ tối đa quyền riêng tư của người dùng bằng cách mã hóa dữ liệu đầu vào và đầu ra, đảm bảo rằng chỉ người dùng mới có thể truy cập thông tin của mình. Bài viết cũng so sánh Confer với các giải pháp AI bảo mật khác như Lumo và Venice, đồng thời phân tích những rủi ro tiềm ẩn về quyền riêng tư khi sử dụng các nền tảng AI phổ biến hiện nay.
Moxie Marlinspike, kiến tạo viên đằng sau Signal Messenger – ứng dụng nhắn tin được đánh giá cao về tính bảo mật – đang hướng tới việc tạo ra một cuộc cách mạng tương tự trong lĩnh vực chatbot AI. Dự án mới nhất của ông, có tên Confer, là một trợ lý AI mã nguồn mở được thiết kế để mang đến sự đảm bảo mạnh mẽ rằng dữ liệu người dùng hoàn toàn không thể đọc được bởi bất kỳ ai, ngoại trừ chính chủ sở hữu tài khoản. Điều này bao gồm cả nhà phát triển nền tảng, tin tặc, cơ quan thực thi pháp luật hoặc bất kỳ bên thứ ba nào khác.
Điểm đặc biệt của Confer là toàn bộ hệ thống, từ mô hình ngôn ngữ lớn (LLM) đến các thành phần cốt lõi, đều được xây dựng trên phần mềm mã nguồn mở. Người dùng có thể xác minh bằng phương pháp mật mã rằng phần mềm này đang hoạt động đúng như thiết kế. Dữ liệu và các cuộc hội thoại được mã hóa trong một môi trường thực thi đáng tin cậy (TEE), ngăn chặn ngay cả quản trị viên máy chủ cũng không thể xem hoặc can thiệp vào chúng. Các cuộc trò chuyện được lưu trữ ở dạng mã hóa, với khóa mã hóa được bảo mật trên thiết bị của người dùng.
Tương tự như Signal, Confer được thiết kế với sự thanh lịch và đơn giản trong từng chi tiết. Trước đây, việc sử dụng các công cụ bảo mật như PGP email đòi hỏi quy trình phức tạp và dễ mắc lỗi. Signal đã phá vỡ khuôn mẫu đó, giúp việc quản lý khóa trở nên dễ dàng hơn bao giờ hết. Signal cũng được thiết kế để ngăn chặn cả nhà phát triển nền tảng truy cập vào tin nhắn hoặc xác định danh tính thực của người dùng.
Trong thế giới AI hiện đại, các nền tảng lớn thường xuyên phải tuân thủ các yêu cầu pháp lý, buộc họ phải cung cấp dữ liệu người dùng cho cơ quan thực thi pháp luật hoặc các bên liên quan trong các vụ kiện tụng. Ngay cả khi người dùng chọn không lưu trữ dữ liệu của mình trong thời gian dài, các bên liên quan vẫn có thể yêu cầu nền tảng lưu trữ nó. Một chuyên gia về quyền riêng tư dữ liệu, Em (người giữ kín thông tin cá nhân của mình trên Internet), đã gọi các trợ lý AI là “kẻ thù không đội trời chung” của quyền riêng tư, bởi vì tính hữu dụng của chúng phụ thuộc vào việc thu thập một lượng lớn dữ liệu từ nhiều nguồn khác nhau, bao gồm cả thông tin cá nhân.
“Các mô hình AI về bản chất là những người thu thập dữ liệu,” Em chia sẻ. “Chúng dựa vào việc thu thập dữ liệu quy mô lớn để đào tạo, cải thiện, vận hành và tùy chỉnh. Thông thường, dữ liệu này được thu thập mà không có sự đồng ý rõ ràng và đầy đủ (từ những đối tượng đào tạo không biết hoặc từ người dùng nền tảng), và được gửi đến và truy cập bởi một công ty tư nhân với nhiều động cơ để chia sẻ và kiếm tiền từ dữ liệu này.”
Marlinspike nhận thấy rằng sự thiếu kiểm soát của người dùng là một vấn đề đặc biệt nghiêm trọng, do bản chất tương tác của các LLM. Người dùng thường coi cuộc đối thoại với AI như một cuộc trò chuyện riêng tư, chia sẻ những suy nghĩ, nỗi sợ hãi, bí mật và thông tin cá nhân như thể đang tâm sự với một người bạn tin cậy hoặc một cuốn nhật ký cá nhân. Sự tương tác này khác biệt đáng kể so với các truy vấn tìm kiếm trên web truyền thống, vốn thường mang tính giao dịch và dựa trên từ khóa.
Ông ví việc sử dụng AI như việc thú nhận vào một “hồ dữ liệu” khổng lồ. Để giải quyết vấn đề này, Marlinspike đã phát triển Confer, một hệ thống bảo vệ dữ liệu người dùng tương tự như cách Signal sử dụng mã hóa để đảm bảo rằng chỉ những người tham gia cuộc trò chuyện mới có thể đọc được tin nhắn. Giống như Signal, Confer không liên kết người dùng với danh tính thực của họ thông qua địa chỉ email, địa chỉ IP hoặc bất kỳ thông tin cá nhân nào khác.
Confer sử dụng passkey, một tiêu chuẩn ngành công nghiệp tạo ra một khóa mã hóa 32 byte độc đáo cho mỗi dịch vụ mà người dùng đăng nhập. Khóa công khai được gửi đến máy chủ, trong khi khóa riêng tư được lưu trữ an toàn trên thiết bị của người dùng, trong phần cứng bảo vệ mà tin tặc không thể truy cập. Passkey cung cấp xác thực hai yếu tố và có thể được cấu hình để đăng nhập vào tài khoản bằng vân tay, quét khuôn mặt hoặc mã PIN của thiết bị.
Khóa riêng tư cho phép thiết bị đăng nhập vào Confer và mã hóa tất cả dữ liệu đầu vào và đầu ra bằng một phương pháp mã hóa được cho là không thể phá vỡ. Điều này cho phép người dùng lưu trữ các cuộc trò chuyện trên máy chủ Confer một cách an toàn, với sự tin tưởng rằng không ai khác có thể đọc chúng. Mã này có thể được kiểm tra bởi bất kỳ ai. Giao diện người dùng của Confer đơn giản đến bất ngờ, chỉ với hai thao tác, người dùng có thể đăng nhập và giải mã tất cả các cuộc trò chuyện trước đó.
Ngoài ra, Confer còn sử dụng TEE trên máy chủ nền tảng để mã hóa tất cả dữ liệu và mã chạy qua CPU, bảo vệ chúng khỏi bị đọc hoặc sửa đổi bởi những người có quyền truy cập quản trị. TEE cũng cung cấp xác thực từ xa, một chứng chỉ kỹ thuật số xác minh rằng dữ liệu và phần mềm đang chạy trong TEE và liệt kê tất cả phần mềm đang chạy trên đó.
Hiện tại, Confer hỗ trợ đầy đủ trên macOS, iOS và Android. Trên Windows, người dùng cần cài đặt một trình xác thực của bên thứ ba. Hỗ trợ Linux vẫn chưa có, nhưng một tiện ích mở rộng đang được phát triển để giải quyết vấn đề này. Ngoài Confer, một số nền tảng LLM khác cũng cung cấp mã hóa đầu cuối, chẳng hạn như Lumo của Proton, một công ty châu Âu nổi tiếng với dịch vụ email được mã hóa. Venice cũng là một lựa chọn, lưu trữ tất cả dữ liệu cục bộ trên thiết bị của người dùng.
Tuy nhiên, các nền tảng LLM lớn thường cung cấp các tùy chọn cho phép người dùng loại trừ dữ liệu của họ khỏi việc sử dụng cho mục đích tiếp thị và đào tạo. Nhưng, như đã đề cập, những lời hứa này thường đi kèm với những hạn chế đáng kể. Dữ liệu cá nhân vẫn có thể được sử dụng để thực thi các điều khoản dịch vụ hoặc cho các mục đích nội bộ khác, ngay cả khi người dùng đã chọn không tham gia lưu trữ dữ liệu mặc định.
Trong bối cảnh pháp lý hiện tại, nơi hầu hết dữ liệu được lưu trữ trực tuyến có thể bị thu thập với một lệnh triệu tập, và các vụ rò rỉ dữ liệu quy mô lớn xảy ra thường xuyên, không có lý do gì để tin rằng dữ liệu cá nhân sẽ luôn được bảo mật. Mặc dù các nhà cung cấp lớn có thể chưa có kế hoạch cung cấp bảo vệ mã hóa đầu cuối, nhưng một số lựa chọn thay thế nhỏ hơn sẽ tiếp tục bảo vệ dữ liệu người dùng khỏi “hồ dữ liệu” ngày càng lớn.