Thách Thức Trong Việc Phát Triển Mô Hình Ngôn Ngữ Lớn Đáng Tin Cậy Về Y Khoa

Thách Thức Trong Việc Phát Triển Mô Hình Ngôn Ngữ Lớn Đáng Tin Cậy Về Y Khoa
Thông tin y tế sai lệch dễ dàng "lọt" vào AI.

Các mô hình ngôn ngữ lớn (LLM) có thể bị "nhiễm độc" thông tin và điều này gây ra nhiều thách thức trong việc đảm bảo tính chính xác của dữ liệu y khoa được sử dụng để huấn luyện chúng.

Mạng Internet ngày nay tràn ngập thông tin sai lệch, và đa phần các mô hình ngôn ngữ lớn được huấn luyện dựa trên dữ liệu thu thập từ Internet. Mục tiêu là có thật nhiều thông tin chính xác để lấn át sự giả dối, nhưng liệu đó có thực sự hiệu quả? Một nghiên cứu mới tại Đại học New York đã điều tra khả năng mô hình ngôn ngữ có thể bị "nhiễm độc" khi tỷ lệ thông tin sai lệch trong tập huấn luyện chỉ đạt 0.001%.

Một kịch bản cụ thể là "nhiễm độc dữ liệu", trong đó các thông tin sai lệch được đưa vào tập huấn luyện để lực tác động làm sai lệch kết quả của mô hình. Mà điều này có thể được thực hiện đơn giản bằng cách đăng tải tài liệu lên mạng, mục đích để bất kỳ ai có thể lướt qua và vô tình thêm vào quá trình huấn luyện mô hình. Kịch bản này đặt ra một mối nguy cho các mô hình tìm kiếm thông tin y tế, khi có nguy cơ bị lạc hướng bởi những thông tin sai lệch không được kiểm định.

Mặc dù các mô hình ngôn ngữ lớn được dựa trên nhiều tài liệu đáng tin cậy như trong cơ sở dữ liệu PubMed, song chính những nguồn này cũng không tránh khỏi sự tồn tại của thông tin lỗi thời. Chẳng hạn, những nghiên cứu hứa hẹn về chloroquine trong điều trị COVID-19 đã được bác bỏ sau khi có thêm nhiều khám phá mới. Điều này cho thấy rằng thậm chí cả các tài liệu y khoa uy tín cũng có thể chứa thông tin sai lệch.

Các nhà nghiên cứu NYU đã nỗ lực phát triển giải pháp để nhận diện và đánh dấu các cụm từ không thể xác minh để kiểm tra bằng thuật toán phân tích và đối chiếu với biểu đồ tri thức y khoa. Tuy nhiên, giải pháp này không thể giải quyết triệt để các vấn đề đã tồn tại trước đây.

Trong bối cảnh thông tin sai lệch ngày càng đa dạng và phức tạp, việc phát triển một mô hình ngôn ngữ lớn với độ tin cậy cao trong y khoa không chỉ đòi hỏi nguồn dữ liệu huấn luyện tốt mà còn phải có những cơ chế giám sát và kiểm tra chặt chẽ để loại bỏ những thông tin không mong muốn.

Read more