OpenAI và The New York Times: Cuộc chiến pháp lý về dữ liệu huấn luyện AI
Tranh chấp giữa OpenAI và The New York Times về việc xóa dữ liệu huấn luyện ChatGPT đang ngày càng căng thẳng. NYT cáo buộc OpenAI cố tình xóa bằng chứng vi phạm bản quyền, trong khi OpenAI cho rằng sự cố kỹ thuật là do yêu cầu của NYT gây ra. Vụ việc này đặt ra câu hỏi về tính minh bạch và công bằng trong việc sử dụng dữ liệu huấn luyện AI.
Mâu thuẫn giữa OpenAI và The New York Times (NYT) xoay quanh việc xóa dữ liệu huấn luyện cho mô hình ngôn ngữ ChatGPT đang ngày càng trở nên phức tạp. NYT cáo buộc OpenAI đã vô tình xóa các chương trình và kết quả tìm kiếm mà tờ báo tin rằng có thể được sử dụng làm bằng chứng cho việc lạm dụng bản quyền. Quá trình điều tra của NYT, bắt đầu từ tháng 10, đã gặp trở ngại khi một số dữ liệu thu thập được bị xóa vào giữa tháng 11 do lỗi kỹ thuật từ phía OpenAI.
Tuy nhiên, OpenAI phủ nhận việc xóa "bất kỳ bằng chứng" nào, và cho rằng chỉ có thông tin hệ thống tệp bị "vô tình xóa" sau khi NYT yêu cầu thay đổi cấu hình kiểm tra mô hình. OpenAI cho rằng yêu cầu này của NYT "không mang lại cải thiện tốc độ và thậm chí có thể cản trở hiệu suất". Họ cáo buộc NYT đã sơ suất trong quá trình điều tra, "liên tục chạy mã bị lỗi" và không sao lưu dữ liệu. Theo OpenAI, sự cố kỹ thuật xảy ra do NYT yêu cầu thay đổi thiết lập kiểm tra mô hình, dẫn đến việc xóa cấu trúc thư mục và một số tên tệp trên một ổ cứng được sử dụng làm bộ nhớ đệm tạm thời.
Mặc dù OpenAI khẳng định đã khôi phục dữ liệu, NYT cho rằng dữ liệu được khôi phục "không bao gồm cấu trúc thư mục và tên tệp gốc" nên "không đáng tin cậy". NYT tỏ ra không hài lòng khi phải thực hiện lại quá trình kiểm tra và cho rằng OpenAI đang cố gắng trốn tránh trách nhiệm bằng cách đổ lỗi cho phía nguyên đơn.
Đây không phải là lần đầu tiên OpenAI bị cáo buộc xóa dữ liệu trong một vụ kiện bản quyền. Trong một vụ kiện khác vào tháng 5, các tác giả sách, bao gồm Sarah Silverman và Paul Tremblay, đã cáo buộc OpenAI xóa các tập dữ liệu huấn luyện AI gây tranh cãi. Điều này làm dấy lên nghi ngờ về việc liệu OpenAI có đang cố tình che giấu bằng chứng hay không.
Vụ việc này đặt ra câu hỏi về tính minh bạch và công bằng trong việc sử dụng dữ liệu để huấn luyện AI. Việc các công ty công nghệ lớn sử dụng dữ liệu có bản quyền để phát triển các sản phẩm AI mà không có sự đồng ý rõ ràng của chủ sở hữu bản quyền đang là một vấn đề gây tranh cãi. Cần có các quy định rõ ràng hơn để đảm bảo quyền lợi của các tác giả và nhà sáng tạo nội dung trong thời đại AI.
Cuộc chiến pháp lý giữa OpenAI và NYT dự kiến sẽ tiếp tục diễn ra, và kết quả của vụ việc này có thể sẽ có tác động lớn đến tương lai của ngành công nghiệp AI. Liệu việc huấn luyện AI bằng dữ liệu có bản quyền có được coi là "sử dụng hợp lý" hay không? Câu trả lời cho câu hỏi này sẽ định hình cách thức phát triển và sử dụng AI trong tương lai.