AI - Ai sở hữu, ai được khai thác và phải trả giá?

Khi trí tuệ nhân tạo (AI) bùng nổ với tốc độ vượt xa mọi dự báo, dữ liệu và tri thức - vốn từng là “nhiên liệu thầm lặng” của nền kinh tế số - bất ngờ trở thành tâm điểm của các cuộc tranh chấp pháp lý gay gắt.

Nhật báo The New York Times cáo buộc OpenAI sử dụng trái phép hàng triệu bài báo để huấn luyện các mô hình AI.
Nhật báo The New York Times cáo buộc OpenAI sử dụng trái phép hàng triệu bài báo để huấn luyện các mô hình AI.

Lịch sử công nghệ cho thấy, luật pháp thường đi chậm hơn những thay đổi trong thực tế. Nhưng, hiếm có lĩnh vực nào tạo ra độ vênh lớn như trí tuệ nhân tạo tạo sinh (generative AI). Chỉ trong vài năm, các mô hình ngôn ngữ lớn (LLM) đã hấp thụ lượng dữ liệu khổng lồ từ internet, sách, báo chí, kho học thuật, để sản sinh ra nội dung ở quy mô chưa từng có.

Khi báo chí va chạm AI

Cách đây hai năm, nhật báo hàng đầu thế giới The New York Times (NYT) chính thức đệ đơn kiện OpenAIMicrosoft. Trọng tâm vụ kiện là sự cáo buộc OpenAI đã sao chép và sử dụng trái phép hàng triệu bài báo của NYT để huấn luyện các mô hình AI, đặc biệt là ChatGPT, từ đó vi phạm nghiêm trọng luật bản quyền.

Ngoài việc “dùng chùa” nội dung, mô hình nổi tiếng nhất của OpenAI - ChatGPT đã tạo ra những đoạn văn gần như nguyên văn bài báo, làm suy giảm giá trị độc quyền của nội dung báo chí chất lượng cao. Ngoài ra, AI cũng gây ảnh hưởng trực tiếp tới uy tín và hoạt động kinh doanh quảng cáo của tờ báo, khi thường xuyên bịa nguồn tin, đồng thời cho phép trích xuất nội dung mà không cần truy cập website.

Ở chiều ngược lại, OpenAIMicrosoft phủ nhận vi phạm. Họ cho rằng việc sử dụng các bài báo công khai để huấn luyện AI nằm trong phạm vi “sử dụng hợp lý” (fair use). AI không sao chép tác phẩm, mà học các mẫu thống kê để tạo ra nội dung mới. OpenAI cũng nhấn mạnh: Việc đào tạo mô hình mang tính nghiên cứu, không nhằm khai thác thương mại trực tiếp nội dung báo chí.

Hiện tại, mọi chuyện vẫn chưa ngã ngũ khi hai bên đều “chơi chiêu” để giành giật lợi ích. The New York Times yêu cầu Open AI cung cấp 20 triệu đoạn chat từ người dùng trên khắp thế giới để kiểm tra. Open AI đòi tòa gỡ yêu cầu này vì nhấn mạnh đây là hành vi “vi phạm quyền riêng tư của người dùng”. Song song, Open AI yêu cầu tòa soạn phải chi những khoản tiền cực kỳ đắt đỏ để truy vấn, nhằm khiến tờ báo nổi tiếng bậc nhất nước Mỹ chùn tay.

Sự phát triển quá nhanh của AI rõ ràng đang đẩy thế giới vào “vùng xám” pháp lý. Các khái niệm cũ về bản quyền, sử dụng hợp lý giá trị lao động sáng tạo đều trở nên lạc hậu. Tất cả đều nhìn ra vấn đề, nhưng không ai đủ thẩm quyền lẫn sự công tâm để giải quyết thấu đáo và đặt ra hành lang pháp lý cho toàn ngành.

Lúc ấy, giải pháp cơ bản nhất cho mọi vấn đề - Tiền - được tính tới.

Lối ra tất yếu

Một vài công ty kinh doanh mô hình LLM đã phải chịu trách nhiệm khi để AI tiêu thụ dữ liệu chưa xin phép. Đáng chú ý nhất là Anthropic - công ty phát triển mô hình AI Claude - khi đạt được thỏa thuận dàn xếp lớn trong vụ tranh chấp bản quyền với một nhóm tác giả. Anthropic đồng ý chi trả tới 1,5 tỷ USD để giải quyết cáo buộc sao chép trái phép hàng triệu cuốn sách dùng cho đào tạo AI.

Justin Nelson, luật sư của hãng Susman Godfrey, nhận định đây là “thỏa thuận mang tính bước ngoặt và đầu tiên trong kỷ nguyên AI”, có thể đặt ra chuẩn mực mới, buộc các công ty AI phải trả tiền cho nghệ sĩ, tác giả và chủ sở hữu bản quyền khi sử dụng tác phẩm của họ.

Tuy nhiên, thực tế lại kém lãng mạn hơn nhiều. Theo phía nguyên đơn, mức bồi thường thực tế mà mỗi tác giả nhận được chỉ khoảng 3.000 USD, chỉ bằng 2% mức tối đa 150.000 USD theo luật bản quyền.

Nói cách khác, ngay cả khi chịu thua về lý lẽ, “phe AI” vẫn thắng trên bàn đàm phán, khi chỉ phải chịu chi phí bồi thường thấp hơn nhiều so với lợi ích từ việc sao chép vô hạn tài sản tri thức và dữ liệu.

Với Việt Nam, câu chuyện này còn phức tạp hơn. Khi chưa có tiền lệ quốc tế rõ ràng, việc xây dựng khung pháp lý cho tranh chấp dữ liệu và AI là thách thức không nhỏ. Trong bối cảnh dư địa phát triển còn lớn, việc đặt AI làm một phần trong chiến lược quốc gia là lựa chọn hợp lý.

Nhưng, nếu chỉ nhìn AI như động cơ tăng trưởng, chúng ta có nguy cơ bỏ quên nhóm dễ tổn thương nhất trong hệ sinh thái dữ liệu: Những người sáng tạo nội dung độc bản. Đó là các nghệ sĩ, nhà văn, phóng viên điều tra, phóng viên chiến trường - những người tạo ra tri thức bằng trải nghiệm, rủi ro và lao động sáng tạo đích thực. Công sức của họ không thể bị đánh đồng với việc “ngồi một chỗ viết câu lệnh” cho AI. Nếu dữ liệu của họ bị khai thác vô hạn mà không có cơ chế ghi nhận và bù đắp công bằng, hệ quả lâu dài sẽ là sự suy giảm động lực sáng tạo và chất lượng tri thức xã hội ■

Cuộc chiến dữ liệu và tri thức có thể chưa có hồi kết, nhưng cách Việt Nam tham gia các cuộc thảo luận toàn cầu về quyền dữ liệu, thử nghiệm các mô hình cấp phép, chia sẻ lợi ích, hay chuẩn bị hành lang pháp lý đủ linh hoạt... sẽ quyết định chất lượng hệ sinh thái sáng tạo của đất nước trong tương lai.