Tác phẩm văn học bị dùng để huấn luyện AI

VHO- Tờ The Atlantic vừa tiết lộ, Meta và Bloomberg bị cáo buộc đã dùng hàng nghìn tác phẩm của các nhà văn, trong đó có Margaret Atwood, Haruki Murakami, Jonathan Franzen… để làm nguồn đào tạo cho các ứng dụng AI do những tập đoàn này phát triển.

Tác phẩm văn học bị dùng để huấn luyện AI - Anh 1

 Ít nhất 9 tác phẩm của Haruki Murakami bị dùng phi pháp để huấn luyện AI Ảnh: MURDO MACLEOD

Nguồn dữ liệu khổng lồ bị sử dụng phi pháp

Theo một phân tích về Books3 - bộ dữ liệu được nhiều công ty khai thác để xây dựng các công cụ AI, hơn 170.000 đầu sách đã được đưa vào các mô hình nói trên, bao gồm Meta và Bloomberg. Số lượng sách dùng phi pháp cũng được tiết lộ gồm 33 cuốn của Margaret Atwood, ít nhất 9 cuốn của Haruki Murakami, 9 cuốn của Bell Hooks, 7 cuốn của Jonathan Franzen, 5 cuốn của Jennifer Egan và 5 cuốn của David Grann. Ngoài những tác giả kể trên, sách của George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit và Jon Krakauer cũng xuất hiện trong bộ dữ liệu này. Các tựa sách này rộng khắp các nhà xuất bản lớn và nhỏ, gồm hơn 30.000 tựa của Penguin Random House, 14.000 tựa của HarperCollins, 7.000 tựa của Macmillan, 1.800 tựa của Oxford University Press và 600 tựa của Verso...

Một vụ kiện đã được 3 nhà văn Sarah Silverman, Richard Kadrey và Christopher Golden đệ trình vào tháng trước. Họ cáo buộc rằng các tác phẩm có bản quyền của họ “đã bị sao chép và được dùng như đầu vào để đào tạo các công cụ AI”. Phân tích cho thấy tác phẩm của 3 nguyên đơn nói trên thực sự là một phần của Books3.

OpenAI, công ty đứng sau AI chatbot ChatGPT, cũng bị cáo buộc đã đào tạo mô hình của mình trên các tác phẩm có bản quyền. Manh mối về dữ liệu này nằm trong báo cáo do công ty phát hành vào năm 2020 có đề cập đến hai “nguồn sách dựa trên internet”, một trong số đó là Books2 và ước tính chứa gần 300.000 đầu sách. Nhiều người nghi ngờ với số lượng tác phẩm lớn như thế, thì nguồn cung cấp chỉ có thể đến từ các “thư viện đen” như Library Genesis (LibGen) và Z-Library, nơi các dữ liệu được bảo mật hàng loạt thông qua hệ thống torrent. Đây vốn được biết như là nguồn sách không có bản quyền, có lượt truy cập lớn bởi độc giả trên khắp thế giới.

Theo nhà văn kiêm lập trình viên Alex Reisner, người đã tiết lộ sự thật chấn động trên, “đầu vào” đó không chỉ đến từ nguồn “mở” như Wikipedia và các bài báo trực tuyến, mà còn là từ sách vở để đảm bảo được chất lượng cao. Shawn Presser, nhà phát triển AI độc lập, người ban đầu tạo ra Books3, chia sẻ với The Guardian rằng mình đồng cảm với mối quan tâm của các tác giả. Ông nói mình đã tạo ra cơ sở dữ liệu để bất kỳ ai cũng có thể phát triển công cụ AI và khá lo lắng về các rủi ro khi các công ty lớn nắm quyền kiểm soát công nghệ.

Books3 được sử dụng để đào tạo LLaMA, một trong số các mô hình ngôn ngữ lớn của Meta (trong đó nổi tiếng nhất là ChatGPT của OpenAI) để có thể tạo ra nội dung dựa trên các mô thức mà nó học được từ văn bản đào tạo. Bộ dữ liệu cũng được sử dụng để đào tạo BloombergGPT của Bloomberg, GPT-J của EleutherAI và “có khả năng” cũng được sử dụng trong các mô hình AI khác.

Cuộc điều tra do Reisner thực hiện cũng đã tiết lộ tập dữ liệu khổng lồ có tên The Pile, chứa dữ liệu Books3 cũng như tài liệu từ nhiều nguồn khác nhau, như phụ đề YouTube và các tài liệu của Nghị viện châu Âu... Dữ liệu của The Pile được Reisner trích xuất và phân tích đã phơi bày quy mô và tính đa dạng của các tác phẩm vi phạm bản quyền dùng để đào tạo AI, dẫn đến những lo ngại về mặt đạo đức đối với nguồn gốc và tính hợp pháp của dữ liệu này. Reisner cũng cho biết trong khi người phát ngôn của Meta từ chối bình luận về việc sử dụng Books3, thì Stella Biderman, giám đốc điều hành của EleutherAI, không phủ nhận việc sử dụng nguồn dữ liệu này đối với GPT-J.

Mới đây, người phát ngôn của Bloomberg cũng xác nhận với The Guardian rằng công ty đã sử dụng tập dữ liệu này trong thời gian qua. Họ cam kết thêm: “Chúng tôi sẽ không đưa tập dữ liệu Books3 như nguồn đầu vào để đào tạo cho BloombergGPT sắp tới”.

Khó đảm bảo giữa quyền sở hữu trí tuệ và tiến bộ công nghệ

Việc sử dụng sách có bản quyền để đào tạo các mô hình AI đã tạo ra những câu hỏi phức tạp về đạo đức, bản quyền và tương lai của các tác phẩm sáng tạo. Khi công nghệ AI tiếp tục phát triển, vấn đề nội dung phi pháp được dùng như là đầu vào cần thiết phải có một cách tiếp cận cân bằng và hợp pháp hơn. Để đảm bảo tiến bộ công nghệ không gây tổn hại đến quyền sở hữu trí tuệ là một việc khó khăn, bởi hiện nay, ngày càng nhiều các công ty tham gia vào việc sử dụng AI.

Theo một cuộc khảo sát với 6.000 nhân viên của nhà cung cấp công cụ tìm kiếm doanh nghiệp Lucidworks, được thực hiện từ tháng 5 - 7.2023, khoảng 96% những người ra quyết định về AI tại các công ty truyền thông và giải trí cho biết họ có kế hoạch tăng chi tiêu cho công nghệ AI trong 12 tháng tới. Tuy nhiên những người này nói thêm rằng không muốn sử dụng AI để loại bỏ công nhân, chỉ 4% trong số những người được khảo sát cho biết họ mong đợi việc áp dụng AI sẽ dẫn đến “sự dịch chuyển công việc”.

Giám đốc điều hành hãng Disney, Bob Iger cho biết, công ty đang bắt đầu sử dụng AI để hoạt động hiệu quả hơn. “Nhìn chung, tôi lạc quan về triển vọng của AI vì tôi nghĩ chúng sẽ tạo ra hiệu quả và cách thức để chúng tôi cung cấp dịch vụ tốt hơn cho khách hàng”, Iger nói với các nhà phân tích Phố Wall vào tháng 5.2023. Amazon cũng có nhiều dự án công nghệ AI đang được thực hiện, theo Giám đốc điều hành Andy Jassy. Ông Jassy không nói rõ cụ thể, nhưng cho biết AI “sẽ là trọng tâm của những gì chúng tôi làm” khi Amazon tìm cách sử dụng AI để giảm chi phí và thu thập thông tin trải nghiệm của khách hàng.

Tất nhiên, các dạng AI đã tồn tại trong nhiều thập kỷ trước. Điểm mới ở đây (cực kỳ đáng báo động) là thế hệ AI đã phát triển cực nhanh, có thể tạo ra các đoạn phim hoặc chương trình truyền hình như người thật sản xuất. Một kịch bản do AI tạo ra có thể như được viết bởi nhà văn chuyên nghiệp. 

 THÁI AN

Ý kiến bạn đọc