Google kêu gọi thảo luận công khai về việc sử dụng nội dung web bằng AI

Google công bố hôm nay nó đang bắt đầu một cuộc thảo luận công khai về việc phát triển các giao thức và hướng dẫn mới về cách các hệ thống AI truy cập và sử dụng nội dung từ các trang web.

Trong một bài đăng trên blog, Google muốn khám phá “các tiêu chuẩn kỹ thuật và đạo đức để cho phép nhà xuất bản web lựa chọn và kiểm soát các trường hợp sử dụng nghiên cứu và AI mới nổi”.

Thông báo này được đưa ra sau hội nghị I/O gần đây của Google, nơi công ty thảo luận về các sản phẩm AI mới và các nguyên tắc AI của nó, nhằm đảm bảo rằng các hệ thống AI công bằng, minh bạch và có trách nhiệm giải trình.

Bài đăng trên blog của Google có nội dung:

“Chúng tôi tin rằng mọi người đều được hưởng lợi từ một hệ sinh thái nội dung sôi động. Chìa khóa cho điều đó là các nhà xuất bản web có quyền lựa chọn và quyền kiểm soát có ý nghĩa đối với nội dung của họ, đồng thời có cơ hội thu được giá trị từ việc tham gia vào hệ sinh thái web.”

Google thừa nhận rằng các tiêu chuẩn kỹ thuật như robots.txt đã được tạo ra cách đây gần 30 năm và phát triển trước các công nghệ AI hiện đại có thể phân tích dữ liệu web trên quy mô lớn.

Robots.txt cho phép nhà xuất bản chỉ định cách công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục nội dung của họ. Tuy nhiên, nó thiếu các cơ chế để giải quyết cách các hệ thống AI có thể sử dụng dữ liệu để huấn luyện các thuật toán hoặc phát triển sản phẩm mới.

Google đang mời các thành viên của cộng đồng web và AI, bao gồm các nhà xuất bản web, học giả, nhóm xã hội dân sự và các đối tác của Google, tham gia thảo luận công khai về việc phát triển các giao thức mới và nguyên tắc đạo đức.

Google tuyên bố:

“Chúng tôi muốn đây là một quy trình mở và hy vọng rằng nhiều bên liên quan sẽ tham gia thảo luận về cách cân bằng giữa tiến trình AI với quyền riêng tư, cơ quan và quyền kiểm soát dữ liệu.”

Cuộc thảo luận phản ánh sự công nhận ngày càng tăng rằng các công nghệ AI có thể tận dụng dữ liệu web theo những cách mới làm tăng các thách thức về đạo đức liên quan đến việc sử dụng dữ liệu, quyền riêng tư và sự thiên vị.

Bằng cách bắt đầu một quy trình mở, Google nhắm đến một giải pháp hợp tác giải quyết các lợi ích của các công ty công nghệ và người sáng tạo nội dung.

Kết quả của những cuộc thảo luận này có thể định hình cách các hệ thống AI tương tác và sử dụng dữ liệu từ các trang web trong nhiều năm tới.

Google cho biết: “Web đã tạo ra rất nhiều tiến bộ và AI có tiềm năng phát triển dựa trên tiến trình đó. “Nhưng chúng ta phải làm cho đúng.”

Chỉ trích các phương pháp thu thập dữ liệu của Google

Thông báo của Google được đưa ra khi nó phải đối mặt với những lời chỉ trích về lượng dữ liệu mà nó đã thu thập từ khắp nơi trên web để đào tạo các hệ thống AI và mô hình ngôn ngữ của mình.

Các phương pháp thu thập dữ liệu này được trình bày trong bản cập nhật chính sách bảo mật của Google.

Một số người trong cộng đồng SEO cho rằng nỗ lực của Google là quá muộn.

Barry Adams đã chế giễu thông báo trên Twitter, nói:

“Bây giờ chúng tôi đã đào tạo LLM của chúng tôi về tất cả nội dung độc quyền và có bản quyền của bạn, cuối cùng chúng tôi sẽ bắt đầu nghĩ đến việc cung cấp cho bạn cách chọn không tham gia bất kỳ nội dung nào trong tương lai của bạn để làm giàu cho chúng tôi.”

Những người khác cho rằng Google cần phải làm nhiều hơn nữa để thu thập phản hồi trong quá trình này.

Nate Hake, một nhà tiếp thị du lịch, đã tweet:

“’Bắt đầu thảo luận’ yêu cầu thực sự để đối phương NÓI điều gì đó. Đây chỉ là một hình thức chụp email. Không có lĩnh vực để đưa ra phản hồi. Ngay cả một tin nhắn xác nhận cũng không có.”

AI dựa vào dữ liệu—Nhưng bao nhiêu là quá nhiều?

Các hệ thống AI cần một lượng lớn dữ liệu để hoạt động, cải thiện và mang lại lợi ích cho xã hội. Tuy nhiên, AI càng có nhiều dữ liệu thì rủi ro đối với quyền riêng tư cá nhân càng lớn.

Có những sự đánh đổi khó khăn giữa việc kích hoạt tiến bộ AI và bảo vệ thông tin của mọi người.

Có tranh luận về việc liệu mọi người có thể chọn không tham gia AI bằng cách sử dụng dữ liệu mạng xã hội công khai của họ hay không. Một số người nói rằng các cá nhân nên kiểm soát dữ liệu của họ, trong khi những người khác nói rằng điều này làm chậm sự tiến bộ của AI.

Cả hai bên đều đưa ra những lập luận hợp lệ và chúng ta còn lâu mới đạt được sự đồng thuận về cách tiếp cận chính sách đúng đắn.

nhìn về phía trước

Lời kêu gọi thảo luận của Google là một bước đi đúng hướng, nhưng công ty cần tuân theo việc thực hiện phản hồi mà họ nhận được.

Google không đơn độc đối mặt với những thách thức này. Mọi công ty công nghệ phát triển AI đều dựa vào dữ liệu được thu thập từ web. Cuộc thảo luận nên liên quan đến toàn bộ ngành công nghệ, không chỉ Google.


Ảnh nổi bật: JDres/Shutterstock

zalo-icon
facebook-icon
phone-icon