Reddit đã công bố một hạn chế đáng kể đối với khả năng lập chỉ mục nội dung của Internet Archive, với lý do lo ngại các công ty trí tuệ nhân tạo (AI) đang thu thập dữ liệu trái phép từ Wayback Machine. Động thái này nhằm bảo vệ quyền riêng tư của người dùng và kiểm soát quyền truy cập vào kho nội dung do người dùng tạo ra trên Reddit.
Có hiệu lực ngay lập tức, Wayback Machine của Internet Archive sẽ không còn được phép thu thập dữ liệu từ phần lớn trang web của Reddit. Điều này bao gồm các khu vực quan trọng như trang chi tiết bài đăng, bình luận cá nhân và hồ sơ người dùng. Do đó, Wayback Machine chỉ có thể lập chỉ mục trang chủ chính của Reddit, cung cấp một bản chụp hạn chế về các chủ đề thịnh hành thay vì một kho lưu trữ lịch sử toàn diện.
Phát ngôn viên của Reddit, Tim Rathschmidt, giải thích quyết định này: “Internet Archive cung cấp dịch vụ cho mạng mở, nhưng chúng tôi đã nhận thấy các trường hợp công ty AI vi phạm chính sách nền tảng, bao gồm cả của chúng tôi, và thu thập dữ liệu từ Wayback Machine.” Ông nhấn mạnh thêm cam kết của Reddit trong việc bảo vệ người dùng: “Cho đến khi họ có thể bảo vệ trang web của mình và tuân thủ chính sách nền tảng (ví dụ: tôn trọng quyền riêng tư của người dùng, xóa nội dung đã bị gỡ bỏ), chúng tôi sẽ hạn chế một phần quyền truy cập của họ vào dữ liệu Reddit để bảo vệ người dùng.”
Sứ mệnh cốt lõi của Internet Archive là tạo ra kho lưu trữ kỹ thuật số các trang web và hiện vật văn hóa, với Wayback Machine là công cụ chính để xem các trang web lịch sử. Tuy nhiên, Reddit cho rằng không phải tất cả nội dung của họ nên được lưu trữ theo cách tạo điều kiện vi phạm chính sách, đặc biệt liên quan đến quyền riêng tư của người dùng và việc lưu giữ nội dung mà người dùng có thể đã xóa.
Reddit xác nhận đã thông báo “trước” cho Internet Archive về các hạn chế truy cập này, bắt đầu “tăng cường” từ hôm nay. Rathschmidt cũng lưu ý rằng Reddit đã “lên tiếng lo ngại” trong quá khứ về việc dễ dàng thu thập dữ liệu từ Internet Archive.
Hành động này phù hợp với lịch sử gần đây của Reddit trong việc siết chặt kiểm soát dữ liệu để đối phó với sự gia tăng của các mô hình đào tạo AI. Nền tảng này trước đây đã thực hiện các bước để chặn việc thu thập dữ liệu tràn lan, chỉ cung cấp quyền truy cập dữ liệu cho các công ty sẵn sàng trả tiền. Đáng chú ý, Reddit đã ký một thỏa thuận lớn với Google vào đầu năm ngoái cho cả dữ liệu tìm kiếm và đào tạo AI. Sau đó là một thay đổi chính sách ngăn các công cụ tìm kiếm lớn thu thập dữ liệu mà không có thỏa thuận thương mại. Hơn nữa, Reddit cho rằng những thay đổi gây tranh cãi về API năm 2023, dẫn đến các cuộc phản đối rộng rãi và đóng cửa nhiều ứng dụng bên thứ ba, là do việc lạm dụng các API này để đào tạo mô hình AI.
Trong khi Reddit đã ký thỏa thuận AI với OpenAI, họ cũng khởi kiện Anthropic vào tháng 6, cáo buộc công ty này tiếp tục thu thập dữ liệu từ Reddit bất chấp cam kết ngược lại.
Mark Graham, giám đốc Wayback Machine, đã đưa ra tuyên bố với The Verge về tình hình: “Chúng tôi có mối quan hệ lâu dài với Reddit và vẫn đang tiếp tục thảo luận về vấn đề này.”
Cập nhật ngày 11 tháng 8: Bổ sung tuyên bố từ Wayback Machine.