Đánh giá lequocthai.com:
Ảnh: Kimberly White/Getty Images cho TechCrunch
Cloudflare vừa lên tiếng cáo buộc Perplexity – một công cụ tìm kiếm AI – đã thu thập nội dung từ các website, dù các trang này đã thiết lập biện pháp để ngăn AI truy cập. Tuy nhiên, câu chuyện không đơn giản là “AI tự ý cào dữ liệu”, bởi có nhiều ý kiến cho rằng hành động của Perplexity vẫn có thể chấp nhận được trong một số trường hợp.
Nhiều người tỏ ra thông cảm và cho rằng việc Perplexity truy cập các website bị chặn, dù gây tranh cãi, vẫn có lý do để bảo vệ. Vấn đề này dự báo sẽ còn gây nhiều tranh luận hơn nữa khi ngày càng nhiều tác nhân AI xuất hiện trên Internet: Liệu AI truy cập website thay cho người dùng thì nên xem là “bot”, hay chỉ đơn giản là đại diện cho một người dùng thực?
Cloudflare vốn nổi tiếng là đơn vị cung cấp dịch vụ bảo vệ website trước bot và các nguy cơ bảo mật cho hàng triệu trang web. Để kiểm tra, Cloudflare đã lập một website hoàn toàn mới, chưa từng có bot nào ghé thăm, thêm file robots.txt để ngăn rõ ràng bot của Perplexity, rồi sau đó thử hỏi Perplexity về nội dung của trang này. Kết quả: Perplexity vẫn trả lời được.
Theo Cloudflare, công cụ AI này đã sử dụng một trình duyệt giả lập, bắt chước Google Chrome trên hệ điều hành macOS để vượt qua rào cản, khi bot chính bị chặn. CEO Cloudflare, Matthew Prince, đã chia sẻ kết quả này lên mạng xã hội X, ví von rằng: “Một số hãng AI lớn mà cũng chơi chiêu chẳng khác gì hacker Triều Tiên. Đã đến lúc phải nêu tên và chặn họ lại.”
Dù vậy, không phải ai cũng đồng tình với quan điểm của Prince rằng đây là hành vi xấu. Trên các nền tảng như X và Hacker News, nhiều người cho rằng Cloudflare chỉ ghi nhận việc AI truy cập một website công khai theo yêu cầu của người dùng mà thôi.
> “Nếu tôi là người dùng, tôi muốn truy cập một trang web thì tôi có quyền xem nội dung ở đó,” một thành viên trên Hacker News bình luận. “Không lý gì khi AI làm việc đó thay tôi thì lại phải tuân thủ luật lệ khác với trình duyệt Firefox của tôi.”
Phía Perplexity từng phủ nhận với TechCrunch rằng những bot bị Cloudflare phát hiện không thuộc sở hữu của họ, cho rằng Cloudflare chỉ đang dùng chuyện này để quảng bá dịch vụ. Đến ngày hôm sau, Perplexity đăng một bài blog phản hồi, vừa tự bảo vệ mình, vừa chỉ trích lại Cloudflare. Họ giải thích rằng hành động đó do một dịch vụ bên thứ ba mà họ thỉnh thoảng sử dụng gây ra.
Điều đáng chú ý là bài viết của Perplexity cũng xoay quanh lập luận giống như nhiều người đã lên tiếng bảo vệ họ:
> “Khác biệt giữa hành động tự động thu thập dữ liệu và việc truy cập theo yêu cầu người dùng không chỉ là câu chuyện kỹ thuật, mà là câu hỏi về quyền truy cập thông tin trên Internet mở,” bài blog nêu rõ. “Tranh cãi này cho thấy hệ thống của Cloudflare chưa đủ tốt để phân biệt giữa công cụ AI hợp pháp và các mối nguy thực sự.”
Tuy vậy, phía Perplexity cũng không hoàn toàn đúng. Một trong những dẫn chứng mà Cloudflare đưa ra để chỉ trích Perplexity là: OpenAI – một hãng AI lớn khác – không làm như vậy.
> “OpenAI là ví dụ điển hình về công ty AI tuân thủ các chuẩn mực tốt nhất,” Cloudflare viết. “Họ tôn trọng robots.txt, không cố tình lách các chỉ dẫn hoặc vượt rào chặn ở cấp mạng. ChatGPT Agent thậm chí còn xác thực các yêu cầu truy cập bằng chuẩn Web Bot Auth mới.”
Web Bot Auth là một tiêu chuẩn do Cloudflare hỗ trợ, đang được phát triển nhằm cho phép các website nhận diện và xác thực truy cập từ các tác nhân AI một cách minh bạch.
Cuộc tranh luận này diễn ra khi Internet đang dần thay đổi bởi sự xuất hiện của các bot. Như TechCrunch từng phân tích, các bot cào dữ liệu để huấn luyện AI đang trở thành mối đe dọa thực sự, nhất là với những website nhỏ.
Lần đầu tiên trong lịch sử, lưu lượng truy cập từ bot đã vượt qua người dùng thật – với lưu lượng liên quan đến AI chiếm hơn 50%, theo báo cáo Bad Bot của Imperva công bố gần đây. Phần lớn trong đó là các hoạt động của mô hình ngôn ngữ lớn (LLM). Báo cáo cũng chỉ ra bot độc hại hiện chiếm tới 37% tổng lưu lượng Internet, từ việc liên tục quét dữ liệu đến thử đăng nhập trái phép.
Trước thời đại LLM, cộng đồng mạng thường đồng thuận rằng các website cần và có thể chặn bot – vốn bị xem là gây hại – thông qua CAPTCHA hay các dịch vụ như Cloudflare. Những website này cũng có lý do để hợp tác với các bot uy tín như Googlebot, bằng cách điều chỉnh robots.txt, vì Google giúp các trang web tăng lượng truy cập nhờ lập chỉ mục và điều hướng người dùng.
Giờ đây, các LLM đang chiếm dần lượng truy cập đó. Theo dự báo của Gartner, lượng truy vấn trên các công cụ tìm kiếm truyền thống có thể giảm tới 25% vào năm 2026, do sự bùng nổ của chatbot AI và các trợ lý ảo. Khi người dùng chuyển từ việc nhấp link trên Google sang nhận câu trả lời trực tiếp từ AI, giá trị đem lại cho các website cũng thay đổi: người dùng chỉ truy cập khi thật sự cần, như lúc chuẩn bị giao dịch.
Vậy, nếu đúng như dự đoán của ngành công nghệ rằng người dùng sẽ chuyển sang dùng các tác nhân AI để đặt vé máy bay, tìm nhà hàng, mua sắm… thì liệu việc các website chặn những AI này có khiến họ tự cắt mất nguồn lợi của mình? Trên X, nhiều ý kiến thể hiện rõ sự giằng co:
> “TÔI MUỐN Perplexity truy cập bất kỳ nội dung công khai nào thay tôi khi tôi yêu cầu/nhiệm vụ!” – một người dùng viết, phản bác lại Cloudflare. > > “Nhưng nếu chủ trang web không muốn điều đó thì sao? Họ muốn bạn truy cập trực tiếp, xem nội dung, chứ không phải để Perplexity lấy hết thông tin đi,” người khác phản biện, nhấn mạnh rằng chủ website cần lưu lượng truy cập và doanh thu quảng cáo. > > “Đó là lý do tôi nghĩ ‘agentic browsing’ khó mà thành công – vấn đề này phức tạp hơn mọi người nghĩ. Chủ website sẽ chặn lại hết thôi,” một ý kiến khác dự đoán.
Chủ đề liên quan:
AI, tác nhân AI, bot AI, Cloudflare, Perplexity, quét dữ liệu web
Tham khảo thêm các [gợi ý ChatGPT sáng tạo nội dung hay nhất của tôi](https://aiphogpt.com)