Thuật Ngữ: Robots.txt

Robots.txt là gì?

Robots.txt là một tập tin văn bản cho phép một trang web để cung cấp hướng dẫn cho các web crawling bot.

Các công cụ tìm kiếm như Google sử dụng các trình thu thập web, đôi khi được gọi là các robot web, để lưu trữ và phân loại các trang web. Hầu hết các bots được cài đặt để tìm kiếm một tập tin robots.txt trên server trước khi nó đọc bất kì tập tin nào khác từ các website. Nó làm điều đó để xem liệu một chủ sở hữu của một trang web có một số hướng dẫn đặc biệt về cách crawl và index trang web của họ không.

Các tập tin robots.txt có chứa một bộ các hướng dẫn yêu cầu các bot bỏ qua các tập tin hoặc thư mục cụ thể. Điều này có thể cho mục đích riêng tư hoặc do chủ sở hữu trang web tin rằng các nội dung của các tập tin và thư mục không liên quan đến việc phân loại của các trang web trong công cụ tìm kiếm.

Nếu một trang web có nhiều hơn một tên miền phụ, mỗi tên miền phụ phải có tệp robots.txt riêng của mình. Điều quan trọng là cần lưu ý rằng không phải tất cả chương trình sẽ tôn vinh một tập tin robots.txt. Một số chương trình độc hại thậm chí sẽ đọc các tập tin robots.txt để tìm các tập tin và thư mục họ nên nhắm mục tiêu đầu tiên. Ngoài ra, ngay cả khi một tập tin robots.txt chỉ thị các bot cần bỏ qua một trang cụ thể trên trang web, các trang đó vẫn có thể xuất hiện trong các kết quả tìm kiếm của họ được liên kết đến bởi các trang khác mà được thu thập.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *