Mục lục [Ẩn]
Robots.txt là một tập tin quan trọng khi tạo lập website. Nó cho phép bot của công cụ tìm kiếm được truy cập dữ liệu nào và không truy cập dữ liệu nào. Từ đó việc lập chỉ mục chính xác hơn và website được index nhanh hơn. Chính vì thế nếu website của bạn khó index thì có thể đã có lỗi ở tệp robots.txt. Vậy nên hãy tìm hiểu robots.txt là gì và tất cả các thông tin quan trọng của tệp này trong bài viết sau.
Robots.txt là gì?
Quá trình để một website xuất hiện được trên Google diễn ra như sau
Quản trị web đăng nội dung lên web > Googlebot truy cập web kiểm tra URL mới > Lập chỉ mục > Công bố website trên Google
Quá trình này gọi là Google index và bất kỳ một tập tin một file hay một đường dẫn nào trên website đều cần được index mới có thể xuất hiện trên internet. Để Googlebot có thể kiểm tra web chúng ta cần một tiêu chuẩn riêng và tệp chứa tiêu chuẩn đó gọi là file robots.txt.
Hiểu đơn giản, robots.txt là một tập tin có đuôi txt chứa các tiêu chuẩn web được quản trị viên lập ra để hướng dẫn cho các công cụ tìm kiếm thu thập thông tin trên trang để lập chỉ mục.
Nếu website thiếu file robots.txt các bot của trình duyệt tìm kiếm sẽ có thể truy cập tất cả các trang và lập chỉ mục cho tất cả các trang đó. Việc này đôi khi ảnh hưởng xấu đến SEO và chất lượng website nếu cấu trúc SEO của trang đó không chuẩn.
Xem thêm: Google index là gì? Cách để Google index nhanh nhất
Cấu trúc của tệp robots.txt
Một tệp robots.txt khi hiển thị sẽ có cấu trúc như sau
Ý nghĩa cụ thể của các thuật ngữ
- User - agent: Là tên của bot trên các trình duyệt tìm kiếm có công dụng thu thập dữ liệu. Ví dụ như Google Bot hay Bingbot,..
- Disallow: Là dòng thông báo cho các User - agent không được thu thập dữ liệu URL cụ thể nào. Mỗi URL chỉ được phép có 1 dòng Disallow
- Allow: Dòng lệnh cho phép Googlebot được truy cập trang nào, URL nào. Dù cho các file đó có thể không được phép truy cập
- Crawl-delay: Dòng lệnh thông báo cho các trình thu thập thông tin số thời gian phải chờ trước khi muốn tải và thu thập nội dung trên website.
- Sitemap: Dòng lệnh cung cấp các vị trí của các URL trong sitemap website
Xem thêm: Sitemap là gì? Hướng dẫn tạo sitemap cho website Wordpress
Một tệp robots.txt đầy đủ được hiển thị như sau
Công dụng của robots.txt
1. Chặn công cụ tìm kiếm khi website chưa hoàn thiện
Trong quá trình mới tạo lập và dùng thử website bạn cần thời gian để hoàn thiện các trang về cấu trúc và nội dung. Chính vì thế bạn không muốn các trình duyệt truy cập và index website lúc này. Việc này không có lợi cho SEO và khiến chất lượng web bị đánh giá thấp. Tạo tệp robots.txt khiến bạn ngăn chặn nguy cơ này.
2. Chặn trang tìm kiếm với các kết quả xấu
Để phát triển website tốt bạn cần Google đánh giá các URL có lợi. Vì thế việc thiết lập các tiêu chuẩn cho trình tìm kiếm giúp hạn chế các URL không chuẩn, gây hại đến sự phát triển của website.
3. Chặn các công cụ thu thập liên kết website
Một số công cụ nghiên cứu từ khóa và nghiên cứu website như Ahref, Top page, Organic keyword,... cho phép thu thập dữ liệu trang chỉ với địa chỉ website. Việc này khiến đối thủ có thể đọc thông tin phân tích về web của bạn. Từ đó “bắt chước” chiến lược từ khóa hoặc cạnh tranh với các từ khóa trên top của bạn. Để hạn chế điều này bạn cần các lệnh chặn trong robots.txt
Tuy nhiên nếu tất cả các URL trên trang của bạn đều tốt và không ảnh hưởng gì đến chất lượng trang thì bạn cũng không cần cài tệp robots.txt cho website.
Hạn chế của tệp robots.txt
1. Không phải tất cả các trình duyệt tìm kiếm đều hỗ trợ các lệnh trong tệp robots.txt
Việc cài đặt các tiêu chuẩn trên tệp robots.txt không áp dụng được với tất cả bot của các công cụ tìm kiếm. Có một số trình thu thập dữ liệu có quyền chọn có tuân theo tệp hay không. Vậy nên cách bảo mật dữ liệu tốt nhất chính là đặt mật khẩu cho các tệp riêng tư trên máy chủ.
2. Mỗi trình dữ liệu có cú pháp phân tích dữ liệu riêng
Một số trình dữ liệu uy tín sẽ tuân theo quy chuẩn của các lệnh trong tệp robots.txt. Tuy nhiên cách giải trình dữ liệu của mỗi trình tìm kiếm khác nhau. Một số trình sẽ không thể hiểu được câu lệnh cài trong tệp robots.txt. Vì thế quản trị web cần nắm rõ cú pháp thích hợp cho từng công cụ thu thập dữ liệu trên website.
3. Google vẫn có thể index các trang bị tệp robots.txt chặn
Trong trường hợp bạn đã chặn một URL hoặc một file trên web nhưng URL hoặc file đó vẫn xuất hiện trên một trang khác thì Google vẫn có thể đọc được và lập chỉ mục cho URL đó. Nội dung trong các file này vẫn có thể xuất hiện khi tìm kiếm trên Google. Nếu URL đó không thật sự cần thiết bạn có thể xóa toàn bộ URL trên web để bảo mật cao nhất.
Lưu ý quan trọng khi sử dụng tệp robots.txt
- Đa số các User-agent từ cùng một công cụ tìm kiếm đều tuân theo một quy tắc. Nên đôi khi việc chỉ định các lệnh cho từng User-agent là không cần thiết.
- Không nên sử dụng file robots.txt để chặn các dữ liệu riêng tư như thông tin người dùng. Vì website chứa thông tin này có thể liên kết đến nhiều website khác. Khi đó Googlebot sẽ bỏ qua các lệnh trong tệp robots.txt
- Cách bảo mật dữ liệu trang tốt nhất là dùng mật khẩu riêng tư cho các tệp hoặc URL không muốn truy cập trên website. Không nên lạm dụng các lệnh robots.txt cho việc này vì đôi khi hiệu quả cũng không cao.
Cách kiểm tra website có tệp robots.txt nhanh nhất
Trong quá trình phát triển website hoặc nghiên cứu đối thủ bạn muốn xem một website có bị chặn bởi tệp robots.txt hay không có thể thực hiện như sau.
Bước 1: Tìm tên miền của website
Ví dụ: nhanhoa.com
Bước 2: Tìm trên Google với cấu trúc tên miền/robots.txt
Ví dụ: nhanhoa.com/robots.txt
Khi đó ta được tệp robots.txt có kết quả như sau. Gồm các câu lệnh cho phép và không cho phép tác vụ của các trình duyệt tìm kiếm
Lời kết
Bài viết trên Nhân Hòa đã chia sẻ chi tiết về robots.txt là gì và các kiến thức quan trọng liên quan. Đây là thông tin hữu ích cho các webmaster để quản trị website tốt hơn. Hạn chế nguy cơ bị đối thủ phân tích dữ liệu trên trang. Chúc mọi người áp dụng thành công.
Nhân Hòa với 20 năm kinh nghiệm kinh doanh mua tên miền, hosting wordpress, vps, ssl giá rẻ, email theo tên miền,... luôn giữ vững top đầu là nhà đăng ký chất lượng và uy tín nhất Việt Nam. Mọi nhu cầu sử dụng dịch vụ hay phản hồi liên hệ với Nhân Hòa theo địa chỉ sau.
+ Tổng đài: 1900 6680
+ Website: https://nhanhoa.com/
+ Fanpage: https://www.facebook.com/nhanhoacom
+ Chỉ đường: https://g.page/nhanhoacom