Cùng SEO HOT khám phá các vấn đề phổ biến nhất về file Robots.txt, tác động của chúng đối với website và sự hiện diện tìm kiếm của bạn cũng như cách khắc phục chúng.
Robots.txt là một công cụ hữu ích và mạnh mẽ để hướng dẫn trình thu thập dữ liệu của công cụ tìm kiếm về cách bạn muốn chúng thu thập dữ liệu website của bạn. Việc sử dụng và quản lý file này là một thành phần quan trọng của SEO technical tốt.
Nó không phải là toàn năng – theo cách nói của Google, “nó không phải là một cơ chế để loại một website ra khỏi Google” nhưng nó có thể giúp website hoặc máy chủ của bạn không bị quá tải bởi các yêu cầu của trình thu thập thông tin.
Nếu bạn có khối thu thập thông tin này trên website của mình, bạn phải chắc chắn rằng nó đang được sử dụng đúng cách.
Điều này đặc biệt quan trọng nếu bạn sử dụng URL động hoặc các phương pháp khác tạo ra số lượng trang vô hạn về mặt lý thuyết.
Trong hướng dẫn này, chúng tôi sẽ xem xét một số vấn đề phổ biến nhất với tệp robots.txt, tác động của chúng đối với website và sự hiện diện tìm kiếm của bạn cũng như cách khắc phục những vấn đề này nếu bạn cho rằng chúng đã xảy ra.
Nhưng trước tiên, hãy tìm hiểu những thứ cơ bản về robots.txt và các lựa chọn thay thế của nó.
1. Robots.txt là gì?
Robots.txt là một tệp văn bản đặc biệt được đặt trên máy chủ web để chỉ định các chỉ thị cho các robots hay “web crawlers” về cách họ nên tương tác với các website hoặc phần của website. Cụ thể, robots.txt được sử dụng để kiểm soát quá trình “crawling” của các công cụ tìm kiếm như Googlebot, Bingbot, hay các robot khác.
Tệp robots.txt cung cấp một cách cho quản trị viên website để thông báo cho các robots về các phần của website nên hoặc không nên được quét. Tệp này thường được đặt ở thư mục gốc của website và các robots sẽ tìm kiếm nó trước khi bắt đầu quét website.
Ví dụ, nếu bạn muốn ngăn chặn robot của một công cụ tìm kiếm nào đó quét một phần cụ thể của trang web, bạn có thể sử dụng robots.txt để chỉ định điều này. Cú pháp đơn giản trong tệp robots.txt có thể là:
User-agent: *
Disallow: /private/
Trong đó:
- User-agent: * áp dụng cho tất cả các robots.
- Disallow: /private/ ngăn chặn các robots từ việc quét các trang trong thư mục “private”.
Tuy nhiên, lưu ý rằng các robots không bắt buộc phải tuân theo chỉ thị trong robots.txt. Nó chỉ là một khuyến nghị và không có giả định về mức độ tuân thủ từ phía robots.
2. Robots.txt có thể làm gì?
Robots.txt có thể đạt được nhiều kết quả khác nhau trên nhiều loại nội dung khác nhau:
Các website có thể bị chặn thu thập thông tin.
Chúng có thể vẫn xuất hiện trong kết quả tìm kiếm nhưng sẽ không có mô tả văn bản. Nội dung không phải HTML trên trang cũng sẽ không được thu thập thông tin.
Các tệp phương tiện có thể bị chặn xuất hiện trong kết quả tìm kiếm của Google.
Điều này bao gồm các tập tin hình ảnh, video và âm thanh.
Nếu tệp ở chế độ công khai, tệp sẽ vẫn “tồn tại” trực tuyến và có thể được xem cũng như liên kết nhưng nội dung riêng tư này sẽ không hiển thị trong các tìm kiếm của Google.
Các tệp tài nguyên như các tập lệnh bên ngoài không quan trọng có thể bị chặn.
Nhưng điều này có nghĩa là nếu Google thu thập dữ liệu một trang yêu cầu tải tài nguyên đó thì robot Googlebot sẽ “nhìn thấy” một phiên bản của trang đó như thể tài nguyên đó không tồn tại, điều này có thể ảnh hưởng đến việc lập chỉ mục.
Bạn không thể sử dụng robots.txt để chặn hoàn toàn một trang web xuất hiện trong kết quả tìm kiếm của Google.
Để đạt được điều đó, bạn phải sử dụng một phương pháp thay thế, chẳng hạn như thêm thẻ meta ngăn lập chỉ mục vào đầu trang.
3. Những lỗi trong Robots.txt nguy hiểm đến mức nào?
Một sai sót trong robots.txt có thể gây ra những hậu quả không lường trước được, nhưng nó thường không phải là ngày tận thế.
Tin vui là bằng cách sửa tệp robots.txt, bạn có thể khôi phục mọi lỗi một cách nhanh chóng và đầy đủ.
Hướng dẫn của Google dành cho các nhà phát triển web nêu điều này về chủ đề lỗi robots.txt:
“Các trình thu thập dữ liệu web nhìn chung rất linh hoạt và thường sẽ không bị ảnh hưởng bởi những lỗi nhỏ trong tệp robots.txt. Nói chung, điều tồi tệ nhất có thể xảy ra là các lệnh không chính xác [hoặc] không được hỗ trợ sẽ bị bỏ qua.
Tuy nhiên, hãy nhớ rằng Google không thể đọc được suy nghĩ khi diễn giải tệp robots.txt; chúng tôi phải diễn giải tệp robots.txt mà chúng tôi đã tìm nạp. Điều đó có nghĩa là nếu bạn biết có vấn đề trong tệp robots.txt của mình thì chúng thường dễ khắc phục.”
4. Các lỗi thường gặp trong Robots.txt
- Robots.txt không có trong thư mục gốc.
- Sử dụng ký tự đại diện kém.
- Noindex trong Robots.txt.
- Tập lệnh và bảng định kiểu bị chặn.
- Không có URL Sitemaps.
- Truy cập vào các website phát triển.
- Sử dụng URL tuyệt đối.
- Các phần tử không được dùng nữa và không được hỗ trợ.
Nếu website của bạn hoạt động bất thường trong kết quả tìm kiếm thì tệp robots.txt của bạn là nơi phù hợp để tìm kiếm mọi lỗi, lỗi cú pháp và quy tắc phản ứng thái quá.
Chúng ta hãy xem xét từng lỗi trên một cách chi tiết hơn và xem cách đảm bảo bạn có tệp robots.txt hợp lệ.
1. Robots.txt không có trong thư mục gốc
Robot tìm kiếm chỉ có thể khám phá tệp nếu nó nằm trong thư mục gốc của bạn.
Đó là lý do tại sao chỉ nên có dấu gạch chéo lên giữa .com (hoặc tên miền tương đương) trên website của bạn và tên tệp ‘robots.txt’ trong URL của tệp robots.txt.
Nếu có thư mục con trong đó thì tệp robots.txt của bạn có thể không hiển thị với robot tìm kiếm và trang web của bạn có thể hoạt động như thể không có tệp robots.txt nào cả.
Để khắc phục sự cố này, hãy di chuyển tệp robots.txt vào thư mục gốc của bạn.
Điều đáng lưu ý là điều này sẽ yêu cầu bạn có quyền truy cập root vào máy chủ của mình.
Theo mặc định, một số hệ thống quản lý nội dung sẽ tải tệp lên thư mục con “phương tiện” (hoặc thư mục tương tự), vì vậy, bạn có thể cần phải tránh điều này để đưa tệp robots.txt của mình vào đúng vị trí.
2. Sử dụng ký tự đại diện kém
Robots.txt hỗ trợ hai ký tự đại diện:
- Dấu hoa thị (*) – đại diện cho mọi trường hợp của một nhân vật hợp lệ, chẳng hạn như Joker trong bộ bài.
- Ký hiệu đô la ($) – biểu thị phần cuối của URL, cho phép bạn chỉ áp dụng các quy tắc cho phần cuối cùng của URL, chẳng hạn như phần mở rộng kiểu tệp.
Việc áp dụng cách tiếp cận tối giản để sử dụng ký tự đại diện là điều hợp lý vì chúng có khả năng áp dụng các hạn chế cho phần rộng hơn nhiều trên trang web của bạn.
Việc chặn quyền truy cập của rô-bốt từ toàn bộ trang web của bạn bằng dấu hoa thị được đặt sai vị trí cũng tương đối dễ dàng.
Kiểm tra các quy tắc ký tự đại diện của bạn bằng công cụ kiểm tra robots.txt để đảm bảo chúng hoạt động như mong đợi. Hãy thận trọng với việc sử dụng ký tự đại diện để tránh vô tình chặn hoặc cho phép quá nhiều.
3. Noindex trong Robots.txt
Điều này phổ biến hơn trên các website đã hơn một vài năm tuổi.
Google đã ngừng tuân theo các quy tắc noindex trong tệp robots.txt kể từ ngày 1 tháng 9 năm 2019.
Nếu tệp robots.txt của bạn được tạo trước ngày đó hoặc chứa hướng dẫn noindex, bạn có thể thấy các trang đó được lập chỉ mục trong kết quả tìm kiếm của Google.
Giải pháp cho vấn đề này là triển khai một phương pháp “noindex” thay thế.
Một tùy chọn là thẻ meta robot, bạn có thể thêm thẻ này vào phần đầu của bất kỳ trang web nào bạn muốn ngăn Google lập chỉ mục.
4. Tập lệnh và bảng định kiểu bị chặn
Có vẻ hợp lý khi chặn quyền truy cập của trình thu thập thông tin vào các JavaScript bên ngoài và biểu định kiểu xếp tầng (CSS).
Tuy nhiên, hãy nhớ rằng Googlebot cần quyền truy cập vào các tệp CSS và JS để “xem” các trang HTML và PHP của bạn một cách chính xác.
Nếu các trang của bạn hoạt động bất thường trong kết quả của Google hoặc có vẻ như Google không nhìn thấy chúng một cách chính xác, hãy kiểm tra xem bạn có đang chặn quyền truy cập của trình thu thập thông tin vào các tệp bên ngoài được yêu cầu hay không.
Một giải pháp đơn giản cho vấn đề này là xóa dòng khỏi tệp robots.txt đang chặn quyền truy cập.
Hoặc, nếu bạn có một số tệp cần chặn, hãy chèn một ngoại lệ để khôi phục quyền truy cập vào CSS và JavaScript cần thiết.
5. Không có URL Sitemap XML
Đây là về SEO nhiều hơn bất cứ điều gì khác.
Bạn có thể đưa URL của Sitemap XML vào tệp robots.txt của mình.
Bởi vì đây là nơi đầu tiên Googlebot nhìn vào khi thu thập dữ liệu website của bạn, điều này giúp trình thu thập thông tin có khởi đầu thuận lợi trong việc biết cấu trúc và các trang chính trên trang web của bạn.
Mặc dù đây không hẳn là một lỗi vì việc bỏ qua sơ đồ trang web sẽ không ảnh hưởng tiêu cực đến chức năng cốt lõi thực tế và sự xuất hiện của trang web của bạn trong kết quả tìm kiếm bạn vẫn nên thêm URL sơ đồ trang web của mình vào robots.txt nếu bạn muốn nỗ lực SEO của mình tăng.
6. Truy cập vào các website phát triển
Chặn trình thu thập thông tin khỏi website trực tiếp của bạn là điều không nên, nhưng việc cho phép chúng thu thập dữ liệu và lập chỉ mục các trang vẫn đang được phát triển của bạn cũng vậy.
Cách tốt nhất là thêm hướng dẫn không cho phép vào tệp robots.txt của website đang được xây dựng để công chúng không nhìn thấy nó cho đến khi nó hoàn thành.
Tương tự, điều quan trọng là phải xóa hướng dẫn không cho phép khi bạn khởi chạy một website hoàn chỉnh.
Quên xóa dòng này khỏi robots.txt là một trong những lỗi phổ biến nhất của các nhà phát triển web; nó có thể ngăn toàn bộ website của bạn được thu thập thông tin và lập chỉ mục chính xác.
Nếu website phát triển của bạn dường như đang nhận được lưu lượng truy cập trong thế giới thực hoặc website mới ra mắt gần đây của bạn không hoạt động tốt trong tìm kiếm, hãy tìm quy tắc không cho phép tác nhân người dùng chung trong tệp robots.txt của bạn:
User-Agent: *
Disallow: /
Nếu bạn thấy điều này khi bạn không nên (hoặc không nhìn thấy nó khi bạn nên thấy), hãy thực hiện những thay đổi cần thiết đối với tệp robots.txt của bạn và kiểm tra xem giao diện tìm kiếm trên website của bạn có cập nhật tương ứng hay không.
7. Sử dụng URL tuyệt đối
Mặc dù sử dụng URL tuyệt đối trong những thứ như chuẩn và hreflang là cách tốt nhất, nhưng đối với URL trong robots.txt, điều ngược lại là đúng.
Sử dụng đường dẫn tương đối trong tệp robots.txt là phương pháp được đề xuất để chỉ ra những phần nào của trang web không được phép truy cập bởi trình thu thập dữ liệu.
Điều này được trình bày chi tiết trong tài liệu robots.txt của Google, trong đó nêu rõ:
Một thư mục hoặc trang, liên quan đến miền gốc, có thể được thu thập thông tin bởi tác nhân người dùng vừa đề cập.
Khi bạn sử dụng URL tuyệt đối, không có gì đảm bảo rằng trình thu thập thông tin sẽ hiểu URL đó như dự định và quy tắc không cho phép/cho phép sẽ được tuân theo.
8. Các phần tử không được dùng nữa và không được hỗ trợ
Mặc dù nguyên tắc dành cho tệp robots.txt không thay đổi nhiều trong những năm qua, nhưng hai yếu tố thường được đưa vào là:
Crawl-delay.
Noindex.
Mặc dù Bing hỗ trợ độ trễ thu thập dữ liệu, nhưng Google thì không, nhưng nó thường được quản trị viên web chỉ định. Trước đây, bạn có thể đặt cài đặt thu thập thông tin trong Google Search Console, nhưng cài đặt này đã bị xóa vào cuối năm 2023.
Google đã thông báo rằng họ sẽ ngừng hỗ trợ lệnh noindex trong tệp robots.txt vào tháng 7 năm 2019. Trước ngày này, quản trị viên web có thể sử dụng lệnh noindex trong tệp robots.txt của họ.
Đây không phải là phương pháp được tiêu chuẩn hóa hoặc hỗ trợ rộng rãi và phương pháp noindex ưa thích là sử dụng robots trên trang hoặc các biện pháp x-robot ở cấp độ trang.
5. Cách khôi phục sau lỗi Robots.txt
Nếu một lỗi trong robots.txt gây ra những ảnh hưởng không mong muốn đến giao diện tìm kiếm trên website của bạn thì bước đầu tiên là sửa robots.txt và xác minh rằng các quy tắc mới có tác dụng như mong muốn.
Một số công cụ thu thập dữ liệu SEO có thể giúp bạn không phải đợi công cụ tìm kiếm thu thập dữ liệu website của bạn tiếp theo.
Khi bạn tin tưởng rằng robots.txt đang hoạt động như mong muốn, bạn có thể thử thu thập lại dữ liệu website của mình càng sớm càng tốt.
Các nền tảng như Google Search Console và Bing Webmaster Tools có thể trợ giúp.
Gửi sitemap được cập nhật và yêu cầu thu thập dữ liệu lại bất kỳ trang nào đã bị xóa một cách không thích hợp.
Thật không may, bạn đang sử dụng Googlebot không có gì đảm bảo về việc mất bao lâu để bất kỳ trang bị thiếu nào xuất hiện lại trong chỉ mục tìm kiếm của Google.
Tất cả những gì bạn có thể làm là thực hiện hành động chính xác để giảm thiểu thời gian đó nhiều nhất có thể và tiếp tục kiểm tra cho đến khi Googlebot triển khai robots.txt đã sửa.
6. Kết
Khi liên quan đến lỗi robots.txt, phòng bệnh luôn tốt hơn chữa bệnh.
Trên một website tạo doanh thu lớn, ký tự đại diện sai sẽ xóa toàn bộ website của bạn khỏi Google có thể tác động ngay lập tức đến thu nhập.
Các chỉnh sửa đối với robots.txt phải được thực hiện cẩn thận bởi các nhà phát triển có kinh nghiệm, được kiểm tra kỹ và nếu thích hợp phải tuân theo ý kiến thứ hai.
Nếu có thể, hãy kiểm tra trong trình chỉnh sửa hộp cát trước khi phát trực tiếp trên máy chủ trong thế giới thực của bạn để tránh vô tình tạo ra các vấn đề về tính khả dụng.
Hãy nhớ rằng, khi điều tồi tệ nhất xảy ra, điều quan trọng là đừng hoảng sợ.
Chẩn đoán sự cố, thực hiện các sửa chữa cần thiết cho robots.txt và gửi lại sitemap của bạn để thu thập dữ liệu mới.
Vị trí của bạn trong bảng xếp hạng tìm kiếm hy vọng sẽ được khôi phục trong vòng vài ngày.