Trong video Hỏi & Đáp (Xem video) mới nhất của Google, John Mueller trả lời câu hỏi của chủ trang web về trang web của họ không được thu thập thông tin thường xuyên.
“Google thường xuyên lập chỉ mục một trang web như thế nào? Nó có vẻ như ít thường xuyên hơn cách nó hoạt động. Tôi thêm hoặc xóa các trang khỏi trang web của chúng tôi và chỉ vài tuần trước khi các thay đổi đó được phản ánh trong Google Tìm kiếm. “
Mueller giải thích rằng phải mất thời gian để thu thập toàn bộ trang web. Nếu Googlebot thu thập thông tin toàn bộ trang web trong một khoảng thời gian ngắn, nó sẽ gây ra sự quá tải không cần thiết trên Server. Vì lý do đó, Googlebot có giới hạn nghiêm ngặt về số trang mà nó có thể thu thập thông tin mỗi ngày (số liệu chính xác không được đề cập).
Vì Googlebot chỉ có thể thu thập thông tin một số lượng trang nhất định nên nó ưu tiên các trang cần được thu thập thông tin thường xuyên hơn. Theo Google, hầu hết các trang “quan trọng” là trang chủ và trang danh mục. Các trang đó sẽ được thu thập dữ liệu thường xuyên nhất, do đó những thay đổi sẽ được phản ánh trong tìm kiếm của Google nhanh hơn, ví dụ: bài viết trên blog cũ.
Googlebot sẽ thu thập dữ liệu lại các trang quan trọng ít nhất vài ngày/1 lần cho một website và thậm chí thường xuyên hơn trong một số trường hợp. Mueller đã không đề cập đến mức độ thường xuyên thu thập thông tin các loại trang khác. Với thông tin này, sự kiên nhẫn là chìa khóa khi chờ đợi những thay đổi trên các trang khác được lập chỉ mục lại trong Google Search.
Nguyên văn câu trả lời của John Mueller’s cho vấn đề này
“Looking at the whole website all at once, or even within a short period of time, can cause a significant load on a website. Googlebot tries to be polite and is limited to a certain number of pages every day. This number is automatically adjusted as we better recognize the limits of a website. Looking at portions of a website means that we have to prioritize how we crawl.
So how does this work? In general, Googlebot tries to crawl important pages more frequently to make sure that most critical pages are covered. Often this will be a websites home page or maybe higher-level category pages. New content is often mentioned and linked from there, so it’s a great place for us to start. We’ll re-crawl these pages frequently, maybe every few days. maybe even much more frequently depending on the website.”