Bạn có biết rằng website của bạn có thể đang sở hữu hàng trăm, thậm chí hàng ngàn trang mà Google chưa từng “để mắt” tới?
Điều này không phải vì nội dung bạn kém chất lượng, mà có thể vì… Google chưa crawl tới chúng. Và đó chính là lúc khái niệm “Crawl Budget” – ngân sách thu thập dữ liệu trở nên vô cùng quan trọng.
Trong bài viết này, chúng ta sẽ cùng tìm hiểu Crawl Budget là gì, tại sao nó lại quan trọng trong SEO và cách để bạn tăng Crawl Budget trên cho website của mình.
Crawl Budget là gì?
Crawl Budget hay ngân sách thu thập dữ liệu là lượng thời gian và tài nguyên mà công cụ tìm kiếm phân bổ để thu thập dữ liệu một website cụ thể. Nói cách khác, đây là số trang tối đa mà công cụ tìm kiếm có thể thu thập dữ liệu trên website của bạn trong một khung thời gian cụ thể. Crawl Budget có thể khác nhau tùy theo công cụ tìm kiếm (hoặc trình thu thập dữ liệu).
Google nói rằng bạn không nên lo lắng về ngân sách thu thập dữ liệu trừ khi:
- Website của bạn có hơn 1 triệu trang duy nhất với nội dung thay đổi khoảng một lần một tuần
- Bạn có một website cỡ trung bình, tức là khoảng 10 nghìn trang và thường xuyên thay đổi nội dung (hàng ngày)
- Bạn điều hành một website tin tức
- Search Console phân loại phần lớn các URL của website của bạn là Đã khám phá – hiện chưa được lập chỉ mục.
Mỗi website sẽ có ngân sách thu thập thông tin khác nhau dựa trên hai yếu tố sau:
Nhu cầu thu thập thông tin: Số lượng trang, tần suất đăng/cập nhật và mức độ phổ biến của các trang sẽ quyết định điều này.
Giới hạn tốc độ thu thập dữ liệu: Tốc độ này bị ảnh hưởng bởi khả năng của máy chủ (Server), giới hạn thu thập dữ liệu do chủ sở hữu website đặt (trong Search Console), giới hạn thu thập dữ liệu của công cụ tìm kiếm, v.v. Google cũng có thể tự động điều chỉnh tốc độ thu thập dữ liệu khi máy chủ chậm và ngược lại.
Tại sao Crawl Budget lại quan trọng đối với SEO?
Crawl Budget rất quan trọng vì nó ảnh hưởng đến số lượng trang Googlebot có thể thu thập trên website của bạn. Ngoài ra, nó cũng ảnh hưởng đến tần suất Googlebot thu thập lại dữ liệu website của bạn để cập nhật việc lập chỉ mục.
Google có nguồn lực khổng lồ, nhưng không thể thu thập dữ liệu (và thường xuyên thu thập lại dữ liệu) tất cả các trang trên Internet. Do đó, Google phân bổ ngân sách thu thập dữ liệu cho các website.
Và đó là lý do tại sao bạn muốn đảm bảo rằng ngân sách thu thập dữ liệu của mình không bị lãng phí vào việc thu thập dữ liệu các trang không quan trọng trên website của bạn.
Tuy nhiên, bạn không cần phải bận tâm đến ngân sách thu thập thông tin nếu bạn đang điều hành một blog tiêu chuẩn hoặc một website nhỏ.
Làm thế nào để tăng Crawl Budget?
Sau đây là cách bạn có thể tối ưu hóa ngân sách thu thập thông tin của website.
1. Tăng tốc máy chủ và giảm thời gian tải trang
Thời gian phản hồi của máy chủ và tốc độ tải trang ảnh hưởng trực tiếp đến quá trình thu thập dữ liệu. Quá trình này hoạt động như sau:
Khi Googlebot thu thập dữ liệu website của bạn, trước tiên nó sẽ tải xuống các tài nguyên và sau đó xử lý chúng. Nếu máy chủ của bạn phản hồi nhanh các yêu cầu thu thập dữ liệu của Google, nó có thể thu thập thêm nhiều trang trên website của bạn.
Vì vậy, hãy sử dụng dịch vụ web hosting nhanh chóng và đáng tin cậy cùng Mạng phân phối nội dung (CDN) để cải thiện thời gian phản hồi ban đầu của máy chủ.
Đồng thời, hãy giảm thời gian tải trang bằng cách:
- Ngăn chặn việc thu thập dữ liệu các tài nguyên lớn nhưng không quan trọng bằng robots.txt
- Tránh các chuỗi chuyển hướng dài
- Loại bỏ các themes và plugin nặng và được tối ưu code kém để giảm tình trạng phình trang
2. Thêm nhiều liên kết hơn
Số lượng liên kết đến một trang cho Google biết tầm quan trọng của trang đó. Googlebot ưu tiên thu thập dữ liệu các trang có nhiều backlink và liên kết nội bộ đến.
Vì vậy, bạn có thể tăng ngân sách thu thập dữ liệu bằng cách thêm nhiều liên kết bên ngoài và nội bộ vào trang của mình. Mặc dù việc lấy backlink từ các website bên ngoài có thể mất thời gian và không hoàn toàn nằm trong tầm kiểm soát của bạn, bạn có thể bắt đầu với giải pháp dễ dàng hơn là liên kết nội bộ.
3. Sửa các liên kết bị hỏng và giảm chuyển hướng
Quá nhiều liên kết nội bộ bị hỏng (mã phản hồi 404 hoặc 410) và URL chuyển hướng (3xx) có thể làm lãng phí ngân sách thu thập dữ liệu của website. Mặc dù các trang này sẽ có mức độ ưu tiên thu thập dữ liệu thấp nếu chúng không thay đổi trong một thời gian, nhưng tốt hơn hết là bạn nên sửa chúng để tối ưu hóa ngân sách thu thập dữ liệu và bảo trì website nói chung.
Bạn có thể dễ dàng tìm thấy các URL bị hỏng và các URL chuyển hướng trên website của mình trong báo cáo Internal page trong Site Audit của công cụ Ahrefs.
Khi tìm thấy các liên kết nội bộ bị hỏng, bạn có thể khôi phục trang tại cùng URL hoặc chuyển hướng URL đến một trang có liên quan khác.
Đối với các chuyển hướng, hãy xem có nhiều chuyển hướng và chuỗi chuyển hướng không cần thiết hay không và thay thế chúng bằng liên kết trực tiếp.
4. Sử dụng API lập chỉ mục nếu có thể
Một cách khác để trang của bạn được thu thập dữ liệu nhanh hơn là sử dụng API lập chỉ mục của Google. API này cho phép bạn thông báo trực tiếp cho Google bất cứ khi nào bạn thêm, xóa hoặc cập nhật các trang trên website của mình.
Tuy nhiên, API lập chỉ mục hiện chỉ khả dụng cho các trường hợp sử dụng như video trực tiếp và bài đăng việc làm. Vì vậy, nếu API này phù hợp với website của bạn, bạn có thể sử dụng nó để cập nhật URL trong chỉ mục và kết quả tìm kiếm của Google.
Cách kiểm tra hoạt động thu thập thông tin website của bạn
Google Search Console (GSC) cung cấp thông tin đầy đủ về cách Google thu thập dữ liệu website của bạn, cùng với bất kỳ sự cố nào có thể xảy ra và bất kỳ thay đổi lớn nào về hành vi thu thập dữ liệu theo thời gian.
Điều này có thể giúp bạn hiểu liệu có vấn đề nào ảnh hưởng đến ngân sách thu thập thông tin mà bạn có thể khắc phục hay không.
Để tìm thông tin này, hãy truy cập vào thuộc tính GSC của bạn và nhấp vào “Setting”.
Trong phần “Crawling”, bạn sẽ thấy số lượng yêu cầu thu thập dữ liệu trong 90 ngày qua.
Nhấp vào “Open report” để biết thêm thông tin chi tiết.
Trang “Crawl stats” hiển thị cho bạn nhiều tiện ích khác nhau có dữ liệu:
Tại đây bạn sẽ thấy:
Mục | Ý nghĩa |
---|---|
Total crawl requests | Số lần bot truy cập site bạn trong khoảng thời gian |
Total download size | Tổng dung lượng bot thu thập |
Average response time | Thời gian phản hồi từ server → ảnh hưởng đến crawl rate |
Crawl by response, file type, purpose | Cho biết Google ưu tiên crawl URL nào, tệp gì (HTML, CSS, JS…) |
Gợi ý: Nếu bạn thấy crawl giảm dần, hoặc tập trung vào các tệp phụ (JS, image) thay vì HTML chính → có thể cần tối ưu lại cấu trúc website.
Câu hỏi thường gặp
Googlebot có quan tâm đến việc cài đặt crawl-delay trong robots.txt không?
Không, Googlebot không tôn trọng cài đặt crawl-delay (độ trễ thu thập thông tin) được áp dụng trong tệp robots.txt.
Khi nào bạn nên quan tâm đến ngân sách thu thập thông tin?
Bạn chỉ nên quan tâm đến ngân sách thu thập dữ liệu nếu bạn đang vận hành một trang web rất lớn, tức là hơn 1 triệu trang hoặc một trang web cỡ trung bình với nội dung thay đổi rất thường xuyên (hàng ngày). Tuy nhiên, hầu hết các trang web không cần phải lo lắng về ngân sách thu thập dữ liệu.
Làm thế nào tôi có thể kiểm tra ngân sách thu thập dữ liệu cho website của mình?
Bạn sẽ không tìm thấy con số chính xác về ngân sách thu thập dữ liệu ở bất kỳ đâu. Tuy nhiên, bạn có thể kiểm tra tổng quan về hoạt động thu thập dữ liệu của Google trong báo cáo Crawl Stats của Google Search Console.