Googlebot là trình thu thập dữ liệu web được Google sử dụng để thu thập thông tin cần thiết và xây dựng chỉ mục tìm kiếm trên web.

Googlebot có trình thu thập dữ liệu dành cho thiết bị di động (Mobile) và máy tính để bàn (PC), cũng như các trình thu thập dữ liệu chuyên biệt cho tin tức, hình ảnh, video, v.v.

Google sử dụng nhiều trình thu thập thông tin hơn cho các tác vụ cụ thể và mỗi trình thu thập thông tin sẽ tự xác định mình bằng một chuỗi văn bản khác nhau được gọi là “tác nhân người dùng“. Googlebot luôn hoạt động tốt, nghĩa là nó nhìn thấy các website giống như cách người dùng nhìn thấy trên trình duyệt Chrome mới nhất.

Googlebot chạy trên hàng ngàn máy tính. Chúng quyết định tốc độ và nội dung cần thu thập trên các website. Tuy nhiên, chúng sẽ giảm tốc độ thu thập dữ liệu để không làm quá tải website.

Theo Cloudflare Radar, Googlebot là trình thu thập dữ liệu nhanh nhất trên web và Ahrefsbot đứng thứ 2.

cloudflare radar

Nếu xét theo tỷ lệ phần trăm yêu cầu HTTP, Googlebot chiếm 23,7% tổng số yêu cầu từ các bot tốt. Ahrefsbot chiếm 14,27% và để so sánh, Bingbot chiếm 4,57% và Semrushbot chiếm 0,6%.

http requests googlebot

Cách Googlebot thu thập và lập chỉ mục website

Google đã từng chia sẻ một vài phiên bản của quy trình này. Dưới đây là phiên bản mới nhất.

googlebot pipeline

Nó xử lý lại thao tác này và tìm kiếm bất kỳ thay đổi nào trên trang hoặc liên kết mới. Nội dung của phiên bản di động của các trang được hiển thị là nội dung được lưu trữ và có thể tìm kiếm trong chỉ mục của Google. Bất kỳ liên kết mới nào được tìm thấy sẽ được đưa trở lại nhóm URL để thu thập dữ liệu.

Tôi có thêm thông tin chi tiết về quy trình này trong bài viết về cách thức hoạt động của công cụ tìm kiếm.

Cách kiểm soát Googlebot

Google cung cấp cho bạn một số cách để kiểm soát nội dung được thu thập và lập chỉ mục.

Các cách kiểm soát việc thu thập thông tin:

Robots.txt – Tệp này trên website của bạn cho phép bạn kiểm soát những thông tin được thu thập.

Nofollow – Nofollow là một thuộc tính liên kết hoặc thẻ meta robots gợi ý rằng một liên kết không nên được theo dõi. Nó chỉ được coi là một gợi ý, vì vậy có thể bị bỏ qua.

Thay đổi tốc độ thu thập dữ liệu (đã lỗi thời) – Công cụ này trong Google Search Console cho phép bạn làm chậm tốc độ thu thập dữ liệu của Google, nhưng hiện đã lỗi thời.

Các cách kiểm soát việc lập chỉ mục

  • Xóa nội dung của bạn – Nếu bạn xóa một trang, sẽ không còn gì để lập chỉ mục. Nhược điểm của việc này là không ai khác có thể truy cập vào trang đó.
  • Hạn chế quyền truy cập vào nội dung – Google không đăng nhập vào các website, do đó bất kỳ loại bảo vệ bằng mật khẩu hoặc xác thực nào cũng sẽ ngăn Google xem nội dung.
  • Noindex – Sử dụng lệnh noindex trong thẻ meta robots sẽ yêu cầu các công cụ tìm kiếm không lập chỉ mục trang của bạn.
  • Công cụ xóa URL – Tên gọi của công cụ này từ Google có thể gây hiểu lầm, vì cách thức hoạt động của nó là tạm thời ẩn nội dung. Google vẫn sẽ thấy và thu thập dữ liệu nội dung này, nhưng các trang sẽ không xuất hiện trong kết quả tìm kiếm.
  • Robots.txt (Chỉ hình ảnh) – Chặn Googlebot Image thu thập thông tin có nghĩa là hình ảnh của bạn sẽ không được lập chỉ mục.

Nếu bạn muốn biết thêm chi tiết về cách Googlebot xác định nội dung cần thu thập và tốc độ thu thập, hãy xem bài viết của tôi về ngân sách thu thập thông tin.

Chi tiết kỹ thuật của Googlebot

Sau đây là một số thông tin chi tiết về Googlebot có thể giúp bạn khắc phục nhiều sự cố khác nhau.

Vị trí

Googlebot chủ yếu thu thập dữ liệu từ Mountain View, California, Hoa Kỳ. Họ cũng có một số tùy chọn thu thập dữ liệu cụ thể theo từng địa phương mà họ có thể sử dụng trong các trường hợp như website chặn các trình thu thập dữ liệu từ Hoa Kỳ.

Kích thước tệp tối đa

Đối với hầu hết các loại tệp, Google sẽ lấy 15 MB đầu tiên của mỗi tệp. Tuy nhiên, đối với tệp robots.txt, kích thước tệp tối đa là 500 kibibyte (KiB).

Giao thức truyền tải được hỗ trợ

Googlebot hỗ trợ HTTP/1.1 và HTTP/2 và sẽ chọn giao thức nào mang lại hiệu suất thu thập dữ liệu tốt nhất cho website của bạn.

Chúng cũng có thể thu thập thông tin qua FTP và FTPS, nhưng điều này rất hiếm.

Mã hóa nội dung (nén)

Googlebot hỗ trợ gzip, deflate và Brotli (br).

Bộ nhớ đệm HTTP

Google hỗ trợ các tiêu chuẩn lưu trữ đệm như phản hồi ETag và Last-Modified cũng như tiêu đề yêu cầu If-None-Match và If-Modified-Since.

Cách để kiểm tra có thực sự là Googlebot không?

Nhiều công cụ SEO và một số bot độc hại sẽ giả mạo Googlebot. Điều này có thể cho phép chúng truy cập vào các website đang cố gắng chặn chúng.

Trước đây, bạn cần chạy tra cứu DNS để xác minh Googlebot. Tuy nhiên, gần đây, Google đã đơn giản hóa việc này hơn nữa bằng cách cung cấp danh sách các IP công khai mà bạn có thể sử dụng để xác minh các yêu cầu đến từ Google. Bạn có thể so sánh dữ liệu này với dữ liệu trong nhật ký máy chủ của mình.

Bạn cũng có thể truy cập báo cáo “Thống kê thu thập dữ liệu” trong Google Search Console. Bạn vào Cài đặt > Số liệu thống kê về hoạt động thu thập dữ liệu, báo cáo sẽ chứa nhiều thông tin về cách Google thu thập dữ liệu website của bạn. Bạn có thể xem Googlebot nào đang thu thập dữ liệu những tệp nào và khi nào nó truy cập vào chúng.

crawler

Tóm lại

Web là một nơi rộng lớn và hỗn loạn. Googlebot phải điều hướng qua tất cả các thiết lập khác nhau, cùng với thời gian ngừng hoạt động và các hạn chế, để thu thập dữ liệu mà Google cần để công cụ tìm kiếm của mình hoạt động.

Một sự thật thú vị để kết thúc câu chuyện là Googlebot thường được mô tả là một con robot và được gọi một cách khéo léo là “Googlebot”. Ngoài ra còn có một linh vật là một con nhện có tên là “Crawley“. Theo Lizzi Harvey của Google, linh vật là một con nhện cũng có tên không chính thức là “Dex”, viết tắt của Index.

Đọc thêm:

dịch vụ SEO HOT
Dịch vụ SEO HOT là công ty SEO hàng đầu tại TPHCM cung cấp các gói SEO tổng thể, SEO từ khóa, SEO Google Maps, tư vấn SEO cho các doanh nghiệp vừa và nhỏ.