Cách thu thập dữ liệu và lập chỉ mục website của Google

Cách thu thập dữ liệu và lập chỉ mục website của Google

SEO Technical

Được chuyên gia kiểm duyệt

Cùng tìm hiểu cách Google thu thập dữ liệu và lập chỉ mục các website để bạn có thể cải thiện khả năng hiển thị tìm kiếm của mình.

1. Thu thập dữ liệu là gì?

Thu thập dữ liệu (Crawling) là một quá trình mà các công cụ tìm kiếm khám phá nội dung mới trên internet. Để làm điều này, họ sử dụng các bot thu thập thông tin theo các liên kết từ các website đã biết đến các website mới.

Vì có hàng nghìn website được tạo ra hoặc cập nhật mỗi ngày nên quá trình thu thập thông tin là một cơ chế không bao giờ kết thúc được lặp đi lặp lại nhiều lần.

Martin Splitt, nhà phân tích xu hướng quản trị web của Google, mô tả quá trình thu thập dữ liệu khá đơn giản:

“Chúng tôi bắt đầu ở đâu đó với một số URL, sau đó về cơ bản theo các liên kết từ đó. Vì vậy, về cơ bản, chúng tôi đang thu thập dữ liệu theo cách của mình qua (một) trang internet, ít hoặc nhiều.”

Thu thập dữ liệu là bước đầu tiên trong quy trình. Tiếp theo là lập chỉ mục, xếp hạng (các trang trải qua các thuật toán xếp hạng khác nhau) và cuối cùng là cung cấp kết quả tìm kiếm phù hợp với truy vấn.

Hãy đi sâu hơn một chút ở đây và xem cách hoạt động của quá trình thu thập dữ liệu.

1.1 Trình thu thập thông tin của công cụ tìm kiếm là gì?

Trình thu thập dữ liệu của công cụ tìm kiếm (còn được gọi là web spider hoặc crawl bot) là một phần của chương trình thu thập dữ liệu các website, quét nội dung của chúng và thu thập dữ liệu cho mục đích lập chỉ mục.

Bất cứ khi nào trình thu thập thông tin truy cập một website mới qua các hyperlink, nó sẽ xem nội dung chứa trong đó, quét tất cả văn bản, thành phần hình ảnh, liên kết, tệp HTML, CSS hoặc JavaScript, v.v. – rồi chuyển (hoặc tìm nạp) thông tin này để xử lý và lập chỉ mục cuối cùng.

Google, với tư cách là một công cụ tìm kiếm, sử dụng trình thu thập dữ liệu web của riêng mình có tên là Googlebot. Có 2 loại trình thu thập thông tin chính:

Googlebot Smartphone – trình thu thập dữ liệu chính
Googlebot Desktop – trình thu thập thông tin thứ cấp

Googlebot thích thu thập dữ liệu website chủ yếu dưới dạng trình duyệt trên điện thoại thông minh, nhưng nó cũng có thể thu thập dữ liệu lại mọi website bằng trình thu thập dữ liệu trên máy tính để bàn để kiểm tra cách website hoạt động từ cả hai khía cạnh.

Tần suất thu thập dữ liệu của các trang mới được xác định bởi ngân sách thu thập dữ liệu.

1.2 Ngân sách thu thập dữ liệu là gì?

Ngân sách thu thập dữ liệu xác định số lượng và tần suất thu thập thông tin được thực hiện bởi web spiders. Nói cách khác, nó cho biết có bao nhiêu trang sẽ được thu thập dữ liệu và tần suất các trang đó sẽ được Googlebot thu thập lại dữ liệu.

Ngân sách thu thập dữ liệu được xác định bởi 2 yếu tố chính:

Giới hạn tốc độ thu thập dữ liệu – số lượng trang có thể được thu thập đồng thời trên website mà không làm quá tải máy chủ của nó.
Nhu cầu thu thập thông tin – số lượng trang cần được Googlebot thu thập thông tin và/hoặc thu thập lại thông tin.

Ngân sách thu thập dữ liệu nên được quan tâm chủ yếu đối với các website lớn có hàng triệu webpage, không dành cho các web nhỏ chỉ chứa vài trăm trang.

Ngoài ra, việc có ngân sách thu thập dữ liệu lớn không nhất thiết mang lại bất kỳ lợi ích bổ sung nào cho website vì nó không phải là tín hiệu về chất lượng cho các công cụ tìm kiếm.

2. Lập chỉ mục là gì?

Lập chỉ mục (Indexing) là một quá trình phân tích và lưu trữ nội dung từ các website được thu thập thông tin vào cơ sở dữ liệu (còn gọi là index). Chỉ các trang được lập chỉ mục mới có thể được xếp hạng và sử dụng trong các truy vấn tìm kiếm có liên quan.

Bất cứ khi nào trình thu thập dữ liệu web phát hiện ra một website mới, Googlebot sẽ chuyển nội dung của website đó (ví dụ: văn bản, hình ảnh, video, thẻ meta, thuộc tính, v.v.) vào giai đoạn lập chỉ mục nơi nội dung được phân tích cú pháp để hiểu rõ hơn về ngữ cảnh và được lưu trữ trong mục lục.

Martin Splitt giải thích giai đoạn lập chỉ mục thực sự làm gì:

“Khi chúng tôi có những trang này (…) chúng tôi cần hiểu chúng. Chúng ta cần tìm hiểu xem nội dung này nói về cái gì và nó phục vụ cho mục đích gì. Vì vậy, đó là giai đoạn thứ hai, đó là lập chỉ mục.”

Để làm điều này, Google sử dụng cái gọi là hệ thống lập chỉ mục Caffeine (Caffeine indexing system) được giới thiệu vào năm 2010.

Cơ sở dữ liệu của Caffeine Index có thể lưu trữ hàng triệu triệu gigabyte website. Các trang này được Googlebot xử lý và lập chỉ mục (và thu thập lại dữ liệu) một cách có hệ thống theo nội dung mà chúng chứa.

Googlebot không chỉ truy cập các website bằng trình thu thập dữ liệu trên thiết bị di động trước mà còn ưu tiên lập chỉ mục nội dung có trên các phiên bản dành cho thiết bị di động của chúng kể từ bản cập nhật Mobile-First Indexing.

Mobile-First Indexing là gì?

Mobile-First Indexing (Lập chỉ mục ưu tiên thiết bị di động) được giới thiệu lần đầu tiên vào năm 2016 khi Google thông báo rằng họ sẽ chủ yếu lập chỉ mục và sử dụng nội dung có sẵn trên phiên bản di động của website.

Tuyên bố chính thức của Google nói rõ:

“Trong lập chỉ mục đầu tiên trên thiết bị di động, chúng tôi sẽ chỉ lấy thông tin về website của bạn từ phiên bản dành cho thiết bị di động, vì vậy hãy đảm bảo rằng Googlebot có thể xem toàn bộ nội dung và tất cả các tài nguyên ở đó.”

Hiện nay, vì hầu hết mọi người sử dụng điện thoại di động để duyệt internet, nên có nghĩa là Google muốn xem xét các website “theo cùng một cách” như mọi người. Đây cũng là một lời kêu gọi rõ ràng đối với chủ sở hữu web để đảm bảo website của họ phản hồi nhanh và thân thiện với thiết bị di động.

Lưu ý: Điều quan trọng cần biết là việc sử dụng mobile-first indexing không nhất thiết có nghĩa là Google sẽ không thu thập dữ liệu website bằng tác nhân máy tính để bàn (Googlebot Desktop) để so sánh nội dung của cả hai phiên bản.

Tại thời điểm này, tôi đã đề cập đến khái niệm thu thập dữ liệu và lập chỉ mục từ góc độ lý thuyết.

Bây giờ, hãy xem các bước mà bạn có thể thực hiện khi thu thập dữ liệu và/hoặc lập chỉ mục cho website của mình.

3. Làm cách nào để Google thu thập dữ liệu và lập chỉ mục website?

Khi nói đến việc thu thập thông tin và lập chỉ mục thực tế, không có “lệnh trực tiếp” nào có thể khiến các công cụ tìm kiếm lập chỉ mục website của bạn.

Tuy nhiên, có một số cách để tác động đến việc liệu website của bạn có được thu thập dữ liệu và lập chỉ mục hay không, khi nào hoặc như thế nào.

Vì vậy, hãy kiểm tra xem các tùy chọn của bạn là gì khi nói với Google về sự tồn tại của bạn.

1. Không cần làm gì cả – cách tiếp cận thụ động

Từ quan điểm kỹ thuật, bạn không cần phải làm gì để website của mình được Google thu thập dữ liệu và lập chỉ mục.

Tất cả những gì bạn cần là một liên kết từ website bên ngoài và Googlebot cuối cùng sẽ bắt đầu thu thập dữ liệu và lập chỉ mục tất cả các trang có sẵn.

Tuy nhiên, thực hiện phương pháp “không làm gì cả” có thể gây ra sự chậm trễ trong việc thu thập dữ liệu và lập chỉ mục các trang của bạn vì có thể mất một khoảng thời gian để trình thu thập dữ liệu web khám phá ra website của bạn.

2. Gửi website qua công cụ Kiểm tra URL

Một trong những cách để bạn có thể “bảo mật” việc thu thập dữ liệu và lập chỉ mục của các webpage riêng lẻ là trực tiếp yêu cầu Google lập chỉ mục (hoặc lập chỉ mục lại) các trang của bạn bằng cách sử dụng công cụ kiểm tra URL trong Google Search Console.

Công cụ này hữu ích khi bạn có một trang hoàn toàn mới hoặc bạn đã thực hiện một số thay đổi quan trọng đối với trang hiện tại của mình và muốn lập chỉ mục trang đó càng sớm càng tốt.

Quá trình này khá đơn giản:

1. Truy cập Google Search Console và chèn URL mà bạn muốn Google lập chỉ mục vào thanh tìm kiếm ở trên cùng. Nhấp vào nhập.

2. Search Console sẽ hiển thị cho bạn trạng thái của trang. Nếu nó không được lập chỉ mục, bạn có thể yêu cầu lập chỉ mục. Nếu nó được lập chỉ mục, bạn không phải làm bất cứ điều gì hoặc yêu cầu lại (nếu bạn thực hiện bất kỳ thay đổi lớn nào đối với trang).

3. Công cụ kiểm tra URL sẽ bắt đầu kiểm tra xem phiên bản trực tiếp của URL có thể được lập chỉ mục hay không (có thể mất vài giây hoặc vài phút).

4. Sau khi quá trình kiểm tra hoàn tất thành công, một thông báo sẽ bật lên, xác nhận rằng URL của bạn đã được thêm vào hàng đợi thu thập thông tin ưu tiên để lập chỉ mục. Quá trình lập chỉ mục có thể mất từ vài phút đến vài ngày.

Lưu ý: Phương pháp lập chỉ mục này chỉ được khuyến nghị cho một số website; không lạm dụng công cụ này nếu bạn có một số lượng lớn các URL mà bạn muốn lập chỉ mục.

Yêu cầu lập chỉ mục không nhất thiết đảm bảo rằng URL của bạn sẽ được lập chỉ mục. Nếu URL bị chặn để thu thập dữ liệu và/hoặc lập chỉ mục hoặc có một số vấn đề về chất lượng với các nguyên tắc về chất lượng của Google, thì URL đó có thể hoàn toàn không được lập chỉ mục.

3. Gửi sitemap tới Google

Sitemap (Sơ đồ trang web) là một danh sách hoặc một tệp ở định dạng XML chứa tất cả các website của bạn mà bạn dự định sẽ được công cụ tìm kiếm thu thập thông tin và lập chỉ mục.

Lợi ích chính của sitemap là giúp công cụ tìm kiếm thu thập dữ liệu website của bạn dễ dàng hơn nhiều. Bạn có thể gửi một số lượng lớn URL cùng một lúc và do đó tăng tốc quá trình lập chỉ mục tổng thể cho website của bạn.

Để cho Google biết về sitemap của bạn, bạn sẽ sử dụng lại Google Search Console.

Bạn truy cập Google Search Console > Sơ đồ trang web và dán URL của sơ đồ trang web của bạn vào phần Thêm sơ đồ trang web mới:

Sau khi gửi, Googlebot cuối cùng sẽ kiểm tra sơ đồ trang web của bạn và thu thập dữ liệu mọi trang được liệt kê trong sitemap.

4. Thực hiện liên kết nội bộ phù hợp

Một cấu trúc liên kết nội bộ mạnh mẽ là một cách tiếp cận dài hạn tốt nhất để làm cho các webpage của bạn dễ dàng thu thập dữ liệu.

Làm thế nào để làm điều đó? Câu trả lời là một kiến trúc trang web phẳng. Nói cách khác, có tất cả các trang cách nhau ít hơn 3 liên kết:

Một cấu trúc liên kết nội bộ tốt có thể bảo mật việc thu thập dữ liệu của tất cả các website mà bạn muốn được lập chỉ mục vì các trình thu thập dữ liệu web sẽ có quyền truy cập dễ dàng vào tất cả các webpage đó. Thực tiễn này đặc biệt quan trọng đối với các trang web lớn (ví dụ: thương mại điện tử) chứa hàng nghìn trang có sản phẩm.

4. Làm cách nào để ngăn Google thu thập dữ liệu và lập chỉ mục trang của bạn?

Có nhiều lý do để ngăn Googlebot thu thập dữ liệu và lập chỉ mục các phần trên website của bạn. Ví dụ:

Nội dung riêng tư (ví dụ: Trang thông tin của người dùng sau khi đăng nhập sẽ không xuất hiện trong kết quả tìm kiếm)
Các trang trùng lặp (ví dụ: các trang có nội dung giống hệt nhau không được thu thập dữ liệu để tiết kiệm ngân sách thu thập dữ liệu hoặc xuất hiện nhiều lần trong kết quả tìm kiếm)
Các trang trống hoặc có lỗi (ví dụ: các trang đang thực hiện chưa được chuẩn bị để lập chỉ mục và hiển thị trong kết quả tìm kiếm)
Các trang ít giá trị (ví dụ: các trang do người dùng tạo không mang lại bất kỳ nội dung chất lượng nào cho các truy vấn tìm kiếm).

Tại thời điểm này, rõ ràng là Googlebot rất hiệu quả khi khám phá các website mới ngay cả khi nó không nằm trong ý định của bạn.

Dưới đây là tùy chọn khi đề cập đến việc ngăn chặn việc thu thập dữ liệu hoặc lập chỉ mục.

1. Sử dụng robots.txt (để ngăn thu thập dữ liệu)

Robots.txt là một tệp văn bản nhỏ chứa các lệnh trực tiếp dành cho trình thu thập dữ liệu web về cách chúng sẽ thu thập dữ liệu website của bạn.

Bất cứ khi nào trình thu thập dữ liệu web truy cập website của bạn, trước tiên chúng sẽ kiểm tra xem site của bạn có chứa tệp robots.txt hay không và hướng dẫn dành cho chúng là gì. Sau khi đọc các lệnh từ tệp, chúng bắt đầu thu thập dữ liệu website của bạn như được hướng dẫn.

Bằng cách sử dụng các lệnh “allow” và “disallow” trong tệp robots.txt, bạn có thể cho trình thu thập dữ liệu web biết phần nào của trang web nên được truy cập và thu thập dữ liệu và phần nào chúng không nên vào “quét”.

Đây là một ví dụ về tệp robots.txt trên trang web của New York Times với nhiều lệnh không cho phép:

Ví dụ: bạn có thể ngăn Googlebot thu thập dữ liệu:

Các trang có nội dung trùng lặp
Trang cá nhân
URL có tham số truy vấn
Các trang có nội dung mỏng
Trang thử nghiệm

Nếu không có hướng dẫn từ tệp này, trình thu thập dữ liệu web sẽ truy cập mọi trang mà nó có thể tìm thấy, bao gồm các URL mà bạn muốn tránh bị thu thập dữ liệu.

Mặc dù robots.txt có thể là một cách hay để ngăn Googlebot thu thập dữ liệu các trang của bạn, nhưng bạn không nên dựa vào phương pháp này như một cách để ẩn nội dung.

Các trang không được phép vẫn có thể được Google lập chỉ mục nếu một số trang khác đang trỏ liên kết đến các URL này.

Để ngăn không cho các webpage được lập chỉ mục, có một phương pháp khác hiệu quả hơn – Chỉ thị Meta Robots.

2. Sử dụng chỉ thị “noindex” (để ngăn lập chỉ mục)

Chỉ thị meta robots (đôi khi được gọi là thẻ meta) là các đoạn mã HTML nhỏ được đặt trong phần <head> của trang hướng dẫn các công cụ tìm kiếm cách lập chỉ mục hoặc thu thập dữ liệu trang đó.

Một trong những chỉ thị phổ biến nhất là cái gọi là chỉ thị “noindex” (một chỉ thị meta của robot có giá trị noindex trong thuộc tính nội dung). Nó ngăn các công cụ tìm kiếm lập chỉ mục và hiển thị trang web của bạn trong SERPs.

Nó trông như thế này:

<meta name=”robots” content=”noindex”>

Thuộc tính “robot” có nghĩa là lệnh áp dụng cho tất cả các loại trình thu thập dữ liệu web.

Chỉ thị ngăn lập chỉ mục đặc biệt hữu ích cho các trang mà khách truy cập muốn xem nhưng bạn không muốn chúng được lập chỉ mục hoặc xuất hiện trong kết quả tìm kiếm.

Noindex thường được kết hợp với thuộc tính follow hoặc nofollow để báo cho các công cụ tìm kiếm biết liệu chúng có nên thu thập dữ liệu các liên kết trên trang hay không.

5. Làm cách nào để kiểm tra xem trang có được lập chỉ mục hay không?

Khi cần kiểm tra xem các website đã được thu thập dữ liệu và lập chỉ mục hay chưa hoặc liệu một trang cụ thể có gặp sự cố hay không, có một số tùy chọn.

1. Kiểm tra thủ công

Cách dễ nhất để kiểm tra xem website của bạn đã được lập chỉ mục hay chưa là thực hiện thủ công bằng cách sử dụng toán tử site:

Nếu bạn muốn kiểm tra xem một URL cụ thể đã được lập chỉ mục hay chưa, hãy sử dụng URL thay vì tên miền:

Nếu trang của bạn đã được lập chỉ mục, bạn sẽ thấy nó trong kết quả tìm kiếm.

2. Kiểm tra trạng thái lập chỉ mục

Để có cái nhìn tổng quan chi tiết hơn về các trang được lập chỉ mục (hoặc không được lập chỉ mục), bạn có thể sử dụng Báo cáo phạm vi lập chỉ mục trong Google Search Console.

Các biểu đồ có chi tiết trong Báo cáo phạm vi lập chỉ mục có thể cung cấp thông tin có giá trị về trạng thái của URL và các loại sự cố với các trang được thu thập thông tin và được lập chỉ mục.

3. Sử dụng công cụ Kiểm tra URL

Công cụ Kiểm tra URL có thể cung cấp thông tin về các trang web riêng lẻ trong trang web của bạn từ lần cuối cùng chúng được thu thập thông tin.

Bạn có thể kiểm tra xem webpage của mình có:

có một số vấn đề (với chi tiết về cách nó được phát hiện)
đã được thu thập thông tin và lần thu thập thông tin cuối cùng
liệu trang có được lập chỉ mục và có thể xuất hiện trong kết quả tìm kiếm hay không

Tác giả bài viết

Lê Đức Tuấn

Lê Đức Tuấn là Giám đốc tại công ty dịch vụ SEO HOT, với hơn 15 năm kinh nghiệm trong lĩnh vực SEO và Digital Marketing. Hiện anh đang là người chịu trách nhiệm về các dự án SEO tại công ty và tác giả chính của tất cả các bài viết trên website.

See author's posts