Bạn cảm thấy mệt mỏi khi chờ Google lập chỉ mục nội dung mới của bạn? Hãy giúp nó bằng cách đảm bảo rằng các trang của bạn có thể không gặp bất kỳ lỗi nào để được thu thập thông tin.
Lập chỉ mục là quá trình tải xuống thông tin từ websitee của bạn, phân loại và lưu trữ trong cơ sở dữ liệu. Cơ sở dữ liệu này – chỉ mục của Google là nguồn của tất cả thông tin bạn có thể tìm thấy qua Google Search.
Các trang không được bao gồm trong chỉ mục thì trang của bạn không thể xuất hiện trong kết quả tìm kiếm, bất kể chúng khớp và phù hợp với một truy vấn tìm kiếm tốt như thế nào.
Giả sử gần đây bạn đã thêm một trang mới vào blog của mình. Trong bài đăng mới, bạn thảo luận về một chủ đề thịnh hành, hy vọng nó sẽ cung cấp cho bạn nhiều lưu lượng truy cập mới.
Nhưng trước khi bạn có thể thấy trang đang hoạt động như thế nào trên Google Search, bạn phải đợi nó được lập chỉ mục.
Vì vậy, chính xác quá trình này mất bao lâu? Và khi nào bạn nên bắt đầu lo lắng rằng việc thiếu lập chỉ mục có thể báo hiệu các vấn đề kỹ thuật trên website của bạn?
Mất bao lâu để được lập chỉ mục ? Các dự đoán từ chuyên gia
Chỉ mục của Google chứa hàng trăm tỷ web và chiếm hơn 100 triệu gigabyte bộ nhớ.
Ngoài ra, Google không giới hạn số lượng trang trên một website có thể được lập chỉ mục. Mặc dù một số trang có thể được ưu tiên trong hàng đợi lập chỉ mục, nhưng các trang thường không phải cạnh tranh để được lập chỉ mục.
Vậy, vẫn còn chỗ cho một trang nhỏ nữa trong cơ sở dữ liệu khổng lồ này? Bạn không cần phải lo lắng về mục nhập blog của mình? Thật không may, bạn có thể phải tác động đến nó.
Google thừa nhận rằng không phải mọi trang do trình thu thập thông tin của nó xử lý đều sẽ được lập chỉ mục.
Vào tháng 1 năm 2021, John Mueller – Google Search Advocate, đã giải thích cặn kẽ về chủ đề này, tiết lộ rằng việc Google không lập chỉ mục tất cả các trang của một website lớn là điều khá bình thường.
Ông giải thích rằng thách thức đối với Google là cố gắng cân bằng giữa việc muốn lập chỉ mục càng nhiều nội dung càng tốt với việc ước tính xem nó có hữu ích cho người dùng công cụ tìm kiếm hay không.
Do đó, trong nhiều trường hợp, không lập chỉ mục một phần nội dung nhất định là lựa chọn chiến lược của Google.
Google không muốn việc lập chỉ mục của mình bao gồm các trang có chất lượng thấp, nội dung trùng lặp hoặc các trang không được người dùng tìm kiếm. Cách tốt nhất để ngăn chặn các trang spam ra khỏi kết quả tìm kiếm là không lập chỉ mục nó.
Có đảm bảo được rằng thời gian một trang sẽ được lập chỉ mục?
Như bạn có thể đã đoán từ tiêu đề của bài viết này, không có câu trả lời chắc chắn cho câu hỏi lập chỉ mục này.
Bạn sẽ không thể đặt cho mình lời nhắc lịch vào ngày bài đăng trên blog của bạn sắp được lập chỉ mục.
Nhưng nhiều người đã đặt câu hỏi tương tự trước đây, mong muốn nhân viên của Google và các chuyên gia SEO có kinh nghiệm cung cấp một số gợi ý.
John Mueller cho biết có thể mất vài giờ đến vài tuần để Google lập chỉ mục một trang. Anh ấy cho rằng hầu hết các nội dung hay được chọn và lập chỉ mục trong vòng khoảng một tuần.
Một số trang phải đợi đến tám tuần để được lập chỉ mục. Tất nhiên, điều này chỉ áp dụng cho các trang cuối cùng được lập chỉ mục.
Nhu cầu thu thập thông tin và ngân sách thu thập thông tin
Để một trang mới trên blog của bạn được phát hiện và lập chỉ mục, Googlebot phải thu thập thông tin lại blog.
Tần suất Googlebot thu thập lại dữ liệu website của bạn chắc chắn ảnh hưởng đến tốc độ trang mới của bạn sẽ được lập chỉ mục và điều đó phụ thuộc vào bản chất của nội dung và tần suất mà nó được cập nhật.
Các website tin tức xuất bản nội dung mới thường xuyên cần được thu thập lại thông tin thường xuyên. Có thể nói chúng là những trang web có nhu cầu thu thập thông tin cao.
Một ví dụ về website có nhu cầu thu thập thông tin thấp sẽ là một website về lịch sử nghề rèn, vì nội dung của nó không được cập nhật thường xuyên.
Google tự động xác định xem website có nhu cầu thu thập dữ liệu thấp hay cao. Trong quá trình thu thập thông tin ban đầu, nó sẽ kiểm tra nội dung của website và thời điểm nó được cập nhật lần cuối.
Quyết định thu thập dữ liệu website nhiều hay ít thường không liên quan gì đến chất lượng nội dung – yếu tố quyết định là tần suất cập nhật ước tính.
Yếu tố quan trọng thứ hai là tốc độ thu thập dữ liệu. Đó là số lượng yêu cầu mà Googlebot có thể thực hiện mà không làm áp đảo máy chủ của bạn.
Nếu bạn lưu trữ blog của mình trên một máy chủ băng thông thấp và Googlebot nhận thấy rằng máy chủ đang chậm lại, nó sẽ điều chỉnh và giảm tốc độ thu thập dữ liệu.
Mặt khác, nếu website phản hồi nhanh, giới hạn sẽ tăng lên và Googlebot có thể thu thập dữ liệu nhiều URL hơn.
Cần chuẩn bị những gì trước khi trang của bạn được lập chỉ mục?
Vì việc lập chỉ mục cần có thời gian, nên người ta cũng có thể tự hỏi – chính xác thì thời gian đó được sử dụng như thế nào?
Thông tin từ website của bạn được phân loại và đưa vào chỉ mục của Google như thế nào?
Hãy thảo luận về các sự kiện phải xảy ra trước khi lập chỉ mục.
Khám phá nội dung
Hãy quay lại ví dụ mà bạn đã đăng một bài đăng blog mới. Googlebot cần khám phá URL của trang này trong bước đầu tiên của quy trình lập chỉ mục.
Nó có thể xảy ra bằng cách:
- Theo các liên kết nội bộ bạn đã cung cấp ở các trang khác trê website của bạn.
- Theo các liên kết bên ngoài được tạo bởi những người thấy nội dung mới của bạn hữu ích.
- Xem qua Sitemap XML mà bạn đã tải lên Google Search Console.
Thực tế là trang đã được phát hiện có nghĩa là Google biết về sự tồn tại và URL của nó.
Thu thập thông tin
Thu thập thông tin là quá trình truy cập URL và tìm nạp nội dung của trang.
Trong khi thu thập thông tin, Googlebot thu thập thông tin về chủ đề chính của một trang nhất định, những tệp nào mà trang này chứa, những từ khóa nào xuất hiện trên đó, v.v.
Sau khi tìm thấy các liên kết trên một trang, trình thu thập thông tin sẽ theo chúng đến trang tiếp theo và quy trình tiếp tục.
Điều quan trọng cần nhớ là Googlebot tuân theo các quy tắc do robots.txt thiết lập để không thu thập dữ liệu các trang bị chặn bởi các lệnh bạn cung cấp trong tệp đó.
Kết xuất
Việc kết xuất cần diễn ra để Googlebot hiểu được cả nội dung JavaScript và các tệp hình ảnh, âm thanh và video.
Những loại tệp này luôn là một cuộc đấu tranh lớn hơn đối với Google so với HTML.
Martin Splitt – Google developer advocate, đã so sánh việc kết xuất giống với việc nấu một món ăn.
Trong phép ẩn dụ này, tệp HTML ban đầu của một website có liên kết đến các nội dung khác là một công thức. Bạn có thể nhấn F12 trên bàn phím để xem nó trong trình duyệt.
Tất cả các tài nguyên của web, chẳng hạn như CSS, tệp JavaScript, hình ảnh và video, là những thành phần cần thiết để cung cấp cho web cái nhìn cuối cùng.
Khi website đạt được trạng thái này, bạn đang xử lý HTML được hiển thị, thường được gọi là Document Object Model.
Martin cũng nói rằng thực thi JavaScript là giai đoạn kết xuất đầu tiên vì JavaScript hoạt động giống như một công thức trong một công thức.
Trong quá khứ, Googlebot đã từng lập chỉ mục phiên bản HTML ban đầu của một trang và để JavaScript hiển thị muộn do tính chất tốn kém thời gian và chi phí của quá trình này.
Ngành công nghiệp SEO gọi hiện tượng đó là “hai làn sóng lập chỉ mục”.
Tuy nhiên, bây giờ có vẻ như hai làn sóng không còn cần thiết nữa.
Mueller và Splitt thừa nhận rằng, hiện nay, gần như mọi website mới đều trải qua giai đoạn kết xuất theo mặc định.
Một trong những mục tiêu của Google là thu thập thông tin, hiển thị và lập chỉ mục diễn ra gần nhau hơn.
Bạn có thể lập chỉ mục trang của mình nhanh hơn không?
Bạn không thể buộc Google lập chỉ mục trang mới của mình.
Điều này xảy ra nhanh như thế nào cũng nằm ngoài tầm kiểm soát của bạn. Tuy nhiên, bạn có thể tối ưu hóa các trang của mình để việc khám phá và thu thập thông tin diễn ra suôn sẻ nhất có thể.
Đây là những gì bạn cần làm:
Đảm bảo trang của bạn có thể lập chỉ mục
Có hai quy tắc quan trọng cần tuân theo để giúp cho các trang của bạn có thể lập chỉ mục:
- Bạn nên tránh chặn chúng bằng robots.txt hoặc lệnh noindex trong meta robots.
- Bạn nên đánh dấu phiên bản chuẩn của một phần nội dung nhất định bằng thẻ canonical.
Robots.txt là một tệp chứa hướng dẫn cho các robot truy cập website của bạn.
Bạn có thể sử dụng nó để chỉ định trình thu thập thông tin nào không được phép truy cập vào các trang hoặc thư mục nhất định. Tất cả những gì bạn phải làm là sử dụng lệnh disallow.
Ví dụ: nếu bạn không muốn robot truy cập các trang và tệp trong thư mục có tiêu đề “ví dụ”, tệp robots.txt của bạn phải chứa các lệnh sau:
User-agent: *
Disallow: /example/
Đôi khi, có thể chặn Googlebot lập chỉ mục các trang có giá trị do nhầm lẫn.
Nếu bạn lo lắng rằng trang của mình không được lập chỉ mục do các vấn đề kỹ thuật, bạn chắc chắn nên xem xét tệp robots.txt của mình.
Googlebot sẽ không chuyển bất kỳ trang nào mà nó được yêu cầu là không cho vào quy trình lập chỉ mục. Một cách để thể hiện một lệnh như vậy là đặt một lệnh noindex vào:
- X-Robots-tag trong phản hồi tiêu đề HTTP của URL trang của bạn.
- Thẻ meta robots trong phần <head> trên trang của bạn.
Đảm bảo rằng chỉ thị này không xuất hiện trên các trang cần được lập chỉ mục.
Như chúng ta đã đề cập, Google muốn tránh lập chỉ mục các nội dung trùng lặp. Nếu nó tìm thấy hai trang trông giống như bản sao của nhau, nó có thể sẽ chỉ lập chỉ mục một trong số chúng.
Thẻ canonical được tạo để tránh hiểu lầm và ngay lập tức hướng Googlebot đến URL mà chủ sở hữu web coi là phiên bản gốc của trang.
Hãy nhớ rằng mã nguồn của trang bạn muốn có trong chỉ mục của Google không được trỏ đến một trang khác dưới dạng trang canonical.
Gửi sơ đồ trang web
Sơ đồ trang web liệt kê mọi URL trên website của bạn mà bạn muốn lập chỉ mục (tối đa 50.000 URL).
Bạn có thể gửi nó tới Google Search Console để giúp Google sớm khám phá sơ đồ web nhanh hơn.
Với sơ đồ trang web, bạn giúp Googlebot khám phá các trang của bạn dễ dàng hơn và tăng cơ hội thu thập dữ liệu những trang mà nó không tìm thấy khi theo các liên kết nội bộ.
Bạn nên bổ sung sơ đồ trang web trong tệp robots.txt của mình.
Yêu cầu Google thu thập lại thông tin các trang của bạn
Bạn có thể yêu cầu thu thập dữ liệu các URL riêng lẻ bằng công cụ Kiểm tra URL có sẵn trong Google Search Console.
Nó vẫn sẽ không đảm bảo việc lập chỉ mục và bạn sẽ cần một chút kiên nhẫn, nhưng đó là một cách khác để đảm bảo Google biết trang của bạn tồn tại.
Nếu có liên quan, hãy sử dụng API lập chỉ mục của Google
API lập chỉ mục là một công cụ cho phép bạn thông báo cho Google về các trang mới được thêm vào.
Nhờ công cụ này, Google có thể lập chỉ mục các nội dung nhạy cảm với thời gian một cách hiệu quả hơn.
Rất tiếc, bạn không thể sử dụng nó cho các bài đăng trên blog của mình vì hiện tại, công cụ này chỉ dành cho các trang có lời mời làm việc và video trực tiếp.
Mặc dù một số chuyên gia SEO sử dụng API lập chỉ mục cho các loại trang khác và nó có thể hoạt động trong thời gian ngắn nhưng đó vẫn là một giải pháp khả thi về lâu dài.
Ngăn chặn quá tải máy chủ trên website của bạn
Cuối cùng, hãy nhớ đảm bảo băng thông tốt cho máy chủ để Googlebot không làm giảm tốc độ thu thập dữ liệu cho website của bạn.
Tránh sử dụng các nhà cung cấp dịch vụ lưu trữ được chia sẻ và nhớ thường xuyên kiểm tra việc quá tải của máy chủ của bạn để đảm bảo nó có thể xử lý công việc nhanh hơn.
Tóm lại
Không thể dự đoán chính xác thời gian để trang của bạn được lập chỉ mục (hoặc liệu có bao giờ xảy ra hay không) vì Google không lập chỉ mục tất cả nội dung mà nó xử lý.
Thông thường, việc lập chỉ mục diễn ra vài giờ đến vài tuần sau khi xuất bản.
Điểm nghẽn lớn nhất để lập chỉ mục là được thu thập thông tin nhanh chóng.
Nếu nội dung của bạn đáp ứng các ngưỡng chất lượng và không có trở ngại kỹ thuật nào đối với việc lập chỉ mục, trước hết bạn nên xem cách Googlebot thu thập dữ liệu website của bạn để nhanh chóng lập chỉ mục nội dung mới.