John Mueller của Google trả lời liệu việc xóa các trang không được lập chỉ mục có giúp giải quyết vấn đề được phát hiện hiện không được lập chỉ mục hay không.
John Mueller của Google đã trả lời liệu việc xóa các trang khỏi một website lớn có giúp giải quyết vấn đề các trang được Google phát hiện nhưng không được thu thập thông tin hay không. John đưa ra những hiểu biết chung về cách giải quyết vấn đề này.
Đã phát hiện thấy – Hiện chưa được lập chỉ mục
Search Console một dịch vụ do Google cung cấp để truyền đạt các vấn đề và phản hồi liên quan đến tìm kiếm.
Trạng thái lập chỉ mục là một phần quan trọng của bảng điều khiển tìm kiếm vì nó cho nhà xuất bản biết mức độ trang web được lập chỉ mục và đủ điều kiện để xếp hạng.
Trạng thái lập chỉ mục của các trang web được tìm thấy trong Báo cáo lập chỉ mục trang của bảng điều khiển tìm kiếm.
Báo cáo rằng Google đã phát hiện ra một trang nhưng không được lập chỉ mục thường là dấu hiệu cho thấy vấn đề cần được giải quyết.
Có nhiều lý do tại sao Google có thể phát hiện ra một trang nhưng từ chối lập chỉ mục trang đó, mặc dù tài liệu chính thức của Google chỉ liệt kê một lý do.
“Đã khám phá – hiện chưa được lập chỉ mục
Google đã tìm thấy trang nhưng chưa thu thập dữ liệu.
Thông thường, Google muốn thu thập dữ liệu URL nhưng điều này được cho là sẽ làm quá tải trang web; do đó, Google đã lên lịch lại cho quá trình thu thập thông tin.
Đây là lý do tại sao ngày thu thập thông tin cuối cùng lại trống trên báo cáo.”
John Mueller của Google đưa ra nhiều lý do hơn về lý do tại sao một trang sẽ được phát hiện nhưng không được lập chỉ mục.
Hủy lập chỉ mục các trang không được lập chỉ mục để cải thiện việc lập chỉ mục trên toàn website?
Có ý kiến cho rằng việc xóa một số trang nhất định sẽ giúp Google thu thập dữ liệu phần còn lại của website bằng cách thu thập dữ liệu ít trang hơn.
Có ý kiến cho rằng Google có khả năng thu thập dữ liệu hạn chế (ngân sách thu thập dữ liệu) được phân bổ cho mọi trang.
Nhân viên của Google đã nhiều lần nói rằng không có cái gọi là ngân sách thu thập dữ liệu theo cách mà các SEOer cảm nhận về nó.
Google có một số cân nhắc về số lượng trang cần thu thập dữ liệu, bao gồm cả khả năng của máy chủ website để xử lý quá trình thu thập dữ liệu rộng rãi.
Một lý do cơ bản giải thích tại sao Google kén chọn số lượng thu thập thông tin là Google không có đủ dung lượng để lưu trữ mọi trang trên Internet.
Đó là lý do tại sao Google có xu hướng lập chỉ mục các trang có một số giá trị (nếu máy chủ có thể xử lý nó) và không lập chỉ mục các trang khác.
Để biết thêm thông tin về Ngân sách thu thập thông tin, hãy đọc: Google chia sẻ thông tin chi tiết về ngân sách thu thập thông tin
Đây là câu hỏi đã được hỏi:
“Liệu việc hủy lập chỉ mục và tổng hợp 8 triệu sản phẩm đã qua sử dụng thành 2 triệu trang sản phẩm duy nhất có thể lập chỉ mục có giúp cải thiện khả năng thu thập dữ liệu và khả năng lập chỉ mục (Đã phát hiện – sự cố hiện chưa được lập chỉ mục) không?”
John Mueller của Google lần đầu tiên thừa nhận rằng không thể giải quyết vấn đề cụ thể của một người sau đó đưa ra các đề xuất chung.
Ông ấy trả lời:
“Không thể nói được.
Tôi khuyên bạn nên xem lại hướng dẫn thu thập ngân sách của trang web lớn trong tài liệu của chúng tôi.
Đối với các trang web lớn, đôi khi việc thu thập dữ liệu nhiều hơn bị giới hạn bởi cách trang web của bạn có thể xử lý nhiều hoạt động thu thập dữ liệu hơn.
Tuy nhiên, trong hầu hết các trường hợp, đó là về chất lượng tổng thể website.
Bạn có đang cải thiện đáng kể chất lượng tổng thể của website bằng cách tăng từ 8 triệu trang lên 2 triệu trang không?
Trừ khi bạn tập trung vào việc cải thiện chất lượng thực tế, còn không thì rất dễ dành nhiều thời gian để giảm số lượng trang có thể lập chỉ mục mà không thực sự làm cho trang web tốt hơn và điều đó sẽ không cải thiện mọi thứ cho tìm kiếm.”
Hai lý do cho sự cố được phát hiện không được lập chỉ mục
John Mueller của Google đã đưa ra hai lý do tại sao Google có thể phát hiện ra một trang nhưng từ chối lập chỉ mục cho trang đó.
- Dung lượng máy chủ
- Chất lượng tổng thể website
1. Dung lượng máy chủ
Mueller nói rằng khả năng thu thập dữ liệu và lập chỉ mục các trang web của Google có thể bị “giới hạn bởi cách website của bạn có thể xử lý nhiều hoạt động thu thập dữ liệu hơn”.
Website càng lớn thì càng cần nhiều bot để thu thập dữ liệu website. Vấn đề phức tạp là Google không phải là bot duy nhất thu thập dữ liệu một website lớn.
Có những bot hợp pháp khác, chẳng hạn như từ Microsoft và Apple, cũng đang cố thu thập dữ liệu website. Ngoài ra, còn có nhiều bot khác, một số hợp pháp và một số khác liên quan đến hack và thu thập dữ liệu.
Điều đó có nghĩa là đối với một website lớn, đặc biệt là vào buổi tối, có thể có hàng nghìn bot sử dụng tài nguyên máy chủ website để thu thập dữ liệu một website lớn.
Đó là lý do tại sao một trong những câu hỏi đầu tiên tôi hỏi nhà xuất bản về vấn đề lập chỉ mục là trạng thái máy chủ (servers) của họ.
Nói chung, một website có hàng triệu trang hoặc thậm chí hàng trăm nghìn trang sẽ cần một máy chủ chuyên dụng hoặc máy chủ đám mây (vì cloud servers cung cấp các tài nguyên có thể mở rộng như băng thông, GPU và RAM).
Đôi khi, môi trường hosting có thể cần thêm bộ nhớ được chỉ định cho một quy trình, chẳng hạn như giới hạn bộ nhớ PHP, để giúp máy chủ đối phó với lưu lượng truy cập cao và ngăn chặn lỗi 500 Error Response Messages.
Máy chủ khắc phục sự cố liên quan đến việc phân tích nhật ký lỗi máy chủ.
2. Chất lượng tổng thể website
Đây là một lý do thú vị cho việc không lập chỉ mục đủ các trang. Chất lượng tổng thể của website giống như điểm số hoặc quyết định mà Google ấn định về một website.
Các phần của website có thể ảnh hưởng đến chất lượng tổng thể
John Mueller đã nói rằng một phần của website có thể ảnh hưởng đến việc xác định chất lượng tổng thể.
Mueller nói:
“…đối với một số thứ, chúng tôi xem xét chất lượng của website một cách tổng thể.
Và khi chúng tôi xem xét chất lượng tổng thể của website, nếu bạn có các phần quan trọng có chất lượng thấp hơn thì điều đó không quan trọng đối với chúng tôi như tại sao chúng lại có chất lượng thấp hơn.
…nếu chúng tôi thấy rằng có những phần quan trọng có chất lượng thấp hơn thì chúng tôi có thể nghĩ rằng tổng thểwebsite này không tuyệt vời như chúng tôi nghĩ.”
Định nghĩa về chất lượng trang web
John Mueller của Google đã đưa ra định nghĩa về chất lượng trang web trong một video Giờ làm việc khác:
“Khi nói đến chất lượng nội dung, chúng tôi không có ý chỉ giống như nội dung bài viết của bạn.
Nó thực sự là chất lượng tổng thể website của bạn.
Và điều đó bao gồm mọi thứ từ bố cục đến thiết kế.
Giống như, cách bạn trình bày mọi thứ trên các trang của mình, cách bạn tích hợp hình ảnh, cách bạn làm việc với tốc độ, tất cả những yếu tố mà chúng phát huy tác dụng ở đó.”
Mất bao lâu để xác định chất lượng tổng thể website
Một thực tế khác về cách Google xác định chất lượng website là Google mất bao lâu để xác định chất lượng tổng thể website, có thể mất hàng tháng.
Mueller nói:
“Chúng tôi mất rất nhiều thời gian để hiểu cách một website phù hợp với phần còn lại của Internet.
…Và đó là thứ có thể dễ dàng mất, vài tháng, nửa năm, đôi khi thậm chí lâu hơn nửa năm…”
Tối ưu hóa website để thu thập thông tin và lập chỉ mục
Tối ưu hóa toàn bộ website hoặc một phần của website là một cách tổng quát để xem xét vấn đề. Nó thường đi xuống để tối ưu hóa các trang riêng lẻ trên cơ sở thu nhỏ.
Riêng đối với các website thương mại điện tử có hàng nghìn, hàng triệu sản phẩm, việc tối ưu hóa có thể có nhiều hình thức.
Những điều cần chú ý:
Menu chính
Đảm bảo menu chính được tối ưu hóa để đưa người dùng đến các phần quan trọng của trang web mà hầu hết người dùng quan tâm. Menu chính cũng có thể liên kết đến các trang phổ biến nhất.
Liên kết đến các phần và trang phổ biến
Các trang và phần phổ biến nhất cũng có thể được liên kết từ phần nổi bật của trang chủ.
Điều này giúp người dùng truy cập các trang và phần quan trọng nhất đối với họ nhưng cũng báo hiệu cho Google rằng đây là những trang quan trọng cần được lập chỉ mục.
Cải thiện các trang nội dung mỏng
Thin Content – Nội dung mỏng về cơ bản là các trang có ít nội dung hữu ích hoặc các trang chủ yếu là bản sao của các trang khác (nội dung gốc).
Chỉ lấp đầy các trang bằng các từ là không đủ. Các từ và câu phải có ý nghĩa và liên quan đến khách truy cập website.
Đối với sản phẩm, đó có thể là số đo, trọng lượng, màu sắc có sẵn, gợi ý về các sản phẩm khác để kết hợp với nó, nhãn hiệu mà sản phẩm hoạt động tốt nhất, liên kết đến hướng dẫn sử dụng, Câu hỏi thường gặp, xếp hạng và thông tin khác mà người dùng sẽ thấy có giá trị.
Xem Google SEO Office Hours ở phút 13:41: