John Mueller của Google đã tiết lộ trong một hangout Trung tâm Quản trị website trong tuần này rằng Googlebot có khả năng nhận ra nội dung trùng lặp trước khi nó thu thập dữ liệu nội dung đó.
Một câu hỏi đã được gửi bởi một chủ trang web hỏi nếu và khi nào Google sẽ xem xét một phiên bản tiếng Pháp của một trang là một bản sao của phiên bản tiếng Anh.
Google có thể xác định khi nhiều trang có cùng nội dung bằng các ngôn ngữ khác nhau không? Nếu vậy, làm thế nào để xử lý trong kết quả tìm kiếm?
Trong câu trả lời của Mueller, ông đã tiết lộ rằng, trong một số trường hợp, Google có thể phát hiện khi các trang chia sẻ cùng một nội dung mà không cần phải thu thập dữ liệu tất cả các trang. Đây là điều đáng để ý đến, đặc biệt khi nói đến cấu trúc URL của các trang.
Chúng ta hãy phân tích và xem xét ở góc độ rộng hơn. Bỏ qua việc ngôn ngữ thì những gì Mueller đã nói có thể áp dụng cho nội dung của cùng một ngôn ngữ.
Những gì Mueller nói ở đây là Google có thể xác định một trang có nội dung trùng lặp nếu nó chia sẻ thông số URL tương tự với các trang không khác nhau.
Rõ ràng đây không phải là tình huống lý tưởng vì có thể xảy ra trường hợp có các trang có nội dung độc đáo có các tham số URL giống như các trang trùng lặp chính xác.
Chủ sở hữu trang web có thể tránh việc trùng lặp nội dung bằng cách chú ý đến cách các thông số URL được tạo ra bởi trang web của họ.
Mueller thừa nhận rằng nó không phải lúc nào cũng là lỗi của webmaster khi các trang được coi là bản sao – đôi khi Google cũng là “lỗi” riêng của nó.
Câu hỏi và câu trả lời của Mueller, có thể được nhìn thấy trong đoạn video dưới đây bắt đầu từ thời gian 27:38.