Điều này có nghĩa là số lần nhấp chuột là yếu tố xếp hạng trực tiếp? Không. Trên thực tế, BERT và MUM đang khiến dữ liệu người dùng trở nên ít quan trọng hơn.
“Hầu hết mọi người đều biết chúng tôi đang sử dụng số lần nhấp chuột để xếp hạng. Đó là cuộc tranh luận: ‘Tại sao lại cố che giấu vấn đề này nếu mọi người đều biết?‘”
Câu nói đó đến từ Eric Lehman, cựu nhân viên 17 năm của Google, từng làm kỹ sư phần mềm về chất lượng tìm kiếm và xếp hạng. Anh ấy rời Google vào tháng 11.
Lehman đã làm rõ điều này vào thứ Tư tuần trước như một phần của phiên tòa chống độc quyền đang diễn ra giữa Hoa Kỳ và Google.
Nhưng đó không phải là tất cả những gì Lehman phải nói. Ông nói, hệ thống máy học BERT và MUM của Google đang trở nên quan trọng hơn dữ liệu người dùng.
“Theo một hướng, tốt hơn là có nhiều dữ liệu người dùng hơn, nhưng công nghệ mới và các hệ thống mới hơn có thể sử dụng ít dữ liệu người dùng hơn. Nó đang thay đổi khá nhanh”, Lehman nói, theo báo cáo của Law360.
Lehman tin rằng Google sẽ dựa nhiều hơn vào máy học để đánh giá văn bản hơn là dữ liệu người dùng, theo một email mà Lehman viết vào năm 2018, theo báo cáo của Fortune:
Ông viết: “Một lượng lớn phản hồi của người dùng có thể được thay thế phần lớn bằng việc học văn bản thô không có giám sát”.
Google sử dụng dữ liệu người dùng và đào tạo
Cũng có sự nhầm lẫn giữa “dữ liệu người dùng” và dữ liệu đào tạo” khi nói đến BERT. Big Tech đang dùng thử đã báo cáo:
“Nỗ lực của DOJ nhằm luận tội lời khai của Lehman dường như cũng phản tác dụng. Để trả lời câu hỏi của DOJ về việc liệu Google có lợi thế khi sử dụng BERT so với đối thủ cạnh tranh nhờ dữ liệu người dùng hay không, Lehman đã làm chứng rằng ‘lợi thế lớn nhất của Google khi sử dụng BERT’ so với các đối thủ cạnh tranh là Google đã phát minh ra BERT.
DOJ sau đó đã tổ chức một cuộc triển lãm có tiêu đề ‘Bullet points for presentation to Sundar.’ Một trong những điểm nhấn trong cuộc triển lãm này đã nói như sau: ‘Bất kỳ đối thủ cạnh tranh nào cũng có thể sử dụng BERT hoặc các công nghệ tương tự. May mắn thay, dữ liệu đào tạo của chúng tôi mang lại cho chúng tôi một khởi đầu thuận lợi. Chúng tôi có cơ hội duy trì và mở rộng vị trí dẫn đầu của mình bằng cách sử dụng đầy đủ dữ liệu đào tạo với BERT và cung cấp dữ liệu đó cho người dùng của chúng tôi…’
Đây có thể là một cuộc luận tội Lehman một cách hiệu quả nếu “dữ liệu đào tạo” có nghĩa là một loại dữ liệu người dùng nào đó. Nhưng sau khi DOJ kết thúc cuộc kiểm tra lại trực tiếp, Thẩm phán Mehta đã hỏi Lehman “dữ liệu đào tạo” đề cập đến điều gì. Lehman giải thích rằng nó khác với dữ liệu tìm kiếm của người dùng.”
Đây là một chủ đề nhạy cảm
Lehman cũng được luật sư DOJ Erin Murdock-Park hỏi về một slide từ một trong những slide của anh ấy về “Chủ đề nhạy cảm” hướng dẫn nhân viên “không thảo luận về việc sử dụng các cú nhấp chuột trong tìm kiếm…”
Theo báo cáo từ Big Tech on Trial (thông qua X), Lehman cho biết “chúng tôi cố gắng tránh xác nhận rằng chúng tôi sử dụng dữ liệu người dùng trong xếp hạng kết quả tìm kiếm”.
Phóng viên X post cho biết “Tôi không nhận được nhiều ghi chú tốt về điều này, nhưng tôi nghĩ lý do có liên quan đến việc không muốn mọi người nghĩ rằng SEO có thể được sử dụng để thao túng kết quả tìm kiếm”.
that “we try to avoid confirming that we use user data in the ranking of search results.” I didn’t get great notes on this, but I think the reason had something to do with not wanting people to think that SEO could be used to manipulate search results.
— Big Tech on Trial (@BigTechOnTrial) September 20, 2023
Google là kẻ nói dối?
Kể từ khi phát hiện ra lời khai này, giới SEO đã nhanh chóng sử dụng các trích dẫn của Lehman làm bằng chứng chắc chắn rằng Google đã nói dối về việc sử dụng số lần nhấp chuột hoặc tỷ lệ nhấp chuột trong suốt 25 năm hoạt động của mình.
Câu hỏi liệu Google có sử dụng số lượt nhấp chuột hay không là câu hỏi đầu tiên được đặt ra vào tuần trước trong buổi AMA với Gary Illyes của Google tại Pubcon Pro ở Austin. Câu trả lời của Illyes là “về mặt kỹ thuật thì có”, bởi vì Google sử dụng dữ liệu tìm kiếm lịch sử cho thuật toán RankBrain của mình.
Về mặt kỹ thuật là có, được dịch từ Googler Speak, có nghĩa là có. RankBrain đã được đào tạo về dữ liệu tìm kiếm của người dùng.
Chúng tôi biết điều này vì Illyes đã nói với chúng tôi điều này vào năm 2018. Anh ấy cho biết RankBrain “sử dụng dữ liệu tìm kiếm lịch sử để dự đoán những gì người dùng có nhiều khả năng nhấp vào nhất cho một truy vấn chưa từng thấy trước đây”.
RankBrain đã được sử dụng cho tất cả các tìm kiếm, ảnh hưởng đến “rất nhiều” tìm kiếm trong số đó, bắt đầu từ năm 2016.
Google đang theo dõi mọi thứ.
Nhưng việc Google theo dõi số lần nhấp chuột trong tìm kiếm không có nghĩa là số lần nhấp chuột được sử dụng làm yếu tố xếp hạng trực tiếp. Ví dụ, nếu trang A nhận được 100 lần nhấp và trang B nhận được 101 lần nhấp thì trang B sẽ tự động nhảy lên vị trí 1.
Giống như cách Google sử dụng nhân lực để đánh giá chất lượng kết quả tìm kiếm, Google có thể sử dụng các cú nhấp chuột để xếp hạng kết quả cho các truy vấn và huấn luyện hệ thống xếp hạng của mình.
Tại sao chúng ta nên quan tâm.
Google có sử dụng nhấp chuột không? Đúng.
Nhưng có lẽ đó không phải là một tín hiệu xếp hạng (phải thừa nhận rằng tôi không thể nói điều đó chắc chắn 100% vì tôi không làm việc tại Google hoặc có quyền truy cập vào thuật toán). Tôi biết tiếng nhấp chuột rất ồn ào và dễ thao tác. Và đối với nhiều site/truy vấn, sẽ không có đủ dữ liệu để đánh giá và biến nó thành tín hiệu xếp hạng hữu ích cho Google.
Tìm hiểu sâu hơn. Bí ẩn lớn nhất về thuật toán của Google: Mọi thứ từng được nói về số lần nhấp, CTR và tỷ lệ thoát