Các kỹ sư tìm kiếm hàng đầu tiết lộ tín hiệu xếp hạng của Google

Mới đây, DOJ – Bộ Tư pháp Hoa Kỳ tiết lộ thông tin chi tiết về cách Google Search xếp hạng nội dung, Navboost, RankEmbed và LLM đang định hình lại tương lai của tìm kiếm.

Theo đó, Bộ Tư pháp Hoa Kỳ đã công bố một số bằng chứng thử nghiệm mới như một phần của phiên điều trần về biện pháp khắc phục đang diễn ra. Các bằng chứng này bao gồm các cuộc phỏng vấn với hai kỹ sư chủ chốt của Google – Pandu Nayak và HJ Kim đã cung cấp thông tin chi tiết về các tín hiệu và hệ thống xếp hạng của Google, các tính năng tìm kiếm và tương lai của Google.

1. Thuật ngữ chính của hệ thống xếp hạng tìm kiếm Google

Nayak đã định nghĩa một số thuật ngữ chính của Google và giải thích cấu trúc tìm kiếm của Google:

Tài liệu: Những gì Google gọi là trang web hoặc phiên bản được lưu trữ của trang web.

Tín hiệu: Cách Google xếp hạng các tài liệu cuối cùng tạo ra SERP (trang kết quả của công cụ tìm kiếm). Google đã nói về việc sử dụng các tín hiệu dự đoán từ các mô hình học máy cũng như “các tín hiệu truyền thống”, có thể có nghĩa là dựa trên dữ liệu phía người dùng (những gì Google trước đây gọi là tương tác của người dùng – ví dụ: nhấp chuột, chú ý vào kết quả, vuốt trên băng chuyền, nhập truy vấn mới).

Nhìn chung, có hai loại tín hiệu xếp hạng:

  1. Tín hiệu thô. Đây là những tín hiệu riêng lẻ. Theo Nayak, Google có “hơn 100 tín hiệu thô”.
  2. Tín hiệu cấp cao nhất. Đây là sự kết hợp của nhiều tín hiệu thô.

Các tín hiệu khác được các kỹ sư thảo luận bao gồm:

Q* (“Q star”): Cách Google đo lường chất lượng tài liệu.

Navboost: Một tín hiệu truyền thống đo lường lượt nhấp chuột của người dùng vào tài liệu để thực hiện truy vấn, được phân đoạn theo vị trí và loại thiết bị, sử dụng dữ liệu của 13 tháng gần nhất.

RankEmbed: Tín hiệu chính của Google, được đào tạo bằng Mô hình ngôn ngữ lớn (LLM).

PageRank: Một tín hiệu gốc của Google, vẫn là một yếu tố quyết định chất lượng trang.

Google cũng sử dụng Twiddlers để xếp hạng lại kết quả (chúng ta đã biết về điều này từ vụ rò rỉ Content API Warehouse nội bộ của Google năm ngoái ). Một “giao diện gỡ lỗi” nội bộ cho phép các kỹ sư xem việc mở rộng/phân tích truy vấn và điểm tín hiệu riêng lẻ quyết định thứ hạng kết quả tìm kiếm cuối cùng.

Google ngừng cung cấp các tín hiệu kém hiệu quả hoặc lỗi thời.

Cựu nhân viên Google Eric Lehman được hỏi liệu Navboost có đào tạo dựa trên dữ liệu người dùng trong 13 tháng hay không và ông đã làm rõ vấn đề này:

“Đó là hiểu biết của tôi. Bây giờ, từ ‘trains’ ở đây có thể hơi gây hiểu lầm. Navboost không phải là hệ thống học máy. Nó chỉ là một bảng lớn. Nó nói rằng đối với… truy vấn tìm kiếm này, tài liệu này nhận được hai lần nhấp. Đối với truy vấn này, tài liệu này nhận được ba lần nhấp… và cứ thế. Và nó được tổng hợp, và có một chút dữ liệu bổ sung. Nhưng bạn có thể coi nó chỉ là một bảng khổng lồ.”

2. Tìm kiếm Google: Từ truyền thống đến học máy

Tìm kiếm của Google phát triển từ chức năng xếp hạng “Okapi BM25” truyền thống để kết hợp học máy, bắt đầu với RankBrain (được công bố vào năm 2016), sau đó là DeepRank và RankEmbed.

Google phát hiện ra rằng các tín hiệu học máy DeepRank dựa trên BERT có thể được “phân tích thành các tín hiệu giống với các tín hiệu truyền thống” và việc kết hợp cả hai loại này sẽ cải thiện kết quả. Về cơ bản, điều này đã tạo ra một phương pháp tiếp cận kết hợp giữa truy xuất thông tin truyền thống và học máy.

Google “tránh chỉ ‘dự đoán lượt nhấp’” vì chúng dễ bị thao túng và không đo lường đáng tin cậy trải nghiệm của người dùng.

RankEmbed

Một tín hiệu chính, RankEmbed, là một “mô hình mã hóa kép” nhúng các truy vấn và tài liệu vào một “không gian nhúng”. Không gian này xem xét các thuộc tính ngữ nghĩa và các tín hiệu khác. Việc truy xuất và xếp hạng dựa trên “tích vô hướng” hoặc “biện pháp khoảng cách trong không gian nhúng”.

RankEmbed “cực kỳ nhanh” và vượt trội trong các truy vấn phổ biến, nhưng gặp khó khăn với các truy vấn đuôi dài ít thường xuyên hoặc cụ thể. Google đã đào tạo nó trên một tháng dữ liệu tìm kiếm.

3. Tính thời sự, chất lượng và các tín hiệu khác

Các tài liệu nêu chi tiết cách Google xác định mức độ liên quan của tài liệu với truy vấn hoặc “tính thời sự“. Các thành phần chính bao gồm các tín hiệu ABC:

  • Mỏ neo (A): Liên kết từ trang nguồn đến trang đích.
  • Nội dung (B): Các thuật ngữ trong tài liệu.
  • Nhấp chuột (C): Thời gian người dùng ở lại trên trang được liên kết trước khi quay lại SERP.

Những yếu tố này kết hợp thành T* (Tính thời sự), mà Google sử dụng để đánh giá mức độ liên quan của tài liệu với các thuật ngữ truy vấn.

Ngoài tính thời sự, “Q*” (chất lượng trang) hoặc “độ tin cậy” là cực kỳ quan trọng, đặc biệt là khi giải quyết các “trang trại nội dung”. HJ Kim lưu ý, “Ngày nay, mọi người vẫn phàn nàn về chất lượng và AI khiến vấn đề trở nên tồi tệ hơn”. PageRank góp phần vào việc đánh giá Điểm chất lượng.

Các tín hiệu khác bao gồm:

  • eDeepRank: Hệ thống LLM sử dụng BERT và transformers để phân tích tín hiệu dựa trên LLM nhằm mang lại độ minh bạch cao hơn.
  • BR: Tín hiệu “phổ biến” sử dụng dữ liệu Chrome.

Tín hiệu thủ công

Mặc dù máy học ngày càng trở nên quan trọng, nhiều tín hiệu của Google vẫn được các kỹ sư “làm thủ công”. Họ phân tích dữ liệu, áp dụng các hàm như sigmoid và đặt ngưỡng để tinh chỉnh tín hiệu.

Trong trường hợp cực đoan“, điều này có nghĩa là chọn thủ công các điểm giữa của dữ liệu. Đối với hầu hết các tín hiệu, Google sử dụng phân tích hồi quy trên nội dung website, lượt nhấp của người dùng và nhãn của người đánh giá.

Các tín hiệu thủ công rất quan trọng đối với tính minh bạch và dễ dàng khắc phục sự cố. Như Kim đã giải thích:

“Lý do tại sao phần lớn các tín hiệu được làm thủ công là vì nếu có bất kỳ sự cố nào xảy ra, Google sẽ biết cách sửa. Google muốn các tín hiệu của họ hoàn toàn minh bạch để họ có thể khắc phục sự cố và cải thiện chúng”.

Kim giải thích rằng các hệ thống máy học phức tạp khó chẩn đoán và sửa chữa hơn.

Điều này có nghĩa là Google có thể phản hồi các thách thức và sửa đổi các tín hiệu, chẳng hạn như điều chỉnh chúng cho “nhiều thách thức về phương tiện truyền thông/sự chú ý của người dùng”.

Tuy nhiên, các kỹ sư lưu ý rằng “việc tìm ra các cạnh chính xác cho những điều chỉnh này rất khó” và những điều chỉnh này “sẽ dễ dàng được thực hiện kỹ thuật đảo ngược và sao chép từ việc xem dữ liệu“.

Chỉ mục tìm kiếm và dữ liệu phía người dùng

Chỉ mục tìm kiếm của Google là nội dung đã thu thập: tiêu đề và nội dung. Có các chỉ mục riêng cho nội dung như nguồn cấp dữ liệu Twitter và dữ liệu của Macy. Các tín hiệu dựa trên truy vấn thường được tính toán tại thời điểm truy vấn, không được lưu trữ trong chỉ mục tìm kiếm, mặc dù một số có thể được lưu trữ để thuận tiện.

Dữ liệu phía người dùng“, đối với các kỹ sư tìm kiếm của Google, có nghĩa là dữ liệu tương tác của người dùng, không phải nội dung do người dùng tạo ra như liên kết. Các tín hiệu bị ảnh hưởng bởi dữ liệu phía người dùng khác nhau về mức độ bị ảnh hưởng.

Tính năng tìm kiếm

Mỗi tính năng tìm kiếm của Google (ví dụ: bảng kiến ​​thức) đều có thuật toán xếp hạng riêng. “Tangram” (trước đây là Tetris) nhằm mục đích áp dụng nguyên tắc tìm kiếm thống nhất cho tất cả các tính năng này.

Việc sử dụng bảng kiến ​​thức mở rộng ra ngoài các bảng SERP để nâng cao khả năng tìm kiếm truyền thống. Các tài liệu cũng trích dẫn “self-help suicide box”, nêu bật tầm quan trọng của cấu hình chính xác và công việc mở rộng đằng sau việc xác định “đường cong” và “ngưỡng” phù hợp.

Các tài liệu nhấn mạnh rằng sự phát triển của Google được thúc đẩy bởi nhu cầu của người dùng. Google xác định và gỡ lỗi các vấn đề, đồng thời kết hợp thông tin mới để cải thiện thứ hạng.

Google đang “suy nghĩ lại về cách sắp xếp tìm kiếm của họ từ đầu”, với LLM đóng vai trò lớn hơn. LLM có thể cải thiện “diễn giải truy vấn” và “trình bày tóm tắt kết quả”.

Trong một cuộc triển lãm riêng biệt, chúng ta đã được xem “cơ sở hạ tầng tìm kiếm kết hợp” của Google (mặc dù nhiều phần trong đó đã bị biên tập lại):

Google đang khám phá cách LLM có thể tái hiện thứ hạng, truy xuất và hiển thị SERP. Một cân nhắc chính là chi phí tính toán khi sử dụng LLM.

Trong khi các mô hình học máy ban đầu cần nhiều dữ liệu, Google hiện sử dụng “ngày càng ít”, đôi khi chỉ bằng 90 hoặc 60 ngày. Quy tắc của Google: sử dụng dữ liệu phục vụ người dùng tốt nhất.

Nguồn thông tin: https://searchengineland.com/google-abc-ranking-signals-455360

dịch vụ SEO HOT
Dịch vụ SEO HOT là công ty SEO hàng đầu tại TPHCM cung cấp các gói SEO tổng thể, SEO từ khóa, SEO Google Maps, tư vấn SEO cho các doanh nghiệp vừa và nhỏ.