PageRank là một thuật toán của Google để xếp hạng các trang dựa trên luồng thẩm quyền thông qua các liên kết, được tạo bởi Larry Page và Sergey Brin.
PageRank đã từng là nền tảng cốt lõi của hệ thống tìm kiếm và là thứ đã khiến Google trở thành đế chế số 1 về tìm kiếm như ngày nay.
Ngay cả khi bạn thấy thông tin rằng PageRank đã bị ẩn đi trong một thời gian, thì không thể phủ nhận rằng nó từ lâu đã là một khái niệm phổ biến trong ngành.
Mọi chuyên gia SEO nên hiểu rõ Google Pagerank là gì và nó vẫn là thứ quan trọng cho đến ngày nay.
PageRank là gì?
PageRank là một thuật toán dựa trên sức mạnh tương đối tổng hợp của tất cả các siêu liên kết trên Internet. Nó được tạo ra bởi những người sáng lập Google, Larry Page và Sergey Brin.
Hầu hết mọi người cho rằng cái tên này dựa trên họ của Larry Page, trong khi những người khác cho rằng “Page” đề cập đến một web page. Cả hai quan điểm đều có khả năng đúng và sự trùng lặp có thể là cố ý.
Khi Page và Brin ở Đại học Stanford, họ đã viết một bài báo có tựa đề: Xếp hạng trích dẫn PageRank: Đưa trật tự lên Web.
Được xuất bản vào tháng 1 năm 1999, bài báo trình bày một thuật toán tương đối đơn giản để đánh giá sức mạnh của các web pages.
Bài báo tiếp tục được cấp bằng sáng chế ở Hoa Kỳ.
Đại học Stanford sở hữu bằng sáng chế và đã giao nó cho Google. Bằng sáng chế hiện tại sẽ hết hạn vào năm 2027.
Lịch sử về cách PageRank phát triển
Trong thời gian ở Stanford vào cuối những năm 1990, cả Brin và Page đều đang nghiên cứu các phương pháp truy xuất thông tin.
Vào thời điểm đó, việc sử dụng các liên kết để tìm ra mức độ “quan trọng” của mỗi trang so với trang khác là một cách mang tính cách mạng để sắp xếp thứ tự các trang. Nó rất khó tính toán nhưng không có nghĩa là không thể.
Ý tưởng nhanh chóng biến thành Google, vào thời điểm đó chỉ là một công ty nhỏ trong thế giới tìm kiếm.
Có quá nhiều niềm tin mang tính thể chế vào cách tiếp cận của Google từ một số bên đến nỗi ban đầu doanh nghiệp tung ra công cụ tìm kiếm của mình mà không có khả năng kiếm được doanh thu.
Và trong khi Google (vào thời điểm đó được gọi là “BackRub”) là công cụ tìm kiếm, thì PageRank là thuật toán được sử dụng để xếp hạng các trang trong trang kết quả của công cụ tìm kiếm (SERPs).
Google Dance
Một trong những thách thức của PageRank là toán học, trong khi đơn giản, cần phải được xử lý lặp đi lặp lại. Phép tính chạy nhiều lần, trên mọi trang và mọi liên kết trên Internet. Vào đầu thiên niên kỷ, toán học này mất vài ngày để xử lý.
Google SERPs liên tục bị di chuyển lên xuống trong thời gian đó. Những thay đổi này thường thất thường vì PageRank mới được tính toán cho mỗi trang.
Điều này được biết đến với cái tên “Google Dance” và nó nổi tiếng là đã ngăn chặn các chuyên gia SEO trong ngày theo dõi mỗi khi Google bắt đầu cập nhật hàng tháng.
(Google Dance sau này trở thành tên của một bữa tiệc thường niên mà Google tổ chức cho các chuyên gia SEO tại trụ sở chính ở Mountain View.)
Trusted Seeds
Một lần lặp lại sau của PageRank đã giới thiệu ý tưởng về một “Trusted Seeds” được thiết lập để bắt đầu thuật toán thay vì cung cấp cho mọi trang trên Internet cùng một giá trị ban đầu.
Reasonable Surfer
Một lần lặp lại khác của mô hình đã giới thiệu ý tưởng về một “Reasonable Surfer”.
Mô hình này gợi ý rằng PageRank của một trang có thể không được chia sẻ đồng đều với các trang mà nó liên kết đến, nhưng có thể cân nhắc giá trị tương đối của mỗi liên kết dựa trên khả năng người dùng có thể nhấp vào liên kết đó như thế nào.
Sự rút lui của PageRank
Thuật toán của Google ban đầu được cho là “không thể spam” trong nội bộ vì tầm quan trọng của một trang được quyết định không chỉ bởi nội dung của nó mà còn bởi một loại “hệ thống bỏ phiếu” được tạo bởi các liên kết đến trang.
Tuy nhiên, sự tự tin của Google đã không kéo dài.
PageRank bắt đầu trở thành vấn đề khi ngành công nghiệp mua bán backlink ngày càng phát triển. Vì vậy, Google đã rút nó khỏi chế độ xem công khai, nhưng vẫn tiếp tục dựa vào nó để phát triển cho các thuật toán xếp hạng sau này của mình.
PageRank Toolbar đã bị rút lại vào năm 2016 và cuối cùng, tất cả quyền truy cập công khai vào PageRank đã bị hạn chế. Nhưng vào thời điểm này, Majestic (một công cụ SEO) đã có thể tương quan khá tốt các tính toán của chính nó với PageRank.
Google đã dành nhiều năm để khuyến khích các chuyên gia SEO tránh thao túng các liên kết thông qua tài liệu “Nguyên tắc của Google” và thông qua lời khuyên từ nhóm spam của mình, do Matt Cutts đứng đầu, cho đến tháng 1 năm 2017.
Các thuật toán của Google cũng thay đổi trong thời gian này.
Công ty đã ít phụ thuộc vào PageRank hơn và sau khi mua MetaWeb và Sơ đồ tri thức độc quyền của nó (được gọi là “Freebase” vào năm 2014), Google bắt đầu lập chỉ mục thông tin của thế giới theo những cách khác nhau.
PageRank Toolbar và PageRank
Ban đầu, Google rất tự hào về thuật toán PageRank của mình đến nỗi họ vui mừng chia sẻ công khai kết quả tính toán của mình cho bất kỳ ai muốn xem.
Đại diện đáng chú ý nhất là phần mở rộng thanh công cụ cho các trình duyệt như Firefox, cho điểm từ 0 đến 10 cho mọi trang trên Internet.
Trên thực tế, PageRank có phạm vi điểm số rộng hơn nhiều, nhưng 0-10 đã cho các chuyên gia SEO và người tiêu dùng một cách tức thì để đánh giá tầm quan trọng của bất kỳ trang nào trên Internet.
PageRank Toolbar làm cho thuật toán trở nên cực kỳ rõ ràng, điều này cũng đi kèm với sự phức tạp. Cụ thể, điều đó có nghĩa là rõ ràng rằng các liên kết là cách dễ nhất để “đánh lừa” Google.
Càng nhiều liên kết (hoặc chính xác hơn là liên kết càng tốt), trang càng có thể xếp hạng tốt hơn trong SERPs của Google cho bất kỳ từ khóa được nhắm mục tiêu nào.
Điều này có nghĩa là một thị trường thứ cấp đã được hình thành, mua và bán các liên kết có giá trị trên PageRank của URL nơi liên kết được bán.
Vấn đề này trở nên trầm trọng hơn khi Yahoo tung ra một công cụ miễn phí có tên là Yahoo Search Explorer, cho phép bất kỳ ai cũng có thể bắt đầu tìm liên kết đến bất kỳ trang nào.
Sau đó, hai công cụ Moz và Majestic được xây dựng trên tùy chọn miễn phí bằng cách xây dựng các chỉ mục của riêng chúng trên Internet và đánh giá các liên kết riêng.
Cách PageRank cách mạng hóa tìm kiếm
Các công cụ tìm kiếm khác chủ yếu dựa vào việc phân tích nội dung trên từng trang riêng lẻ. Những phương pháp này có rất ít để xác định sự khác biệt giữa một trang có ảnh hưởng và một trang được viết đơn giản với văn bản ngẫu nhiên (hoặc được thao túng).
Điều này có nghĩa là các phương pháp truy xuất của các công cụ tìm kiếm khác cực kỳ dễ dàng để các chuyên gia SEO thao tác.
Khi đó, thuật toán PageRank của Google là một cuộc cách mạng.
Kết hợp với một khái niệm tương đối đơn giản về “nGrams” để giúp thiết lập mức độ liên quan, Google đã tìm ra một công thức mang đến hiệu quả.
Bằng cách hoạt động ở cấp độ trang, Google cũng đã tìm ra một giải pháp có khả năng mở rộng hơn nhiều so với cách tiếp cận dựa trên “thư mục” được Yahoo và sau này là DMOZ áp dụng – mặc dù DMOZ (còn được gọi là Dự án Thư mục Mở) ban đầu có thể cung cấp cho Google một mã nguồn mở thư mục của riêng mình.
Cách thức hoạt động của PageRank
Công thức cho PageRank có nhiều dạng nhưng có thể được giải thích trong một vài câu.
Ban đầu, mỗi trang trên internet được cho điểm PageRank ước tính. Đây có thể là bất kỳ số nào. Trước đây, PageRank được trình bày cho người dùng dưới dạng điểm từ 0 đến 10, nhưng trên thực tế, các ước tính không nhất thiết phải bắt đầu trong phạm vi này.
PageRank cho trang đó sau đó được chia cho số lượng liên kết bên ngoài trang, dẫn đến một phần nhỏ hơn.
PageRank sau đó được phân bổ cho các trang được liên kết và điều tương tự cũng được thực hiện cho mọi trang khác trên Internet.
Sau đó, đối với lần lặp lại tiếp theo của thuật toán, ước tính mới cho PageRank cho mỗi trang là tổng của tất cả các phân số của các trang liên kết đến từng trang nhất định.
Công thức này cũng chứa một “hệ số giảm xóc”, được mô tả là khả năng một người đang lướt web có thể ngừng lướt web hoàn toàn.
Trước khi mỗi lần lặp lại tiếp theo của thuật toán bắt đầu, PageRank mới được đề xuất sẽ bị giảm theo hệ số giảm chấn.
Phương pháp này được lặp lại cho đến khi điểm PageRank đạt đến trạng thái cân bằng ổn định. Các số kết quả sau đó thường được chuyển đổi thành một phạm vi dễ nhận biết hơn từ 0 đến 10 để thuận tiện.
Một cách để biểu diễn điều này một cách toán học là:
Trong đó:
- PR = PageRank trong lần lặp tiếp theo của thuật toán.
- d = hệ số giảm chấn.
- j = số trang trên Internet (nếu mỗi trang có một số duy nhất).
- n= tổng số trang trên Internet.
- i = số lần lặp của thuật toán (ban đầu được đặt bằng 0).
Công thức cũng có thể được biểu diễn dưới dạng Ma trận.
Các vấn đề và lặp lại công thức
Công thức có một số khó khăn và thách thức.
Nếu một trang không liên kết với bất kỳ trang nào khác, thì công thức sẽ không đạt đến trạng thái cân bằng.
Do đó, trong trường hợp này, PageRank sẽ được phân phối giữa mọi trang trên Internet. Theo cách này, ngay cả một trang không có liên kết đến cũng có thể nhận được một số PageRank, nhưng nó sẽ không tích lũy đủ để trở nên quan trọng.
Một thách thức khác ít được ghi lại hơn là các trang mới hơn, trong khi có khả năng quan trọng hơn các trang cũ hơn, sẽ có PageRank thấp hơn. Điều này có nghĩa là theo thời gian, nội dung cũ có thể có PageRank cao không tương xứng.
Thời gian một trang đã hoạt động không được tính vào thuật toán.
Cách PageRank luân chuyển giữa các trang
Nếu một trang bắt đầu với giá trị là 5 và có 10 liên kết ra ngoài, thì mỗi trang mà trang đó liên kết đến sẽ được xếp hạng 0,5 PageRank (trừ hệ số giảm xóc).
Theo cách này, PageRank luân chuyển trên Internet giữa các lần lặp lại.
Khi các trang mới xuất hiện trên Internet, chúng bắt đầu chỉ với một lượng PageRank rất nhỏ. Nhưng khi các trang khác bắt đầu liên kết đến các trang này, PageRank của chúng sẽ tăng theo thời gian.
PageRank có còn được sử dụng không?
Mặc dù quyền xem công khai chỉ số PageRank đã bị xóa vào năm 2016, nhưng người ta tin rằng điểm số vẫn có sẵn cho các kỹ sư tìm kiếm trong Google.
Việc rò rỉ các yếu tố được Yandex sử dụng cho thấy PageRank vẫn là yếu tố mà nó có thể sử dụng.
Các kỹ sư của Google đã gợi ý rằng dạng PageRank ban đầu đã được thay thế bằng một phép tính gần đúng mới yêu cầu ít sức mạnh xử lý hơn để tính toán. Mặc dù công thức ít quan trọng hơn trong cách Google xếp hạng các trang, nhưng nó vẫn là một hằng số đối với mỗi website.
Và bất kể những thuật toán nào khác mà Google có thể chọn sử dụng, PageRank có thể vẫn được nhúng trong nhiều hệ thống xếp hạng của gã khổng lồ tìm kiếm cho đến ngày nay.