链接分析排序的思想起源于文献引文索引机制,即谁的论文被引用次数多、引用它的论文的质量高,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多、链接它的网页质量高,那个网页就被认为是质量高、人气旺,是用户所需要的。链接分析算法大体可以分为3类,基于随机漫游模型的,比如PageRank,Repution算法;基于Hub和Authority相互增强模型的,如HITS及其变种;基于概率模型的,如SALSA;百度的超链分析和谷歌的PageRank都属于链接分析排序技术。在两者搜索引擎之间,算法都是有异曲同工之妙之处,本文重点讲解分析PageRank算法。
PageRank利用了互联网独特的民主特性及其巨大的链接结构。实质上,当从网页A链接到网页B时,PageRank就认为“网页A投了网页B一票”。可根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,还要分析为其投票的网页。“重要”网页所投之票自然份量较重,有助于增强其他网页的“重要性”。这样,重要的、高质量的网页可获得较高的网页级别,从而在搜索结果中可获较高的排位。
PageRank最初的基本算法公式:PR(A)=(1-d)+d(PR(T1)/C(T1))+...+PR(TN)/C(Tn))
公式备注:
R(A):网页A页的PageRank值;
PR(Ti):链接到A页的网页Ti的PageRank值;
C(Ti):网页Ti的出站链接数量;
d:阻尼系数,O<d<1。
可见,PageRank并不是将整个网站排等级,而是以单个页面计算的。页面A的PageRank值取决于那些链接到A的页面的PageRank的递归值。PR(Ti)值并不是均等影响页面PR(A)的。在PageRank的计算公式里,T对于A的影响还受T的出站链接数C(T)的影响。这就是说,T的出站链接越多,A受T的这个连接的影响就越少。PR(A)是所有PR(Ti)之和。所以,对于A来说,每多增加一个人站链接都会增加PR(A)。
并且所有PR(Ti)之和乘以一个阻尼系数d,它的值在O到1之间,一般设置为0.85。因此,阻尼系数的使用,减少了其它页面对当前页面A的排序贡献。事实上,计算某个页面的PageRank得分需要大量繁复计算。例如若计算A页的PageRank得分则首先要知道所有链至A页的网页(导人链接)的PageRank得分。要想知道这些外部链接页的PageRank得分,又需要先知道这些页面的外部链接的PageRank得分等等。A页的外部链接B能够带给A的PageRank得分与B的导出链接数量成反比,即随着B上导出链接数的增加,带给A的PageRank得分亦随之降低。这同样表明了一个网页的PageRank得分是该网页对其它页面投票的一个基本的度量形式。一个网页可以投票给一个或多个导出链接,但其总投票权一定,并被平均分配给所有的导出链接。假设B的PageRank得分是5,且B上只有一条指向A的链接,那么A将获得B全部的PageRank得分(B没有损失任何东西,而A赢得了B的PageRank得分)。但如果B上有N个链接,则A只能得到B的PageRank得分的N分之一。
简单说来,搜索引擎通过下述几个步骤来实现网页在其搜索结果页中的排名:
1、找到所有与搜索关键词匹配的网页。
2、根据页面因素如标题,关键词密度等排列等级。
3、计算导人链接的锚文本中的关键词。
4、通过PageRank得分调整网站排名结果。
事实上,真正的网站排名过程并不是这么简单,据百度等搜索引擎介绍,搜索引擎除了用PageRank算法衡量网页的重要程度以外,还有其它上百种因素来参与排序。其它搜索引擎也是如此,不可能只按照某一种规则来进行搜索结果的排序。要想做好SEO排名,了解算法原理本身,通过从本质出发,搜索引擎结果排序其实会越做越简单。
文章评论 本文章有个评论