目前关于个性化PageRank,其他的常见方法还有模型化PageRank(modular PageRank)和BlockRank等。这些方法在具体的计算方法上,主要的特点体现在从效率的角度上对算法进行了必要的优化。
关于加速PageRank算法的先前研究内容主要使用稀疏性图结构技术,比如Arasu等提出的观点,他们不仅仅单纯使用上次迭代循环产生值来计算本轮循环值,也使用本轮循环已经产生的值来加速本轮循环的计算。甚至提出了Web网络的蝴蝶结结构,并将其用于PageRank值的有效计算中。然而这些方法并不具有很大的实用性,主要原因在于算法要求对Web网络矩阵进行排序,这个操作需要按照深度搜索优先的原则进行网络遍历,这显然是一种代价极大的运算。最近Kamvar等也提出一些算法,使用连续中间循环来推断真实PageRank更好的估计值,但是仍然存在受PageRank算法初始参数影响的不足之处。
目前对于Web网络图结构的分析主要关注于研究图的属性,如节点的分布、网页链接的情况和Web网页图结构的建模等。然而,对于这些研究并没有强调如何有效利用这些属性来加快超链分析。
不少学者提出了一些改进做法,如Raghavan和Garcia-Molina等利用主机名称或者URL隐含的Web结构来代表Web图更为成功的做法也有很多,如Jeh和Widom通过有限修改网页的权值来表达的个性化网页权重,这个重要性权值可以反映用户指定的初始兴趣网页。由于对个性化视图的计算需要反复遍历整个Web图结构中的网页,这只有在运行期间才能实现,所以事先计算和存储所有的个性化视图并不现实。他们利用新的图论结果和技术构建出表达个性化视图的“偏好向量”(partial vector),它可以在不同用户的个性化视图中共享,同时关于它的计算和存储花费与视图数量的多少呈现出合理的比例。在计算中,还可以采用递增式计算,这就使得在查询期间利用偏好向量去构建个性化视图是可行的。这个偏好向量即为个性化PageRank向量(personalized PageRank vector,PPV),通俗地说,PPV是种Web网页的个性化视图。按照这个PPV来对网页结果进行排序可以有效地表达用户的偏好。
简单地看,每个PPV的长度都为咒,即Web的网页数量。但是由于从一个固定的角度循环计算PPV需要多次遍历Web网页图,这显然是不可能作为一种在线响应用户查询的方式。从另一个角度来看,所有PPV向量的总数量会达到2n(n为网页总数),这显然又过于巨大而无法实现离线存储。所以,必须将p集合中出现的网页限制为hub网页集合H的子集。H集合通常包含一些用户最为感兴趣的网页。在实践中,H集合可以是具有较高PageRank值的网页集合(重要网页)、在人工分类目录中的网页(如Yahoo和Open Directory)、特定企业或程序的重要网页等。H集合可以看成是计算个性化的基础。这种基于PPV的计算方式,不像传统的方式,能够和H集合大小成良好的比例缩放关系,并且这种技术也可以在更大的PPV集合上取得近似的效果,满足一些对于任意偏好网页集合的个性化计算要求。
除此以外,还有一些在计算效果上进行改进的算法。
文章评论 本文章有个评论