每个网站都有一些页面是属于重点页面,比如首页,频道页,百度关于重点页面有一个专利,我觉得很有必要看一下。
网页权威性是搜索引擎对结果进行排序的一个重要参考因素。计算网页权威性时,将参与计算的所有网页作为一个集合,并通过集合内网页之间的链接关系迭代计算网页的权威性。但是随着互联网的发展,互联网上的网页越来越多,如果将互联网上所有网页都作为参与权威性计算的网页,则对计算系统的架构要求非常高,因此通常仅挑选各网站与外部网站存在链接关系的网页作为参与权威性计算的网页,但是现有技术的这种方式,会导致各网站内部的一些优秀网页无法得到权威性值,此外,也会影响参与计算的网页得到的权威性值的准确性。
为了改善上述问题,现有技术有一种做法,是将网站内与外部网站存在链接关系的网页,以及网站内的一些重要网页一起提取出来,作为参与网页权威性计算的网页。在现有技术中,是通过网站中网页的站内反链数量来确定网页的重要性的,例如将网站中站内反链数量大于设定阈值的网页提取出来,如果这些网页所指向网页的站内反链数量也大于设定阈值,则将这些网页及所指网页作为重点网页。但是这种现有技术的方法,召回率较低,准确性也较差。
专利提供一种网站重点页面的挖掘方法及装置,以提高对网站重点页面进行挖掘时的召回率及准确率。
分别从网站的各网页中提取导航链接串 ;
分别将提取的各导航链接串拆分为链接对,其中每个链接对由该导航链接串中相邻位置的两个链接构成 ;
从各链接对中确定重点链接对,并将所述重点链接对所对应的页面作为所述网站的重点页面。
亲爱的:若该文章解决了您的问题,可否收藏+评论+分享呢?
文章评论 本文章有个评论