搜索引擎对网页的排序一直是站长们关注的一个问题,而搜索引擎的投票原理一直是网页排序的一个重要因素,从之前的外链投票到现在的用户投票,投票排序始终百度在更改百度算法时的重点关注点,今天木木SEO也闲不住,根据百度搜索研发部对网页搜索排序的做一些浅谈。
好了,假设蜘蛛数据库系统里有n个网页,有m个特征(页面质量、页面加载速度、页面内容丰富度、页面超链、文本相关性等),现在对这n个网页的m个特性有不同的打分,那么:
一、如何根据这些特征的“投票”,选出最适合放在第一位的网页呢?
百度搜索研发部的看法是这样的:
1. 设计算法时,要避免出现“赢者通吃”带来的信息丢失问题。
什么叫赢者通吃?很简单,比如美国总统选举制度,每个州根据其人口多少得到相应的“州票”,州里的人对总统候选人进行选举,在某个州获得票最多的那个候选人,获得这个州所有的“州票”,然后统计所有候选人的“州票”多少,获得最多“州票”的候选人获胜。打个比方只有A州500个人,而B州400个人,那么对应州票分别是是500和400,如果某候选人小布在A州以251:249获胜,另一个候选人老奥在B州以400:0获胜,这样老奥在全国范围内获得了649投票,而候选人小布只有在A州的251投票,但是由于“赢者通吃”,小布获得了A州的全部500张“州票”,老奥只获得了B周的400张“州票”,在全国只有少数民众支持的小布居然会获得了选举的胜利。
很明显这个排序法如果在搜索引擎的算法中,那问题是很大的,为了排序结果NO.1(最相关的网页),找到了一个特征A(页面质量),而如果决定结果NO.1的不是特征A,而是由特征A推导出来的特征B(页面加载速度),那么在特征A向特征B的推导过程中,除开页面加载速度外的其他页面质量信息就丢失了,这样就造成赢者通吃。
2. 不要因为某几个特征特别好,就把某个网页排到最前,或者因为某几个特征特别差,就把某个网页抛弃。
这个也很简单,还是说选举,如果有4个候选人,有1000个选民,其中候选人A、B、C都是一个派系的,很受推崇,大概有700人是支持他们的,而D单独一个派系只有300人支持他,但是在选举投票过程中由于ABC都非常好,导致这700个支持的民众不知如何选择,结果票数分散,每人只要200多票,而D尽管比较差就得到300票,但却胜利。
所以在排序网页过程中网页也可能出现各个特征都非常好而得到的投票比较平均的情况,也有可能由于优质特征少而投票集中的情况,这样就引出了第三条。
文章评论 本文章有个评论