自从Google取消补充材料标记后,关于补充材料的讨论沉积下来了。Google只是取消了在搜索结果中标注补充材料,补充材料以及补充索引还是存在的,只不过我们不能直接看出来了。
在经过一段时间的思考后,今天谈谈对补充材料的更进一步认识。
以前我曾经觉得补充材料和补充索引的引入,很有可能是因为想节省带宽。但Google最近表明,补充索引中的网页抓取和更新频率加快,补充索引中的网页出现在搜索结果中的机会也提高,说明不是为了节省带宽。
结合一些其他方面的观察,我现在觉得补充索引是为了提高搜索速度。在搜索某些关键词时,Google可能只搜索主索引,忽略补充索引里的结果,这样能大大提高速度。搜索所有关键词都在抓取的所有页面索引中寻找结果的话,那计算量必然使返回结果的速度减慢。
挑出一部分权重高的网页进入主索引,把其他权重低的归入补充索引,可以大大提高计算速度。有的时候主索引中结果不足,才去补充索引中寻找结果。至于在什么情况下才会触发去补充索引中寻找网页不得而知。
以前补充材料被关注的时候,就有朋友认为补充材料并不可怕,因为不少关键词搜索结果中,列在前面的也包含很多补充材料。我想这种观察是错误的。
举一个例子。现在无法准确判断哪些页面是在补充索引中,所以我拿以前谈补充材料时一个帖子的抓图来看点石论坛的一个页面。
这个页面http://www.dunsh.org/forums/thread-6462-1-1.html,当时是在补充索引中的,我判断现在也还在补充索引中。首先这个网页肯定存在于Google的索引库中,我们可以从Google快照中证实这一点。
如果我们在点石域名内搜索网页标题+发帖人史安牛的名字,可以发现Google返回结果中包含这个网页,排在第二位。但是如果我们搜索帖子中的第一句话+史安牛,Google显示没有相匹配的文件。要注意,实际上在Google数据库中,确实存在相匹配的文件,从上面的快照和搜索中可以看出。
如果我们不限定在点石的网站内搜索帖子的第一句话+史安牛,也可以看到这个页面不被返回。但是如果我们搜索帖子中的第二段的一句话+史安牛,又会发现这个网页可以被返回。结论是Google确实有两个索引,主索引和补充索引。在补充索引中的网页有时候在某些关键词下,根本不参与排名。就算已经被收录,网页中有这个关键词,而且没有其他匹配文件的时候,这个网页因为是存在于补充索引中,所以根本不会被返回。
HighDiy有一篇关于检查补充索引替代方法的帖子,很全面深入,但其中一句话恐怕不太正确。他提到“Google给出网页进入补充索引的原因包括网页“not fully indexed”,那么,反过来,如果发现某个网页的缓存并不完整,即不包涵网页的全部内容,那么,也基本上可以判定该页位于补充索引了。”我觉得这里的not fully indexed指的不是缓存不包含全部网页内容(没见过这样的缓存),而是指网页虽然被完整收录,但并不参与排名。
所以大量网页进入补充索引,在很大程度上说明了网站的健康情况。补充索引中的网页,能排到前面的几率还是大大降低。根据Google的说法,进入补充索引最大的原因是PR值过低。顺便做个实验,我这个帖子有链接到点石的那个网页,过一段时间看看是不是还在补充索引中。按Google的说法,有了外部链接,应该从补充索引中出来。
文章评论 本文章有个评论