关于索引是SEO必须要经历和摸索的一个阶段,但是绝大多数SEO人员往往忽略了搜索引擎的核心本质,从而一味的追求所谓的用户体验、原创文章。到头来,排名一如既往,停滞不前。如果把搜索引擎结果排序当作是一场考试,那么你纠结的最多只是这场考试的三分之一。
在了解倒排索引的前奏,我们更应该去深度学习搜索引擎它核心的排序流程,从蜘蛛抓取到爬行,从网页去重到链接分析,从网页收录到索引建立,从有效索引到结果排序,每一步都是环环相扣。搜索引擎所经历的三个阶段亦是如此,随着搜索引擎的发展和变革,最初的文本时代到后面的链接分析时代在到现在的用户时代,不管SEO如何改变,它的道永远未变。
很多人都在思考一个问题,网页的收录达到了数万级别,但是所获取的流量是两位数,为何参与页面的收录流量反倒越来越小,是什么让收录的页面无法参与排名,而这个话题是本文的核心讲述。对于结果排序,搜索引擎通过最基础的蜘蛛抓取和爬行以后,中间有一个非常重要的一环叫做网页去重,而网页去重借用搜索引擎的算法来讲也是文档检索模型的一个点。
本质上来说,搜索引擎并不能像人一样去判断内容的相似度,而倒排索引是区分网页相似度的核心基石,从原理上讲倒排索引是通过文档集合的分词技术拆分网页的所有内容,并通过TF计算对应的关键词频次,从而用于查询词Query进行的一种相似度检测,而相似度越小的网页值计算的结果会用于更好的网页结果排序。尽管单纯的倒排索引并不能对网页的去重计算达到一个很好的效果,但是由于文档检索的向量空间模型也包含了TF-IDF算法,从而让倒排索引对于网页的相似度计算有了更加精准的价值作用。
多数SEO人员很容易忽略倒排索引的存在,尤其是大型网站架构当中,倒排索引的作用是至关重要的,并且倒排索引的利用如果到位,那么你将节省的不仅仅是SEO层面上的问题,甚至解决了程序+运营并存的一种流量深入。
文章评论 本文章有个评论