Loading
0

搜索引擎的去重原理是什么?

技术小学生微信公众号
腾讯云服务器大促销。
华为服务器
搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。
去重的工作一般会在分词之后和索引之前进行,搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每一个网页都会有个这样的特征指纹,当新抓取的网页的特征指纹和已索引网页的关键词指纹有重合时,那么该网页就可能会被搜索引擎视为重复内容而放弃索引。

搜索引擎的去重原理是什么?

因此网络上流行的大部分伪原创工具,不是不能欺骗搜索引擎,就是把内容做的鬼都读不通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于搜索百度并不是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在网站的权重适当放宽索引标准,这样使得部分作弊者有机可乘,利用网站的高权重,大量采集其他站点的内容获取搜索流量。不过经过百度搜索多次升级算法,对采集重复信息,垃圾页面进行了多次重量级打击。
所以SEO在面对网站内容时,不应该再以伪原创的角度去建设,而是以提升用户体验度的目的去建设,虽然后者的内容不一定全是原创,一般如果网站权重没有大问题,都会得到健康的发展。
另外,不仅仅是搜索引擎需要“网页去重”,自己做网站也需要对站内页面进行去重。对于分类信息或者新闻类的网站,如果不加以限制,用户所发布的信息必然会有大量的重复,这样不仅在SEO方面表现不好,站内用户体验也会降很多。