这个星期在和朋友闲聊的时候,朋友问了一个关于网站收录的问题,为什么网站的百度收录不少,Google的收录却一直为0呢?后来我对其网站做了简要分析,应该发现了问题所在。
关于百度和Google的收录问题,其实最大的根本原因还是各搜索引擎的自身区别。而很多刚入行的朋友其实是不太关注于这方面的问题,会认为做好百度收录,其他搜索引擎应该也会相继对网站进行收录,然后也就产生了与我那位朋友一样的问题。下面百度与Google两者的概念做一些简要说明:
百度是目前国内最大的商业化全文搜索引擎,也是全球最大的中文搜 索引擎。百度搜索引擎是由四个主要部分组成,分别是蜘蛛程序、监控程序、索引数据库程序以及检索程序。百度的强项是独一无二的中文搜索能力,目前百度搜索引擎拥有世界上最大的中文信息库,早在2013年其总量已经达到了6000万页以上,而且每天还以几十万页的速度在不断快速增加。百度搜索分为六大板块,包括网 页、新闻、MP3、图片、FLASH以及信息快递。
谷歌作为全球最大的搜索引擎,创新是其特有、也是最大的优势所在。和百度相比,谷歌有其固有的特点和优势,比如搜索速度极快、支持多达132种语言、具备在线翻译功能、拥有导航功能、搜索结果准确率很高、具有独到的图片搜索功能和强大的新闻组搜索功能等。
熟悉我的博客网站朋友应该都会发现我对网站只进行了网站内容的更新,对于站外则无一点动作,而我的网站的收录在百度与Google上也形成了鲜明的对比,百度收录不错,Google收录为0。分析朋友的网站,其实大体情况是一致的,基本上也就定期更新了网站的新闻资讯的文章。说到这里有些朋友肯定还并没有彻底明白这段文字的意义,下面我截取月光博客曾经于2006年4月17日发布于《计算机世界·华南市场》的一篇文章里的部分内容来说明原因所在:
Google和Baidu收录网站页面的标准是不同的。我用一句话来形容,就是Google更乐于收录大站的页面,百度则乐于收录新站的页面。
为此我做一个实验:先申请了一个新域名,在上面放一个网站,然后不在其他任何网站做链接,而直接往百度和Google搜索引擎的提交页面进行提交。一个月过去了,百度收录的网页是24,900篇,Google收录的网页是0,这证实了我以前的猜测。
这说明了什么呢?说明百度比Google好吗?绝对不是的。因为Baidu和Google收录页面的标准是完全不同的。
Google是按照网页级别(PageRank)来收录的,只要网站有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google则坚决不去收录。Baidu则很夸张,采用的是来者不拒,多多益善的原则,无休止的进行收录。Baidu的这种不按网页级别的收录方式其实有很大的恶果,最主要的恶果是造成大量的垃圾网站流行,因为只要做一个垃圾站,Baidu就会立刻收录(25000页以内),这等于变相的鼓励大家去做垃圾站,去盲目采集。当垃圾站横行的时候,Baidu再通过人工的方式封站,甚至一些百度业务员对于大流量的网站还会要求其站长办理百度竞价排名。
这两种收录方式哪种更好呢?我个人认为Google的这种收录方式是比较科学的。因为互联网上的页面是个天文数字,收录应该是有选择的收录,好的网站则多收录,新站则应该少收录,等其慢慢知名了以后再多收录,这样也提高了效率,让用户搜索到更好的页面而不是更多的页面。如果对于新站不做分析就快速收录,那么会使得从技术上对抗恶意网站作弊(SEO)变得非常困难,Google通过给予新站给出一定的“考察期”来分析这个新站是否是作弊的垃圾站,而百度就只能依靠人工方式手动地删除垃圾站。对于收录网站的具体操作上,Google的爬虫显得较为“体贴”站长-Google爬虫占用服务器的资源非常少,通常是先用head来查看网页是否更新,如果更新了再抓取整个页面,这种方法耗费流量较少。而百度则不管三七二十一上来就抓整个站,有时甚至不遵守robots规则,而且其爬虫数量非常庞大,对于页面较多的网站通常会耗费惊人的流量,并且常常造成恶劣的后果。
文章评论 本文章有个评论