有些人可能疑问,我的站点禁止所有蜘蛛访问抓取网页,为什么在搜索引擎结果中依然可以找到,并且关键词就是站点标题,今天艾瑞就来带大家分析下。
首先,所有的搜索引擎都支持robots.txt,甚至是我们伟大的百度,低估他了。也就是蜘蛛是不会违背抓取原则的,那为什么依然可以在搜索结果中找到禁止抓取的网页呢?
有些时候,我们可能看到禁止抓取的网页在搜索结果中的描述是空的,或者根本就不是网页中实际的描述,而是其他网站对其描述、评价的。其实这就是问题的答案。
因为很多时候禁止搜索引擎抓取的网站都是比较权威的网站,之前在搜索引擎中的权重极其之高,当然禁止蜘蛛抓取后,外部链接依然不受到影响。如此权威的网站不出现在搜索结果中,实为憾事,这些搜索引擎的初衷何以呈现,何以给用户最佳搜索体验。
然而,做事不能没有规则,你不让我抓取,我就不抓取,但我可以收录你,描述可取其他权威站点对其之描述,比如DOMZ、维基百科等。
在Google中的出现的案例目前还是没有找到,不过淘宝禁止百度的那点事,我还是记忆犹新。现在我们以淘宝禁止百度抓取为例来分析问题。
1.首先看看robots.txt内容,不过多说什么。
http://www.taobao.com/robots.txt
http://my.taobao.com/robots.txt
User-agent: Baiduspider
Disallow:/
User-agent: baiduspider
Disallow:/
2.可以看到www.taobao.com收录并且有描述的,但没有快照。
值得注意的是,此描述非www.taobao.com本站之描述,而是其他权威站点对其之描述。
<meta name=“description” content=“淘宝网 – 亚洲最大、最安全的网上交易平台,提供各类服饰、美容、家居、数码、话费/点卡充值… 2亿优质特价商品,同时提供担保交易(先收货后付款)、先行赔付、假一赔三、七天无理由退换货、数码免费维修等安全交易保障服务,让你全面安心享受网上购物乐趣!” />
3.大家看到my.taobao.com有收录,但是无描述
从Google搜索 my.taobao.com 获得大约 510,000 条查询结果,并且从搜索结果页面显示有很多url指向my.taobao.com,值得注意的是由于访问my.taobao.com需要登录的权限,所以一般未登录用户值得返回到登陆页面。
无描述的原因是这个二级域名没有其他权威网站对其简要描述。
.
4.如果有Google方面的案例,欢迎提供分析
文章评论 本文章有个评论