Loading
0

为什么robots.txt禁止抓取却依然被收录

技术小学生微信公众号
腾讯云服务器大促销。
华为服务器

有些人可能疑问,我的站点禁止所有蜘蛛访问抓取网页,为什么在搜索引擎结果中依然可以找到,并且关键词就是站点标题,今天艾瑞就来带大家分析下。

首先,所有的搜索引擎都支持robots.txt,甚至是我们伟大的百度,低估他了。也就是蜘蛛是不会违背抓取原则的,那为什么依然可以在搜索结果中找到禁止抓取的网页呢?

有些时候,我们可能看到禁止抓取的网页在搜索结果中的描述是空的,或者根本就不是网页中实际的描述,而是其他网站对其描述、评价的。其实这就是问题的答案。

因为很多时候禁止搜索引擎抓取的网站都是比较权威的网站,之前在搜索引擎中的权重极其之高,当然禁止蜘蛛抓取后,外部链接依然不受到影响。如此权威的网站不出现在搜索结果中,实为憾事,这些搜索引擎的初衷何以呈现,何以给用户最佳搜索体验。

然而,做事不能没有规则,你不让我抓取,我就不抓取,但我可以收录你,描述可取其他权威站点对其之描述,比如DOMZ、维基百科等。

在Google中的出现的案例目前还是没有找到,不过淘宝禁止百度的那点事,我还是记忆犹新。现在我们以淘宝禁止百度抓取为例来分析问题。

1.首先看看robots.txt内容,不过多说什么。

http://www.taobao.com/robots.txt

http://my.taobao.com/robots.txt

User-agent: Baiduspider

Disallow:/

User-agent: baiduspider

Disallow:/

2.可以看到www.taobao.com收录并且有描述的,但没有快照。

值得注意的是,此描述非www.taobao.com本站之描述,而是其他权威站点对其之描述。

<meta name=“description” content=“淘宝网 – 亚洲最大、最安全的网上交易平台,提供各类服饰、美容、家居、数码、话费/点卡充值… 2亿优质特价商品,同时提供担保交易(先收货后付款)、先行赔付、假一赔三、七天无理由退换货、数码免费维修等安全交易保障服务,让你全面安心享受网上购物乐趣!” />

3.大家看到my.taobao.com有收录,但是无描述

从Google搜索 my.taobao.com 获得大约 510,000 条查询结果,并且从搜索结果页面显示有很多url指向my.taobao.com,值得注意的是由于访问my.taobao.com需要登录的权限,所以一般未登录用户值得返回到登陆页面。

无描述的原因是这个二级域名没有其他权威网站对其简要描述。

.

4.如果有Google方面的案例,欢迎提供分析

技术小学生微信公众号
华为服务器
腾讯云服务器大促销。

声明:站长码字很辛苦啊,转载时请保留本声明及附带文章链接:https://blog.tag.gg/showinfo-36-12490-0.html
亲爱的:若该文章解决了您的问题,可否收藏+评论+分享呢?
上一篇:站长你知道吗?排名掉了都是SEO惹的祸
下一篇:多个关键词SEO技巧