Robots协议是蜘蛛访问网站的开关,决定蜘蛛可以抓取哪些内容,不可以抓取哪些内容。从网站管理者的角度,我们通过robots的书写,可以决定让蜘蛛抓取哪些文件,而不抓取哪些文件,从而更有利于网站的优化。
目录:
1.360与百度之间的“3百大战”
2.robots协议是什么?它有什么用?
3. 几个大网站的robots协议分析、书写规则和书写策略
4.知识扩展:Nofollow与Disallow的区别
1.360与百度之间的“3百大战”
还记得2013年的那场360与百度之间“3百大战”()吗?这次事件的结局概是这样:2014年8月5日,奇虎360通过微博等平台恶意攻击、诋毁竞争对手百度一案在北京市海淀区人民法院开庭。法院审理认为,360的行为对百度的商业信誉造成损害,属于不正当竞争,判罚360立即停止不正当竞争行为,在网站首页及媒体显著位置公开声明消除影响,并赔偿相关损失25万元人民币。这也是360近年来第20起官司败诉。
而此前,百度和360之间就有各种不和谐的消息传来。其中一条就是,360违反“Robots协议”抓取、复制其网站内容。
2. robots协议是什么?它有什么用?
Robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。对于站长而言,出于对SEO的要求,通过需要通过书写robots协议来限制蜘蛛抓取某些不参与排名或不利于排名的文件。在某些情况下,如果不限制蜘蛛抓取特定的文件,有可能导致网站保密信息的泄漏。曾经有一个高校网站因为没有设置好robots协议,导致学生信息被蜘蛛抓取而公布到网上。如果是商业性网站,会员信息被公开被网站后果是非常严重的。因为我们站长在管理网站的过程中,要注意robots协议的书写。
Robots是站点与spider沟通的关口,蜘蛛在访问网站之前,首先要找到robots.txt协议,通过阅读robots决定抓取哪些内容,不抓取哪些内容。当然,这个协议需要搜索引擎各方遵守才行,否则写得再好的robots.txt也是白瞎。
3. 几个大网站的robots协议分析、书写规则和书写方法
现在我们假设各个搜索引擎蜘蛛都是遵守规则的,那么就来讨论下如何限制蜘蛛抓取不想被抓取的内容。哪些内容需要禁止蜘蛛抓取呢?我们先来看下一些网站的robots协议是怎么写的。
3.1 几个大网站的robots协议分析
网站的robots协议一般以robots.txt形式的文件存放在网站根目录下,因此打开网站后,在网站首页的地址后面添加“/robots.txt”,按回车就可以看到网站的robots协议。例如输入https://www.zhihu.com/robots.txt 就可以看到知乎网站的robots协议。
采用同样的方法,可以得到其他几个网站的robots协议。
下面是某个专业论坛的robots协议:
下面是新华网的robots协议:
下面是淘宝网的robots协议:https://www.taobao.com/robots.txt
3.2 robots协议的书写规则
通过以上真实的案例,我们来全面学习下robots协议的书写规则与书写策略。
在电脑上新建一个txt文档,命名为“robots.txt”。
在书写之前,首先要了解书写规则。
Robots协议书写规则包括:
(1)书写时,文字输入过程过程在英文(半角)状态下进行,每行第一个字母要大写!要大写!要大写!
(2)通过User-agent来定义搜索引擎名称,可以定义多个搜索引擎,语法如下:
User-agent后紧跟一个英文冒号“:”,然后紧跟一个英文空格,接着紧跟搜索引擎的名称;如果是星号,则表示定义所有的搜索引擎蜘蛛。
(3)通过Allow或Disallow来定义希望蜘蛛抓取或不抓取的内容,书写格式如下:
文章评论 本文章有个评论