◆◆0

51.com的robots.txt有错吗？

来源：优客搜索引擎优化联盟 2019-02-28 19:55:43 SEO优化 579 0

什么是robots.txt文件?

搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

因为刚写了51是因为二级玉米泛滥和站点垃圾造成被封，去站长站看见“眼镜蛇”写的是因为51的robots.txt的原因。

我仔细看了51的robots.txt而最后要驳反“眼镜蛇”的判断和定论！

每个站点都必须要有robots.txt吗？

不一定，看情况

那么robots.txt是针对任何搜索引擎吗？

不一定，搜索引擎的概念是什么先搞明白！至少他有蜘蛛，并且遵循robots.txt语法。像百度，google,yahoo都遵循
官方的robots.txt

robots.txt放在哪里？

根目录下，就是通过 http://www.abc.com/robots.txt等浏览访问到的！

robots.txt怎么写？

请查询：http://www.robotstxt.org/

因为眼镜蛇说百度杀了51是因为51的robots.txt

“51.com搜索消失原因是公司想借机炒作？”

（联系到五一国庆左右百度大规模检查并封杀作弊网站，开始让业界以为51.com是百度惩罚的网站之一，
通过某朋友提示到51.com的robots.txt文件，让大家明白了百度网站只收录一页的原因，
并不是搜索引擎人为所至，而是51.com自身原因。）

郁闷一：五一成“国庆”了！

郁闷二：robots.txt写法遵循规则，搜索引擎也给予遵循！那么就是眼镜蛇以上文章的判定错误！不是51的robots.txt错误！

分析反驳：

因为51的主页都在home下或者这个二级玉米下，那么就这个来说！

1：http://www.51.com/robots.txt 18行

Disallow: /home/ （假设只针对百度，因为google 没把51怎么着，而之后分析则套用google的一些现象对比百度，除非他们不是一样性质的遵循robots.txt的搜索引擎！）

百度给出的定义：

"Disallow:/help/"则允许robot访问/help.html，而不能访问/help/index.html

http://www.baidu.com/search/robots.html

那么就是说在http://www.51.com/home/index.htm/index.html/index.shtml不能被收录，因为home目录下无主页！

http://www.51.com/home/index.htm   404错误
http://www.51.com/home/index.html 404错误
http://www.51.com/home/index.shtml 404错误
http://www.51.com/home/index.php   404错误
http://www.51.com/home/            404错误

确定HOME下无默认首页文件，一般都是404页，这样多搜索引擎会很不友好的，那么当然仔细点的站点都会杜绝被搜索引擎视为死连接。
51的错法就是"Disallow:/help/"则允许robot访问/help.html，而不能访问/help/index.html

判定：Disallow: /home/ 对于百度正确！

因为有：User-agent: * （针对所有搜索）

查看：site:51.com/home ，site:51.com/home/ ，site:www.51.com/home ， site:www.51.com/home/
在google都有收录，而不是屏蔽了home下任何，而只是home下的默认首页！

目前看不见百度的现象，根据User-agent: * （针对所有搜索）说明百度当时也是这样！（80%一样）

再查：site:home.51.com

第一结果为

51 博客网欢迎您home.51.com/ - 类似网页

似乎home.51.com/下有首页，似乎home目下也有首页！

我们点过去则跳转到http://www.51.com/，因为目前搜索引擎都可以识别和收录url转发而非跳转！

随便查下home.51.com/的站点访问使用情况！

比如：第二结果

献给我最爱的00

home.51.com/home.php?user=nicolelove - 5k - 补充材料 - 网页快照 - 类似网页

而你使用“http://nicolelove.51.com ”也访问的是此“home.51.com/home.php?user=nicolelove”

也可以：http://www.51.com/home/Index.php?user=nicolelove （home下的任何其他文件可以收录和访问）

也可以：http://51.com/home/Index.php?user=nicolelove 访问而到http://www.51.com/home/Index.php?user=nicolelove

也可以：http://www.51.com/home.php?user=aiyoweiyaaaa到http://home.51.com/home.php?user=aiyoweiyaaaa

严格按照URL说这个可以说是多URL或者路径重叠，或者混乱，只是一些没告诉那些站长，只告诉站长
“http://nicolelove.51.com ”就是你的主页url

补充：

<*** LANGUAGE="Java***">

</***>

看下最后第三段代码！

搜索引擎在更多时是不允许这样的现象的。二级玉米和独立玉米都可以认为不同域下的站点和网页！

比如：http://piaoge999.51.com 这个是不存在申请的url站站点，那么你输入回车后就会提示：该用户不存在

提示URL为：http://home.51.com/home.php?user=piaoge999

点确定立即返回到“http://www.51.com/”这样的做法稍微比404错误返回友好了一些，可是假如我今天申请了，明天51删除我了，
却在之前百度收录了我的http://home.51.com/home.php?user=piaoge999或者http://piaoge999.51.com呢？
那是不是现在该可以返回到http://www.51.com/了呢？这个做法给搜索引擎造成多少麻烦？造成多少垃圾收录？
降低了多少百度的技术可靠性的讽刺？

在http://www.yookee.org/dispbbs_17_313_1.htm“SEO优化之“不要轻易使用泛解析” 特别拿51来分析了的！

只是没这个写的详细，而这个文章飘哥则做了70%的分析列举说明。要说明的是51被封是联系到了滥用泛解析！

而反驳“眼镜蛇”的是针对他说51的robots.txt的问题造成被封！而51的robots.txt写法符合和遵循！

飘哥到今天还没使用过robots.txt，只是之前帮一个朋友从google拒绝收录而找历史记录发现他的玉米曾经存在robots.txt
内容写法是禁止收录此站。告诉之则给google写信给予了收录。因为那玉米停了一段时间，google则还是按照当时robots.txt给予封闭！

此文结束，51的robots.txt有错吗？51的robots.txt是针对百度的吗？百度是根据51的robots.txt把他杀了的吗？

声明：站长码字很辛苦啊,转载时请保留本声明及附带文章链接：https://blog.tag.gg/showinfo-36-14440-0.html

亲爱的：若该文章解决了您的问题,可否收藏+评论+分享呢？