前几日有文章称由于众多站长滥发信息做外链,导致垃圾博文充斥新浪博客,因此新浪博客开始屏蔽百度蜘蛛,有网友发现大部分新浪博客快照在百度中已经没有更新,通过查看新浪robots文件(http://blog.sina.om.cn/robots.txt)发现其内容为:
#####################################################
# SINA BLOG 禁止搜索引擎收录配置文件
# 文件: ~/robots.txt
# 编写: 阿狼
# 日期: 2005-03-24
#####################################################
#开放百度的搜索引擎的User-Agent代码,*表示所有###########
User-agent: Baiduspider
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#限制的搜索引擎的User-Agent代码,*表示所有###########
User-agent: *
#临时限制对所有目录的禁止抓取
Disallow: /
由于该文件中有一句:User-agent: Baiduspider 由此很多站长判定,新浪已经彻底屏蔽百度蜘蛛,今后靠养新浪博客做外链的方法已经不可行了。
看到这则消息后,我感觉有几个疑点:
1、新浪作为世界知名的中文门户网站,其数据处理能力,违规内容管理方法,都足以应付目前的垃圾信息,而屏蔽百度蜘蛛会导致流量大减,这与新浪的发展战略不符。
2、该robots文件的日期为:2005-03-24,似乎是新浪博客刚上线的时候建立的文件,如果近期新浪的网管修改过robots的话,日期应该更改为新的日期。
3、熟悉robots写法的朋友都知道,该robots.txt文件中仅仅是是设置了禁止百度蜘蛛访问后台文件夹,并没有其他限制。
基于以上几点疑虑,我感觉文章中的观点有失误的地方,事情应该没有那么糟糕,果然在8月18日有网友发现新浪博客悄悄更换了robots.txt文件,内容改为:
#开放百度的搜索引擎的User-Agent代码
User-agent: Baiduspider
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#开放bing.com的搜索引擎的User-Agent代码
User-agent: msnbot
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
User-agent: bing
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#限制的搜索引擎的User-Agent代码,*表示所有###########
User-agent: *
#临时限制对所有目录的禁止抓取
Disallow: /
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
##Disallow: /admin/
##Disallow: /include/
##Disallow: /html/
##Disallow: /queue/
##Disallow: /config/
#开放搜索的目录有####################################
# /
# /advice/
# /help/
# /lm/
# /main/
# /myblog/
可以看出新修改的robots.txt文件中的写法已经完全支持各类主流搜索引擎抓取博客内容,一个开放的新浪博客又回来了!
针对前几日出现的情况,个人猜测可能是由于以下几种原因:
1、前几日大部分新浪博客被K,可能是由于百度调整算法所导致的。
2、原来的robots.txt文件很可能是新浪博客刚上线得到时候建立的,由于当时google还没有正式进入中国,中文搜索还是百度一家独大,因此设置的内容主要针对百度,此后该文件一直没有修改,直到最近被网友发现,新浪工作人员才想起重新修改。
虽然这次”屏蔽门“只是一场虚惊,但是也给各位站长敲响了警钟,不要一味的盲目滥发垃圾信息,及污染了互联网环境又耗费了网络服务商的资源,小心竭泽而渔!培养10个高质量的博客比养100个垃圾博客更有效!
以上是我的一点见解,希望有朋友转载的时候保留我的一个链接http://www.85999985.com/多一份保留 多一倍运气,多一份口碑,多一份成功,谢谢!
文章评论 本文章有个评论