自从百度站长平台"抓取诊断"工具上线以来,很多站长朋友都把此工具当做引蜘蛛的手段,可是笔者亲测了下,发现"抓取诊断"工具存在各种各样的问题,所以 我们不能过于依赖,而应选择性的应用。下面我们就来探讨下百度"抓取诊断"工具具体有什么作用以及需要改进的地方。
首先我们来看看百度官方的解释:
一、什么是抓取工具?
1)抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。
2)每个站点每月可使用300次,抓取结果只展现百度蜘蛛可见的前200KB内容。
二、抓取诊断工具能做什么?
1)诊断抓取内容是否符合预期,譬如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。
2)诊断网页是否被加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需要用此抓取工具诊断。
3)检查网站与百度的连接是否畅通,若是IP信息不一致,可以报错通知百度更新IP.
4)如果网站有新页面或页面内容有更新,百度蜘蛛较长时间没来访问,可以通过此工具邀请它快速来抓取。
笔者测试了一下,有些网站可以抓取成功,如下图所示,这里面包含了很多信息,同时还能很好的显示网页的源代码,可以为站长提供一定的帮助。
可是对于双线主机和做了别名解析的非固定IP主机,总是出现抓取失败或者抓取中的现象,偶尔也能抓取成功,如图所示:
这是否意味着,百度百度蜘蛛无法抓取到我们的网页呢?答案是否定的,笔者刚测试的这个抓取失败的网站,当天所发文章全部都是秒收,证明百度蜘蛛能很好的抓取网页,单身"抓取诊断"工具却出差,这说明这项技术还不成熟,所以我们只能参考,不能过于依赖。
还有一点需要注意的是,抓取同一个页面以后,百度会有很长时间的缓存,如下图所示。笔者上午11点09分抓取了一个页面,并在页面里挂上"黑链","抓取 工具"抓到的源代码里有这些"黑链"代码,可是笔者把这些"黑链"全都去了以后,晚上19点13分又抓取了一次,发现抓取到的页面还是上午11点09分抓 的页面,中间相隔了8个小时。
除此以外,抓取工具对于网站IP地址的判定经常会出错,一旦IP地址判定错误,就会出现抓取失败的现象。但是这并不代表蜘蛛不能访问我们的网站,其实蜘蛛是蜘蛛,抓取工具是一种工具,大家千万不要混为一谈。
当然了,任何工具的新上线,都存在这样那样的问题,我们只要选择对我们有利的地方去应用就行了,而不应过于依赖所有的功能。同时也希望度娘能尽快加以改 进,把有问题的地方都处理好,给广大站长朋友一个有用的工具。
本文由安徽美食网(http://www.ahbbz.com/ )撰写,转载请注明出处。
文章评论 本文章有个评论