Loading
0

百度抓取诊断工具有哪些需要改进的地方?

技术小学生微信公众号
腾讯云服务器大促销。
华为服务器

自从百度站长平台"抓取诊断"工具上线以来,很多站长朋友都把此工具当做引蜘蛛的手段,可是笔者亲测了下,发现"抓取诊断"工具存在各种各样的问题,所以 我们不能过于依赖,而应选择性的应用。下面我们就来探讨下百度"抓取诊断"工具具体有什么作用以及需要改进的地方。

首先我们来看看百度官方的解释:

一、什么是抓取工具?

1)抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。

2)每个站点每月可使用300次,抓取结果只展现百度蜘蛛可见的前200KB内容。

    二、抓取诊断工具能做什么?

1)诊断抓取内容是否符合预期,譬如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。

2)诊断网页是否被加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需要用此抓取工具诊断。

3)检查网站与百度的连接是否畅通,若是IP信息不一致,可以报错通知百度更新IP.

4)如果网站有新页面或页面内容有更新,百度蜘蛛较长时间没来访问,可以通过此工具邀请它快速来抓取。

笔者测试了一下,有些网站可以抓取成功,如下图所示,这里面包含了很多信息,同时还能很好的显示网页的源代码,可以为站长提供一定的帮助。

可是对于双线主机和做了别名解析的非固定IP主机,总是出现抓取失败或者抓取中的现象,偶尔也能抓取成功,如图所示:

这是否意味着,百度百度蜘蛛无法抓取到我们的网页呢?答案是否定的,笔者刚测试的这个抓取失败的网站,当天所发文章全部都是秒收,证明百度蜘蛛能很好的抓取网页,单身"抓取诊断"工具却出差,这说明这项技术还不成熟,所以我们只能参考,不能过于依赖。

还有一点需要注意的是,抓取同一个页面以后,百度会有很长时间的缓存,如下图所示。笔者上午11点09分抓取了一个页面,并在页面里挂上"黑链","抓取 工具"抓到的源代码里有这些"黑链"代码,可是笔者把这些"黑链"全都去了以后,晚上19点13分又抓取了一次,发现抓取到的页面还是上午11点09分抓 的页面,中间相隔了8个小时。

除此以外,抓取工具对于网站IP地址的判定经常会出错,一旦IP地址判定错误,就会出现抓取失败的现象。但是这并不代表蜘蛛不能访问我们的网站,其实蜘蛛是蜘蛛,抓取工具是一种工具,大家千万不要混为一谈。

当然了,任何工具的新上线,都存在这样那样的问题,我们只要选择对我们有利的地方去应用就行了,而不应过于依赖所有的功能。同时也希望度娘能尽快加以改 进,把有问题的地方都处理好,给广大站长朋友一个有用的工具。

本文由安徽美食网(http://www.ahbbz.com/ )撰写,转载请注明出处。

技术小学生微信公众号
华为服务器
腾讯云服务器大促销。

声明:站长码字很辛苦啊,转载时请保留本声明及附带文章链接:https://blog.tag.gg/showinfo-36-2269-0.html
亲爱的:若该文章解决了您的问题,可否收藏+评论+分享呢?
上一篇:百度抓取页面最大值由125K增加到200K了
下一篇:如何让百度尽快收录新站