搜索引擎Spider对网站的抓取情况,应该是最值得SEO人员研究的内容。但是很多SEO人员面对已经在日志中提取出来的搜索引擎抓取记录,并不知道需要分析了什么。这里东莞网站推广简单讨论一下Spider对网站的抓取情况都有哪些方面得分析的,以及分析出的结果是如何指导SEO的工作。
Spider的抓取数据可以分析:Spider对整个网站的抓取频率、Spider对重要页面的抓取频率、Spider对网站内容的抓取分布情况、Spider对各种类型网页的抓取情况、Spider对网站的抓取状态码情况等。
通过分析Spider对整个网站的抓取频率的趋势,可以简单了解网站在搜索引擎眼中的质量。如果网站没有进行过大幅度的变动,并且内容正常更新,搜索引擎的抓取频率却逐渐或突然大幅度降低,不是网站运行出现错误,就是搜索引擎认为网站质量出现了问题;如果搜索引擎的抓取频率突然增大,可能是网站有404之类的页面引起了Spider的集中重复抓取;如果搜索引擎的抓取频率逐渐增大,可能是随着网站内容的逐渐增多,权重的逐渐积累,而获得的正常抓取。持平和平缓的变动不足为奇,如果出现大幅度的变动,就要引起足够的重视了。
通过分析Spider对重要页面的抓取规律,可以辅助网页内容更新频率的调整。一般搜索引擎Spider会对站内的重要页面进行高频度的抓取,这类页面一般不会是内容页,而是首页、列表页或者拥有大量外链的专题页。
在网站中有很多种此类抓取频率非常大的页面,比如曾庆平SEO前面所说的网站首页、目录页和专题页。在网站中往往还会有其他更多类型的聚合页同样有着比较大的抓取频率。尤其是网站的首页,很多网站的首页每天都会得到搜索引擎成千上万次的抓取,但是不少网站首页上更新的链接很少,有些浪费了首页本身权重所带来的Spider高抓取频率。在不影响SEO关键词密度和布局的前提下,SEO人员可以允分利用这部分资源,来使网站内所有的新内容都被搜索引擎及时发现,也减少搜索引擎的无效抓取。
虽然现在通过百度站长平台的sitemap工具,可以直接把站内的URL提交给百度,并不需要太过担心百度发现不了网站内新内容的问题,但是现在也有部分网站是没有sitemap提交权限的,并且这种通过页面发现链接的形式还会带有一定的权值传递。众所周知,网页的收录与否,除取决于网页内容的质量外,与网页所获得的外链和网页的权重也是有关系的,所以以上分析和改进还是值得进行的。
分析Spider对网站内容的抓取分布情况。每个网站都会分出一些不同的频道,可能大家感觉在网站内链和外链的建设中并没有特别的偏向,或者为某个频道做了很多链接,就认为该频通应该会得到搜索引擎的青睐,但是事实可能不是这样的。Spider对网站内容抓取分布情况的分析一般会结合网站的收录数据,分析网站各频道内容的更新量、搜索引擎收录量和Spider对各频道的每日抓取量是否成正比。
如果某个频道的搜索引擎收录不佳,首先就要分析搜索引擎对该频道的抓取是否正常。如分析百度对网站各频道的抓取情况,可以使用《光年SEO日志分析系统》先把百度的抓取记录提取出来,然后使用该工具对提取出来的日志进行分析。在该工具生成的报表中有一个“目录抓取”的报表,可以轻松获得百度对网站目录级别的抓取。也可以通过该工具的日志拆分功能,拆分出百度对网站每个频道的抓取情况,然后进行详细分析。
通过这种分析可以很轻松地了解到百度对网站内各频道的抓取情况,会经常发现收录不佳的频道得到的抓取次数也很少,或者会发现百度对该频道内容页的抓取情况不佳。此时就需要调整网站内的链接分布,或者使用nofollow标签来弱化百度对不重要频道的抓取,而引导百度多抓取指定的频道。如果搜索引擎的收录并没有异常,百度对内容的抓取分布情况也是值得分析的,研究百度抓取量大和抓取量小的频道之间的差别,从而了解百度Spider的喜好,进而对网站结构或者内容建设方法进行改进。
分析Spider对站内各类页面的抓取情况。不同网站都有着自己不同的网页类型,这里东莞网站推广进行举例说明。在大众网站中一般会有首页、目录页、文章页,目录页和文章页可能会有分页,但是经过分析百度Spider的抓取记录后,可能会发现百度Spider几乎不怎么抓取分页,不论是列表分页还是文章分页。
文章评论 本文章有个评论