我一向以新人的身份看待自己,当然,我本来也就是新人,说实话,确实不太敢写一些技术性的东西,然而写些感想又觉得太没意思,所以今天企业网站管理系统尝试写一下自己的分析,如有错误,还请各位看官及时更正!
昨天写了A客户的月报,因为有模板所以也算是顺利,统计数据的时候突然发现高网站的抓取频次远远不如B客户的网站,简直差了一大截。如下图所示。
A客户网站抓取频次
B客户网站抓取频次
由上图我们可以看出,B客户网站的抓取频次几乎都在7500以上,而A客户网站的抓取频次全都在1000以下。那什么原因导致了抓取频次的差异呢?
首先,我们来分析一下,抓取频次的影响因素。一般来说,影响蜘蛛抓取频次的官方因素是网站的外链,网站发布内容发热质量、原创度及发布的时间,网站的死链,网站的代码和站长工具。这两个站都是我们的客户,外链的质量,死链的数量,发布内容及时间,包括站长工具都是相同或类似的,为什么抓取频次会有如此大的差距呢?是否是网页数量的问题呢?其实不是的,我们来看一下两网站的抓取时间。
A客户网站的抓取时间
B客户网站的抓取时间
显然,网站抓取频次少的重大元凶是抓取时间太长。蜘蛛抓取的时间是一定的,抓取时间那么长怎么能挽留蜘蛛呢?此外,是否服务器的差异也导致了两个网站抓取频次的差异呢?我们一起来看一下如下两个图。
A客户服务器无响应次数(501、502等状态码)
B客户服务器无响应次数(501、502等状态码)
由上图可以看到,A客户的服务器无响应次数很多,而B客户则完全相反,这难道还不能说明原因吗?同样的客户,我们同样认真的服务,即使策略不同,该有的调整都会做好。蜘蛛的耐心是有限的,抓取的时候时间长了它会离开,无响应它也会离开,如果连续几次都是无响应状态,那么它来抓取的频率也会有所下降。
抓取频率一旦下降,短期之内也是升不上来的,只能依靠定时高质量的更新慢慢吸引蜘蛛的到来。所以,小伙伴们,在抱怨网站抓取频次太低之前,请先看看服务器还OK吗?