首页站长新闻通过日志了解百度蜘蛛爬行方式

通过日志了解百度蜘蛛爬行方式

2013-08-16 15

相信大家对百度蜘蛛都很了解,站长们都是欢迎蜘蛛的光临,但是否真正了解百度蜘蛛的来意,相信这点大家才是非常关心的话题了,现编者根据以往观察网站运行的日专给大家分享一下,不对之处还请指正。

一、整点式爬行,这种爬行争对新站或即将要被降权的网站,指的是每天24小时,每小时百度蜘蛛都会对你网站首页进行爬行,并且爬行数量基本一致。这是新站当中最常见的,也只对新站才会出现,这种怕行百度一定不会收录,并且快照也不会更新。这是百度对你网站的一种考察,这类爬行是百度对你网站首页内容的分析,网站是否有更新,更新的力度如何,内容是否充实等等,顺便也会爬一些首页上的数据回去对比分析,并带回文章的URL路径,安排蜘蛛的下次爬取目标。另一种就是对于百度认为你站已经正常了的,或因网站出现问题,如服务器不稳定,网页经常无法打开,网页有违法问题等等,就会出现类似的爬行方式,那么你就要小心了,出现这种爬行方式,你的站多半会被降权。其表现为次日首页的快照日期未更新或回滚到之前的日期,收录停止,甚至严重的会删除掉一些已收录的网页。那么做为站长的你就要检查下网站看那方面出了问题,并且及时修正问题就不严重了,在两三天内就是恢复。

二、确认收录爬行,有点类似于谷歌蜘蛛爬虫,各个爬虫分工明确,有条不紊,各司其职。这种爬行方式若出现在你的网站日志里,那么恭喜你,你的网站已通过审核期,百度开台正式收录你的网页了。确认收录爬行就是指你网站有新的内容出现后,百度蜘蛛第一次爬行过后,收录是一定不会给你放出来的,这时百度还有很多因素不能确定,如果百度蜘蛛认为有必要进行对比计算的话,那么百度蜘蛛就还需要再进行第二次爬行,对爬取的内容与存在于索引库中的内容进行对比运算、比较计算的,文章内容是否新鲜,与索引库中内容是否重复等,如果认为你这个文章内容是有必要收录,百度蜘蛛会进行第三次爬行,爬行后会立即放出收录页面。如若网站权重高,百度就不会重复如些动作,即一次通过,直接先放出来,然后进行排名的运算,最后根据运算结果得出与索引库中有高度重复文章将会慢慢删除掉,这就是为何有些网站头天收录第二天就没有了,头天收录排名第一,次日就见不到踪影了,正是这个原因。

三、爆发式或间隙式爬行,经常在网站日志中看到百度蜘蛛能在一两分钟内爬行几百次。百度蜘蛛如此高效率的爬行,说明网站在这个时段的更新效率非常高,说明百度蜘蛛已撑握了你网站的更新规律,如若在此时更新文章便可达到秒收的效果,但这并不说明网站权重高,收录快,只能说是碰巧网站所更新文章被百度爬行蜘蛛遇到了。有时更新的文章一个小时,甚至几个小时都没有被收录,这样只能说明网站的更新没有按时更新造成,蜘蛛一离开就更新了,所以新站长们须时时关注日志,撑握百度蜘蛛来访规律加以利用方可事伴功备。

四、圈养式爬行,这就相当于是网站自家养的一个蜘蛛爬虫,时时刻刻爬行于网站之内,只要一有文章更新即刻爬取到传送加索引库,先给予放行,并赋予高权重,收录后搜索关键词基本在第一页,之后才进行数据对比,如若与索引库中重复,次日后便在索引库中删除;若文章太过于垃圾或属于是绿萝算法打击的对象范围之内将会直接降权或删除处理。这种达到秒收的网站才是权重高,蜘蛛爬虫几乎时时刻刻为其服务。

以上是我个人根据长期分析日专获取的相关经验与其大家分享,若有错误之处还请指正,网站运行日志是站长最得力的工具,特别是新站站长,要养成每日必看日志的习惯,最后祝各位新站站长朋友早日脱离百度考察期。

来源:首推网http://www.v460.com/studyseo/21.html

  • 广告合作

  • QQ群号:707632017

温馨提示:
1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。 2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。

相关文章