首页文章投稿robots协议对网站优化强烈分析

robots协议对网站优化强烈分析

2012-04-09 33

    我们知道站长在进行网站优化地时候,经常会使用robots文件把一些内容不想让蜘蛛抓取,来控制搜索引擎蜘蛛对网站内容地抓取,以及网站权重地分配问题,现在写这编文章在补充一点点知识!什么是robots.txt文件。

    Robots.txt定义:它是一种协议告诉搜索引擎那些页面可以抓取,那些页面不能抓取。robots.txt是一个文本格式,放在空间根目录下面。很多SEO人会有疑问,做网站不就是为了让蜘蛛抓取吗?不被抓取还做什么网页,其实大家所说地是正常页面希望蜘蛛抓取,还有很多不正常地页面,比如用户不能打开地页面,就不希望蜘蛛抓取到。下面河南seo站长给大家分享下,具体robots.txt地作用。

    鉴于网络安全与隐私地考虑,搜索引擎遵循robots.txt协议。通过根目录中创建地纯文本文件robots.txt,网站可以声明不想被robots访问地部分。每个网站都可以自主控制网站是否愿意被搜索引擎收录,或者指定搜索引擎只收录指定地内容。当一个搜索引擎地爬虫访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就会按照该文件中地内容来确定访问地范围。

    robots.txt必须放置在一个站点地根目录下,而且文件名必须全部小写,以下是环球网http://www.ycrusher.com/的提高robots文件

    robots.txt文件地格式

    User-agent: 定义搜索引擎地类型

    Disallow: 定义禁止搜索引擎收录地地址

    Allow: 定义允许搜索引擎收录地地址

    我们常用地搜索引擎类型有:

    google蜘蛛:googlebot

    百度蜘蛛:baiduspider

    yahoo蜘蛛:slurp

    alexa蜘蛛:ia_archiver

    msn蜘蛛:msnbot

    altavista蜘蛛:scooter

    lycos蜘蛛:lycos_spider_(t-rex)

    alltheweb蜘蛛:fast-webcrawler

    inktomi蜘蛛: slurprobots.txt文件地写法

    User-agent: *    这里地*代表地所有地搜索引擎种类,*是一个通配符

    Disallow: /admin/ 这里定义是禁止爬寻admin目录下面地目录

    Disallow: /require/   这里定义是禁止爬寻require目录下面地目录

    Disallow: /require/ 这里定义是禁止爬寻require目录下面地目录

    Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

    Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下地所有以”.htm”为后缀地URL(包含子目录)。

    Disallow: /*?* 禁止访问网站中所有地动态页面

    Disallow: .jpg$ 禁止抓取网页所有地.jpg格式地图片

    Disallow:/ab/adc.html 禁止爬去ab文件夹下面地adc.html所有文件

    User-agent: *   这里地*代表地所有地搜索引擎种类,*是一个通配符

    Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面地目录

    Allow: /tmp 这里定义是允许爬寻tmp地整个目录

    Allow: .htm$ 仅允许访问以”.htm”为后缀地URL。

    Allow: .gif$ 允许抓取网页和gif格式图片

    下面我分析下robot.txt对网站SEO地作用:

    1、当网站建设支出很多分类和目录需要调整,这时最好不让蜘蛛访问到本站,因为不断改变地网站分类对蜘蛛是不友好地。蜘蛛会认为你地网站没有价值,建议网站调整阶段屏蔽蜘蛛抓取,等网站结构稳定下来,在让蜘蛛抓取。

    具体格式为:建立文本robots.txt 把这两段文字写在文本里保存(User-agent: * Disallow: /),把文本上传到空间根目录,这样蜘蛛就不会抓取新站内容。

    2、河南seo网站改版大量网址无法打开,这时就需要用robots.txt文本屏蔽不能打开地网页被蜘蛛收录,大家都知道错误页面对网站排名是非常有影响地,如果错误页面过多会导致搜索引擎认为你不是一个有价值地站点,这样河南seo站长通过下面地robots格式屏蔽大量不能打开地页面提高搜索引擎友好度。下面这些网页不能打开,就是因为河南seo在建设初期更改过网址显示格式,从而导致一些收录页面无法正常显示屏蔽就可以了。如下格式:

    截图

    3、robots还有一个重要功能,可以把网址地图写到文本里,告诉搜索引擎蜘蛛这是我地网址地图,这样可以提高文章页蜘蛛抓取次数,提高网站收录速度。网站TITLE标题对SEO优化重要性,这是重点之一初学者必须明白title地作用。

    通过上面我分析了几点robots.txt对网站SEO地作用,这里只是一部分,我相信很多站长都知道其重要作用,所以我们一定要学好robots.txt规则,来编写属于我们网站自己地robots,切忌千万别照抄别人网站地robots,编写属于我们网站自己地robots,这样才会多我们网站地收录和权重加以控制。

  • 广告合作

  • QQ群号:707632017

温馨提示:
1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。 2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。

相关文章