编辑“Robots”

'''robots'''的作用是用来告诉[[搜索引擎机器人]]不索引网站的哪些内容。robots.txt文件就是一个普通的文本文件，名称用小写，一般放在网站的根目录下。当一个[[搜索引擎机器人]]（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。


==robots.txt作用==
robots.txt的作用就是告诉搜索引擎哪些内容不要索引，一般为了实现如下目的而使用：

#禁止搜索引擎索引系统文件，后台文件，模板文件，背景图片。这样做一方面可以防止搜索引擎收录很多无关内容，另外可以降低搜索引擎蜘蛛抓取网站时消耗的资源
#禁止搜索引擎收录需要保密的文件，或者是隐私内容。不过值得注意的是，robots.txt只能告诉搜索引擎不收录这些内容，但是并不能防止这些内容被访问，如果是重要信息最好是设置密码。
#网址规范化方面的应用。启用[[伪静态]]的网站，一般同时存在至少两套网址，一套是[[rewrite]]之后的静态地址，一套是原始的动态地址，如果不限制，搜索引擎可能会收录大量的重复内容。为了方式这种情况，可以将动态格式的地址禁止索引。

== robots.txt语法 ==
#'''User-agent:''' 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*，则该协议对任何机器人均有效。

#'''Disallow:''' 该项的值用于描述不希望被访问到的一个URL，一个目录或者整个网站。以Disallow 开头的URL 均不会被搜索引擎蜘蛛访问到。任何一条Disallow 记录为空，说明该网站的所有部分都允许被访问。

'''例子：'''

''网站目录下所有文件均能被所有搜索引擎蜘蛛访问''
 User-agent: *
 Disallow:

''禁止所有搜索引擎蜘蛛访问网站的任何部分''
 User-agent: *
 Disallow: /
''禁止所有的搜索引擎蜘蛛访问网站的几个目录''
 User-agent: *
 Disallow: /a/
 Disallow: /b/
禁止搜索引擎蜘蛛访问目录a和目录b

''只允许某个搜索引擎蜘蛛访问''
 User-agent: Googlebot
 Disallow: 


==robots.txt使用技巧==
1. 每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索[[蜘蛛]]来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条[[404]]错误，所以你应该在网站中添加一个robots.txt。

2. 网站管理员必须使蜘蛛程序远离某些[[服务器]]上的目录——保证服务器性能。比如：大多数网站服务器都有程序储存在“cgi-bin”目录下，因此在 robots.txt文件中加入“Disallow: /cgi-bin”是个好主意，这样能够避免将所有程序文件被蜘蛛索引，可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

下面是VeryCMS里的robots.txt文件：
<nowiki>
　　User-agent: *
　　Disallow: /admin/ 后台管理文件
　　Disallow: /require/ 程序文件
　　Disallow: /attachment/ 附件
　　Disallow: /images/ 图片
　　Disallow: /data/ 数据库文件
　　Disallow: /template/ 模板文件
　　Disallow: /css/ 样式表文件
　　Disallow: /lang/ 编码文件
　　Disallow: /script/ 脚本文件
</nowiki>
3. 如果你的网站是动 态网页，并且你为这些动 态网页创建了静态副本，以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动 态网页被蜘蛛索引，以保证这些网页不会被视为含重复内容。

4. robots.txt文件里还可以直接包括在[[sitemap]]文件的链接。就像这样：

Sitemap: http://www.***.com/sitemap.xml
(此处请填写完整URL，如果按习惯填写Sitemap: /sitemap.xml，提交后会提示：检测到无效的 Sitemap 网址；语法错误)

目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文[[搜索引擎]]公司，显然不在这个圈子内。这样做的好处就是，站长不用到每个搜索引擎的站长工具或者相似的站长部分，去提交自己的sitemap 文件，搜索引擎的蜘蛛自己就会抓取robots.txt文件，读取其中的sitemap路径，接着抓取其中相链接的网页。

5. 合理使用robots.txt文件还能避免访问时出错。比如，不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录，所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 

==robots.txt使用误区==
误区一：我网站上所有的文件都需要被蜘蛛抓取，那我就没必要添加robots.txt文件了。反正如果该文件不存在，所有的搜索[[蜘蛛]]将默认能够访问网站上所有没有被口令保护的页面。

每当用户试图访问某个不存在的[[URL]]时，服务器都会在日志中记录404错误文件（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误文件，所以你应该在网站中添加一个robots.txt。

误区二：在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取，这样可以增加网站的收录率。

网站中的脚本程序、样式表等文件即使被[[蜘蛛]]收录，也不会增加网站的收录率，还只会占用服务器存储空间。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引脚本程序、样式表等文件，具体哪些文件需要排除，在robots.txt使用技巧一文中有详细介绍。

误区三：搜索蜘蛛抓取网页太浪费[[服务器]]资源，在robots.txt文件中设置所有的搜索蜘蛛都不能抓取全部的网页。

如果这样的话，会导致整个网站不能被搜索引擎收录。
==相关条目==

[[搜索引擎机器人]]  [[元标记]]

==参考资料==

#http://www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=40360

[[category:SEO]] [[category:网站搭建]]