站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
Robots
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
'''robots'''的作用是用来告诉[[搜索引擎机器人]]不索引网站的哪些内容。robots.txt文件就是一个普通的文本文件,名称用小写,一般放在网站的根目录下。当一个[[搜索引擎机器人]](有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。 ==robots.txt作用== robots.txt的作用就是告诉搜索引擎哪些内容不要索引,一般为了实现如下目的而使用: #禁止搜索引擎索引系统文件,后台文件,模板文件,背景图片。这样做一方面可以防止搜索引擎收录很多无关内容,另外可以降低搜索引擎蜘蛛抓取网站时消耗的资源 #禁止搜索引擎收录需要保密的文件,或者是隐私内容。不过值得注意的是,robots.txt只能告诉搜索引擎不收录这些内容,但是并不能防止这些内容被访问,如果是重要信息最好是设置密码。 #网址规范化方面的应用。启用[[伪静态]]的网站,一般同时存在至少两套网址,一套是[[rewrite]]之后的静态地址,一套是原始的动态地址,如果不限制,搜索引擎可能会收录大量的重复内容。为了方式这种情况,可以将动态格式的地址禁止索引。 == robots.txt语法 == #'''User-agent:''' 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*,则该协议对任何机器人均有效。 #'''Disallow:''' 该项的值用于描述不希望被访问到的一个URL,一个目录或者整个网站。以Disallow 开头的URL 均不会被搜索引擎蜘蛛访问到。任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问。 '''例子:''' ''网站目录下所有文件均能被所有搜索引擎蜘蛛访问'' User-agent: * Disallow: ''禁止所有搜索引擎蜘蛛访问网站的任何部分'' User-agent: * Disallow: / ''禁止所有的搜索引擎蜘蛛访问网站的几个目录'' User-agent: * Disallow: /a/ Disallow: /b/ 禁止搜索引擎蜘蛛访问目录a和目录b ''只允许某个搜索引擎蜘蛛访问'' User-agent: Googlebot Disallow: ==robots.txt使用技巧== 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索[[蜘蛛]]来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条[[404]]错误,所以你应该在网站中添加一个robots.txt。 2. 网站管理员必须使蜘蛛程序远离某些[[服务器]]上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在 robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。 下面是VeryCMS里的robots.txt文件: <nowiki> User-agent: * Disallow: /admin/ 后台管理文件 Disallow: /require/ 程序文件 Disallow: /attachment/ 附件 Disallow: /images/ 图片 Disallow: /data/ 数据库文件 Disallow: /template/ 模板文件 Disallow: /css/ 样式表文件 Disallow: /lang/ 编码文件 Disallow: /script/ 脚本文件 </nowiki> 3. 如果你的网站是动 态网页,并且你为这些动 态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动 态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。 4. robots.txt文件里还可以直接包括在[[sitemap]]文件的链接。就像这样: Sitemap: http://www.***.com/sitemap.xml (此处请填写完整URL,如果按习惯填写Sitemap: /sitemap.xml,提交后会提示:检测到无效的 Sitemap 网址;语法错误) 目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文[[搜索引擎]]公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap 文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。 5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 ==robots.txt使用误区== 误区一:我网站上所有的文件都需要被蜘蛛抓取,那我就没必要添加robots.txt文件了。反正如果该文件不存在,所有的搜索[[蜘蛛]]将默认能够访问网站上所有没有被口令保护的页面。 每当用户试图访问某个不存在的[[URL]]时,服务器都会在日志中记录404错误文件(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误文件,所以你应该在网站中添加一个robots.txt。 误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。 网站中的脚本程序、样式表等文件即使被[[蜘蛛]]收录,也不会增加网站的收录率,还只会占用服务器存储空间。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引脚本程序、样式表等文件,具体哪些文件需要排除,在robots.txt使用技巧一文中有详细介绍。 误区三:搜索蜘蛛抓取网页太浪费[[服务器]]资源,在robots.txt文件中设置所有的搜索蜘蛛都不能抓取全部的网页。 如果这样的话,会导致整个网站不能被搜索引擎收录。 ==相关条目== [[搜索引擎机器人]] [[元标记]] ==参考资料== #http://www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=40360 [[category:SEO]] [[category:网站搭建]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)