SupeSite/信息采集器：修订间差异

2012年2月24日 (五) 16:18的最新版本

SupeSite 支持手工采集和智能采集，手工采集需要您自己配置采集规则，智能采集只需您添加需要采集的网址地址即可，程序会自动为您采集网站的信息。接下来分别为您介绍两种采集方式：

手工采集[编辑 | 编辑源代码]

手工采集即自己配置采集规则。打开 SupeSite 的“系统设置”，点击“资讯管理”的“采集器”，然后点击“添加新机器人”。

首先简单讲解制作采集器的基本原理和思路：

1、确定您要采集哪个页面的新闻，将这些页面的地址填入到“列表页面采集设置”的地址框；

2、确定在这些页面您要采集的内容区域，因为不是一个网页所有的内容都要采集回来，而是采集一个网页的一部分内容，所以您必须告诉程序您要采集的区域，也就是“列表区域识别规则”；

3、第2步确定区域之后，还要告诉程序您要采集的文章链接，也就是“文章链接url识别规则”。

4、现在已经确定了大的采集框架，接下来要告诉程序在一个文章页面，文章的标题（“文章标题识别规则”），文章的来源和作者分别是什么。然后就是一篇文章内容的范围，也就是说一个文章页面内，真正您需要采集的范围，就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。

5、以上4个步骤已经确定了采集的范围，如果您需要过滤标题和内容，请根据您的要求设置每一项的过滤设置，如“文章标题过滤规则”和“文章内容过滤规则”等。

以上几个步骤确定范围都是通过查看页面源码，进行设置的，截取的方法需要一些经验，练习2－－3次就可以领悟到了。

接下来介绍采集器的基本原理和步骤：

第1：打开 SupeSite 的“系统设置”，点击“资讯管理”的“采集器”，然后点击“添加新机器人”。

这里需要特别指出的是：单次采集个数和自动导入。单次采集个数尽量设置较小的数字，以免超时。自动导入，请选择资讯分类，可以直接将采集的结果导入到资讯库中。如下图：

第2：填写“列表页面采集”和“采集页面编码”。请填写要采集的页面地址（列表页面地址）。这里分为手工输入和自动输入：手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码，用[page]代替分页变量。如下图：

点击上图中的，尝试链接，可以看到如下图的页面，这样可以判断您的服务器是否可以链接到要采集的网站，即检测服务器是否允许采集，如果这里显示无法链接，则不能采集该网页。

设置“采集页面编码”，是您采集网页的编码，并不是您站点的编码。这里切记！！如下图：

第3：设置“列表区域”和“文章链接”的识别规则。如下图，填入列表区域的规则和文章链接的规则，采集内容的范围用[list]代替，采集文章的标题用[url]代替。文章链接URL的剔除和过滤规则，请您参考图片里的详细说明，这里不再赘述。

第4：设置“文章标题”识别规则，如下图，文章标题用[subject]代替。文章标题的过滤规则，剔除规则，替换规则，包含关键字，请您参考图片里的详细说明，这里不再赘述。

第5：设置“文章内容”的识别规则，如下四图，都属于文章内容识别规则。文章内容用[message]代替，分页区域用[pagearea]代替，分页链接用[page]代替，信息来源用[from]代替，文章作者用[author]代替。同上，一些过滤，剔除等规则，请您参考图片里的详细说明，这里不再赘述。

这里说明几点：

文章内容格式化：此操作将去除网页多余代，并将文章内容按原有段落分段。格式化的过程为程序自动分析，会存在一些误差。

保存内容中的图片到本地和保存内容中的FLASH到本地，这里选择是否将采集到的图片和Flash存放到本地。如需将对方网站的图片存放到自己的服务器上，请选择“是”！

至此已经设置完一个采集规则，然后点击“开始采集”，采集完毕之后点击“查看结果”。最后将采集的内容导入资讯。这里说明一点：采集的内容只能够导入资讯这个频道。

这里重点说明，导入后删除和不删除，如果选择删除，则采集来的信息在导入资讯之后，将无法再次被使用。

智能采集[编辑 | 编辑源代码]

智能采集为您提供非常简单，易用的采集方式。只要将您需要采集的站点地址添加到地址框，然后点击开始采集即可。

智能采集集成于手工采集中，您只需将采集的地址填入地址框，然后点击提交即可。如下图：

参考来源[编辑 | 编辑源代码]

http://faq.comsenz.com/usersguide/supesite

SupeSite使用手册导航

安装与升级：	产品介绍 \| Windows环境搭建 \| linux环境搭建 \| 安装教程 \| 升级
后台基本设置：	站点设置 \| 本地路径 \| 积分设置 \| 缩略图设置 \| 水印设置 \| RSS设置 \| 搜索优化 \| 影音设置 \| 其他管理 \| 功能频道设置 \| 用户组权限 \| 公告管理 \| 站点广告添加 \| HTML静态配置 \| 在线编辑 \| 计划任务 \| 更新缓存 \| 数据库备份及恢复 \| 词语过滤 \| 友情链接 \| 附件类型 \| 预先值 \| 站点存档 \| 生成sitemap \| 书签右键
空间管理：	举报信息 \| 个人空间管理 \| 主题管理 \| 评论管理 \| 留言管理 \| 批量附件管理 \| TAG管理 \| 圈子管理 \| 个人空间功能模块 \| 个人空间等级审核 \| CSS共享 \| 个人资料扩展 \| 页面特效 \| 通用自定义字段
资讯管理：	资讯发布管理 \| 资讯分类 \| 资讯审核 \| 信息采集器 \| 投票功能 \| 资讯自定义字段
后台使用：	论坛设置 \| 模型管理 \| 专题管理
模块向导：	模块向导设置 \| 模块风格设置

@@ 第1行： / 第1行： @@
 {{SupeSite top}}
+[[SupeSite]] 支持手工[[采集]]和智能采集，手工采集需要您自己配置采集规则，智能采集只需您添加需要采集的网址地址即可，程序会自动为您采集[[网站]]的信息。接下来分别为您介绍两种采集方式：
+==手工采集==
+手工采集即自己配置采集规则。打开 SupeSite 的“系统设置”，点击“资讯管理”的“采集器”，然后点击“添加新机器人”。
+首先简单讲解制作采集器的基本原理和思路：
+:1、确定您要采集哪个页面的新闻，将这些页面的地址填入到“列表页面采集设置”的地址框；
+:2、确定在这些页面您要采集的内容区域，因为不是一个网页所有的内容都要采集回来，而是采集一个[[网页]]的一部分内容，所以您必须告诉程序您要采集的区域，也就是“列表区域识别规则”；
+:3、第2步确定区域之后，还要告诉程序您要采集的文章链接，也就是“文章链接[[url]]识别规则”。
+:4、现在已经确定了大的采集框架，接下来要告诉程序在一个文章页面，文章的标题（“文章标题识别规则”），文章的来源和作者分别是什么。然后就是一篇文章内容的范围，也就是说一个文章页面内，真正您需要采集的范围，就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。
+:5、以上4个步骤已经确定了采集的范围，如果您需要过滤标题和内容，请根据您的要求设置每一项的过滤设置，如“文章标题过滤规则”和“文章内容过滤规则”等。
+:以上几个步骤确定范围都是通过查看页面源码，进行设置的，截取的方法需要一些经验，练习2－－3次就可以领悟到了。
+:接下来介绍采集器的基本原理和步骤：
+*第1：打开 SupeSite 的“系统设置”，点击“资讯管理”的“采集器”，然后点击“添加新机器人”。
+:这里需要特别指出的是：单次采集个数和自动导入。单次采集个数尽量设置较小的数字，以免超时。自动导入，请选择资讯分类，可以直接将采集的结果导入到资讯库中。如下图：
+<div>[[{{ns:image}}:ss155.gif|center]]</div>
+*第2：填写“列表页面采集”和“采集页面编码”。请填写要采集的页面地址（列表页面地址）。这里分为手工输入和自动输入：手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码，用[page]代替分页变量。如下图：
+<div>[[{{ns:image}}:ss156.gif|center]]</div>
+:点击上图中的，尝试链接，可以看到如下图的页面，这样可以判断您的[[服务器]]是否可以链接到要采集的网站，即检测服务器是否允许采集，如果这里显示无法链接，则不能采集该网页。
+<div>[[{{ns:image}}:ss157.gif|center]]</div>
+:设置“采集页面编码”，是您采集网页的编码，并不是您站点的编码。这里切记！！如下图：
+<div>[[{{ns:image}}:ss158.gif|center]]</div>
+*第3：设置“列表区域”和“文章链接”的识别规则。如下图，填入列表区域的规则和文章链接的规则，采集内容的范围用[list]代替，采集文章的标题用[url]代替。文章链接URL的剔除和过滤规则，请您参考图片里的详细说明，这里不再赘述。
+<div>[[{{ns:image}}:ss159.gif|center]]</div>
+*第4：设置“文章标题”识别规则，如下图，文章标题用[subject]代替。文章标题的过滤规则，剔除规则，替换规则，包含关键字，请您参考图片里的详细说明，这里不再赘述。
+<div>[[{{ns:image}}:ss160.gif|center]]</div>
+*第5：设置“文章内容”的识别规则，如下四图，都属于文章内容识别规则。文章内容用[message]代替，分页区域用[pagearea]代替，分页链接用[page]代替，信息来源用[from]代替，文章作者用[author]代替。同上，一些过滤，剔除等规则，请您参考图片里的详细说明，这里不再赘述。
+:这里说明几点：
+:文章内容格式化：此操作将去除网页多余代，并将文章内容按原有段落分段。格式化的过程为程序自动分析，会存在一些误差。
+:保存内容中的图片到本地和保存内容中的[[FLASH]]到本地，这里选择是否将采集到的图片和Flash存放到本地。如需将对方网站的图片存放到自己的服务器上，请选择“是”！
+<div>[[{{ns:image}}:ss161.gif|center]]</div><br>
+<div>[[{{ns:image}}:ss162.gif|center]]</div><br>
+<div>[[{{ns:image}}:ss163.gif|center]]</div><br>
+<div>[[{{ns:image}}:ss164.gif|center]]</div>
+:至此已经设置完一个采集规则，然后点击“开始采集”，采集完毕之后点击“查看结果”。最后将采集的内容导入资讯。这里说明一点：采集的内容只能够导入资讯这个频道。
+<div>[[{{ns:image}}:ss165.gif|center]]</div><br>
+<div>[[{{ns:image}}:ss166.gif|center]]</div><br>
+<div>[[{{ns:image}}:ss167.gif|center]]</div>
+:这里重点说明，导入后删除和不删除，如果选择删除，则采集来的信息在导入资讯之后，将无法再次被使用。
+==智能采集==
+:智能采集为您提供非常简单，易用的采集方式。只要将您需要采集的站点地址添加到地址框，然后点击开始采集即可。
+:智能采集集成于手工采集中，您只需将采集的地址填入地址框，然后点击提交即可。如下图：
+<div>[[{{ns:image}}:ss168.gif|center]]</div>
 ==参考来源==
@@ 第8行： / 第59行： @@
 {{SupeSite}}
 [[category:SupeSite|S]]
+[[category:SupeSite后台资讯管理]]

WIKI使用导航

站长百科导航

站长专题