SupeSite/信息采集器:修订间差异
来自站长百科
(以内容“{{SupeSite top}} ==参考来源== *http://faq.comsenz.com/usersguide/supesite {{SupeSite}} S”创建新页面) |
无编辑摘要 |
||
第1行: | 第1行: | ||
{{SupeSite top}} | {{SupeSite top}} | ||
[[SupeSite]] 支持手工[[采集]]和智能采集,手工采集需要您自己配置采集规则,智能采集只需您添加需要采集的网址地址即可,程序会自动为您采集[[网站]]的信息。接下来分别为您介绍两种采集方式: | |||
==手工采集== | |||
手工采集即自己配置采集规则。打开 SupeSite 的“系统设置”,点击“资讯管理”的“采集器”,然后点击“添加新机器人”。 | |||
首先简单讲解制作采集器的基本原理和思路: | |||
:1、确定您要采集哪个页面的新闻,将这些页面的地址填入到“列表页面采集设置”的地址框; | |||
:2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采集回来,而是采集一个[[网页]]的一部分内容,所以您必须告诉程序您要采集的区域,也就是“列表区域识别规则”; | |||
:3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接[[url]]识别规则”。 | |||
:4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题(“文章标题识别规则”),文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。 | |||
:5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置每一项的过滤设置,如“文章标题过滤规则”和“文章内容过滤规则”等。 | |||
:以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2--3次就可以领悟到了。 | |||
:接下来介绍采集器的基本原理和步骤: | |||
*第1:打开 SupeSite 的“系统设置”,点击“资讯管理”的“采集器”,然后点击“添加新机器人”。 | |||
:这里需要特别指出的是:单次采集个数和自动导入。单次采集个数尽量设置较小的数字,以免超时。自动导入,请选择资讯分类,可以直接将采集的结果导入到资讯库中。如下图: | |||
<div>[[{{ns:image}}:ss155.gif|center]]</div> | |||
*第2:填写“列表页面采集”和“采集页面编码”。请填写要采集的页面地址(列表页面地址)。这里分为手工输入和自动输入:手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码,用[page]代替分页变量。如下图: | |||
<div>[[{{ns:image}}:ss156.gif|center]]</div> | |||
:点击上图中的,尝试链接,可以看到如下图的页面,这样可以判断您的[[服务器]]是否可以链接到要采集的网站,即检测服务器是否允许采集,如果这里显示无法链接,则不能采集该网页。 | |||
<div>[[{{ns:image}}:ss157.gif|center]]</div> | |||
:设置“采集页面编码”,是您采集网页的编码,并不是您站点的编码。这里切记!!如下图: | |||
<div>[[{{ns:image}}:ss158.gif|center]]</div> | |||
*第3:设置“列表区域”和“文章链接”的识别规则。如下图,填入列表区域的规则和文章链接的规则,采集内容的范围用[list]代替,采集文章的标题用[url]代替。文章链接URL的剔除和过滤规则,请您参考图片里的详细说明,这里不再赘述。 | |||
<div>[[{{ns:image}}:ss159.gif|center]]</div> | |||
*第4:设置“文章标题”识别规则,如下图,文章标题用[subject]代替。文章标题的过滤规则,剔除规则,替换规则,包含关键字,请您参考图片里的详细说明,这里不再赘述。 | |||
<div>[[{{ns:image}}:ss160.gif|center]]</div> | |||
*第5:设置“文章内容”的识别规则,如下四图,都属于文章内容识别规则。文章内容用[message]代替,分页区域用[pagearea]代替,分页链接用[page]代替,信息来源用[from]代替,文章作者用[author]代替。同上,一些过滤,剔除等规则,请您参考图片里的详细说明,这里不再赘述。 | |||
:这里说明几点: | |||
:文章内容格式化:此操作将去除网页多余代,并将文章内容按原有段落分段。格式化的过程为程序自动分析,会存在一些误差。 | |||
:保存内容中的图片到本地和保存内容中的[[FLASH]]到本地,这里选择是否将采集到的图片和Flash存放到本地。如需将对方网站的图片存放到自己的服务器上,请选择“是”! | |||
<div>[[{{ns:image}}:ss161.gif|center]]</div><br> | |||
<div>[[{{ns:image}}:ss162.gif|center]]</div><br> | |||
<div>[[{{ns:image}}:ss163.gif|center]]</div><br> | |||
<div>[[{{ns:image}}:ss164.gif|center]]</div> | |||
:至此已经设置完一个采集规则,然后点击“开始采集”,采集完毕之后点击“查看结果”。最后将采集的内容导入资讯。这里说明一点:采集的内容只能够导入资讯这个频道。 | |||
<div>[[{{ns:image}}:ss165.gif|center]]</div><br> | |||
<div>[[{{ns:image}}:ss166.gif|center]]</div><br> | |||
<div>[[{{ns:image}}:ss167.gif|center]]</div> | |||
:这里重点说明,导入后删除和不删除,如果选择删除,则采集来的信息在导入资讯之后,将无法再次被使用。 | |||
==智能采集== | |||
:智能采集为您提供非常简单,易用的采集方式。只要将您需要采集的站点地址添加到地址框,然后点击开始采集即可。 | |||
:智能采集集成于手工采集中,您只需将采集的地址填入地址框,然后点击提交即可。如下图: | |||
<div>[[{{ns:image}}:ss168.gif|center]]</div> | |||
==参考来源== | ==参考来源== | ||
第8行: | 第59行: | ||
{{SupeSite}} | {{SupeSite}} | ||
[[category:SupeSite|S]] | [[category:SupeSite|S]] | ||
[[category:SupeSite后台资讯管理]] |
2012年2月24日 (五) 16:18的最新版本
SupeSite 支持手工采集和智能采集,手工采集需要您自己配置采集规则,智能采集只需您添加需要采集的网址地址即可,程序会自动为您采集网站的信息。接下来分别为您介绍两种采集方式:
手工采集[编辑 | 编辑源代码]
手工采集即自己配置采集规则。打开 SupeSite 的“系统设置”,点击“资讯管理”的“采集器”,然后点击“添加新机器人”。
首先简单讲解制作采集器的基本原理和思路:
- 1、确定您要采集哪个页面的新闻,将这些页面的地址填入到“列表页面采集设置”的地址框;
- 2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采集回来,而是采集一个网页的一部分内容,所以您必须告诉程序您要采集的区域,也就是“列表区域识别规则”;
- 3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接url识别规则”。
- 4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题(“文章标题识别规则”),文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。
- 5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置每一项的过滤设置,如“文章标题过滤规则”和“文章内容过滤规则”等。
- 以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2--3次就可以领悟到了。
- 接下来介绍采集器的基本原理和步骤:
- 第1:打开 SupeSite 的“系统设置”,点击“资讯管理”的“采集器”,然后点击“添加新机器人”。
- 这里需要特别指出的是:单次采集个数和自动导入。单次采集个数尽量设置较小的数字,以免超时。自动导入,请选择资讯分类,可以直接将采集的结果导入到资讯库中。如下图:
- 第2:填写“列表页面采集”和“采集页面编码”。请填写要采集的页面地址(列表页面地址)。这里分为手工输入和自动输入:手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码,用[page]代替分页变量。如下图:
- 点击上图中的,尝试链接,可以看到如下图的页面,这样可以判断您的服务器是否可以链接到要采集的网站,即检测服务器是否允许采集,如果这里显示无法链接,则不能采集该网页。
- 设置“采集页面编码”,是您采集网页的编码,并不是您站点的编码。这里切记!!如下图:
- 第3:设置“列表区域”和“文章链接”的识别规则。如下图,填入列表区域的规则和文章链接的规则,采集内容的范围用[list]代替,采集文章的标题用[url]代替。文章链接URL的剔除和过滤规则,请您参考图片里的详细说明,这里不再赘述。
- 第4:设置“文章标题”识别规则,如下图,文章标题用[subject]代替。文章标题的过滤规则,剔除规则,替换规则,包含关键字,请您参考图片里的详细说明,这里不再赘述。
- 第5:设置“文章内容”的识别规则,如下四图,都属于文章内容识别规则。文章内容用[message]代替,分页区域用[pagearea]代替,分页链接用[page]代替,信息来源用[from]代替,文章作者用[author]代替。同上,一些过滤,剔除等规则,请您参考图片里的详细说明,这里不再赘述。
- 这里说明几点:
- 文章内容格式化:此操作将去除网页多余代,并将文章内容按原有段落分段。格式化的过程为程序自动分析,会存在一些误差。
- 保存内容中的图片到本地和保存内容中的FLASH到本地,这里选择是否将采集到的图片和Flash存放到本地。如需将对方网站的图片存放到自己的服务器上,请选择“是”!
- 至此已经设置完一个采集规则,然后点击“开始采集”,采集完毕之后点击“查看结果”。最后将采集的内容导入资讯。这里说明一点:采集的内容只能够导入资讯这个频道。
- 这里重点说明,导入后删除和不删除,如果选择删除,则采集来的信息在导入资讯之后,将无法再次被使用。
智能采集[编辑 | 编辑源代码]
- 智能采集为您提供非常简单,易用的采集方式。只要将您需要采集的站点地址添加到地址框,然后点击开始采集即可。
- 智能采集集成于手工采集中,您只需将采集的地址填入地址框,然后点击提交即可。如下图:
参考来源[编辑 | 编辑源代码]
SupeSite使用手册导航 | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
|