ZCMS/Web采集
采集可以将别的网站上面有用的新闻,转到自己的网站上。可以定义设置一个采集的任务,告知系统目标网站的地址等必要的参数,让系统自动完成采集的工作。
点击主菜单区的“采集与分发”,再点击左侧菜单的“从 WEB 采集”,进入采集管理界面,如下图所示:
- 新建 WEB采集任务
点击上图中的“新建”按钮,打开新建 web 采集任务的对话框,如下图所示。
上图所示是一个采集新浪网的科普频道的例子。
在“基础信息”选项卡中填写相关信息。起始URL中一般填写目标网站某个栏目的列表页地址,点击“增加 URL 层级”按钮,出现 2 级 URL, 在这里一般填写目标栏目的新闻页面的 URL 地址,上图中使用了${A}来匹配字符串形式的新闻页面名称。
如果所在的网络上网需要代理服务器,可以在右边设置代理服务器,如果被采集页面的URL有一定规则,请设置过滤URL的表达式。
在“匹配块”选项卡中,填写的是采集页面的解析规格,如下图所示:
在目标新闻页面中,新闻标题和新闻正文通常都被一个HTML标签,或一段固定的HTML代码所包围,按照这个规律填写匹配块的内容,系统就能解析出想要的新闻标 题和新闻正文。
在“过滤块”选项卡中,填写的是需要去掉的代码块。
- 修改 WEB采集任务
在图1所示的界面中,勾选 web 采集任务,点击“修改”按钮,可以打开修改 web采集任务的对话框,可以对任务的各项参数进行修改。
- 删除 WEB采集任务
在图1所示的界面中,勾选一个或多个 web 采集任务,点击“修改”按钮,可以删除 web 采集任务。
- 清空采集数据
如果需要清空采集所得的数据,可以在图1所示的界面中,勾选一个或多个采集任务,点击“清空采集数据”按钮,清除所选任务所采集的新闻数据。
- 执行采集任务
建立了 web 采集任务后,还要采集任务真正的执行,才能获得其他网站的新闻数据。
在图1所示的界面中,勾选一个或多个采集任务,点击“执行任务”按钮可以让采集任务执行。
- 中止执行采集任务
如果需要中止采集任务,比如采集的时间太长或采集任务占用CPU资源太多,在图1 所示的界面中,可以点击“中止执行”按钮,终止采集任务的执行。
参考来源[ ]
http://www.zving.com/wdzx/zcms/index.shtml
ZCMS使用手册导航 | ||||||
---|---|---|---|---|---|---|
|