SiteWeaver内容管理系统:采集管理事项

采集系统可以直接深入到站点及其网页的所有内容，将网页中的有效数据采集出来（而不仅是网页或链接），并保持数据之间的逻辑关系。对一个新闻站点，它可以将每个新闻的标题、正文等信息单独采集出来，分别作为字段存储在系统中。

采集项目管理

单击左侧管理导航的“采集管理”，出现采集的管理项目：

·文章采集：用于采集设置好的采集项目。

·项目管理：用于建立、管理和复制采集项目。

·过滤管理：用于过滤采集中的标题和正文的字符。

·历史记录：已采集的记录历史，避免重复采集。

·导入|导出：用于共享迁移采集项目。

·定时设置 | 启动定时：用于设置定时采集

·区域采集管理：就是采集网站页面的某个固定区域，并将采集得来的区域代码保存为内联页提供给模板调用，刷新区域采集就可时时更新。

文章采集

1.单击后台左侧管理导航的“采集管理”->“文章采集”，出现“采集系统项目管理”界面：

参数说明：

·选择：选择您要采集的项目，可多选用于批量采集操作。

·状态：如果采集项目没有通过审核，则选择框的颜色为灰暗并不可选，其状态栏显示×。您要必须在“项目管理中”连续通过“采样测试”::->“设置属性”这两步，才能通过审核。通过审核的采集项目状态栏显示√。

·上次采集：显示最新的采集日期。

黑色：表示上一次采集的时间。如：2005-5-8 14:45:44。

红色：表示当天采集的时间。如：2005-5-10 11:31:32（如果过了当天时间则会变成黑色）。

·文章采集选项：系统提供了三种采集的样式，包括

->不录入数据库，只测试采集功能是否正常

->采集过程中预览文章内容

->不采集本系统中已经存在相同标题的文章（网站文章超过2万篇以上,请慎用此项）

这几个是多选选项，您可以选择您自己想要的方式，如果都不选择那就是直接把采集的文章写入到数据库中。

·采集模式：提供“稳定采集”、“快速采集”、“链接采集”和“断点采集”四种模式。

->稳定采集：是针对一台服务器有多个动易系统时建议选此项，每采集一篇文章让服务器休息3秒。这样当一台服务器多个动易系统同时采集的时候服务器不受采集影响。

->快速采集：是针对用户拥有一台独立的服务器或配置非常好的服务器使用的采集模式。快速采集将发挥采集的最快速度，采集的效率最高。

->链接采集：就是只采集对方网站的链接，不采集正文。

->断点采集：就是为了采集过程中突然中断提供的一种采集模式，当您上一次采集的时候突然中断后，在您再一次打开采集的时候，断点采集按钮就从灰色不可用转变成为可用按钮，您只要单击按钮就可以从上一次采集断开那一点开始继续采集。减少系统再次检测的时间。

·历史记录：采集项目具有采集统计功能，显示该项目采集成功数和失败数，点击成功失败可看到具体的历史记录信息，并提供采集统计功能。

·采集选项：提供“测试采集”和“正文预览”两项，分别是来测试建立项目成功后是否有效。

·每页项目数：您可以下拉选择每页显示的页数，用于批量采集，比如一次采集20个项目或更多。

·开始采集：勾选了相应采集项目前的选择框，再单击本功能按钮，系统开始进行项目采集与测试。

项目管理

单击后台左侧管理导航的“采集管理”->“项目管理”，出现“采集系统项目管理”界面：

参数说明：

·管理导航：系统提供采集管理导航操作。

->管理首页：链接到采集系统项目管理首页。

->添加新项目：单击本功能链接添加新的采集项目。

·“操作”列功能链接说明：

->编辑：修改您指定的采集项目。

->测试：测试您的采集项目是否正确，如果显示采集的正文页证明成功，否则会提示您第几步错误。

->属性：设置您采集到的文章，放在那个频道中，那个栏目中，相对应的属性设置。

->复制：如果所采集网站的模板相同，可利用本功能复制多个项目，以提高采集效率。

如果导入采集项目后，就需要审核，是否是正确的采集项目，您必须点要审核项目的，

！采集项目只有通过测试和属性这连续两项后方可通过审核。测试：保证采集项目正确；属性：制定采集后的储存位置。

·操作按钮：系统提供将已选定的项目“批量删除”或“批量设置”二个操作按钮。

->批量删除：选择您要删除的采集项目（可多选），选择后单击“批量删除”按钮即可删除选定的采集项目。

->批量设置：选择您要设置的采集项目（可多选），选择后单击“批量设置”按钮，则可批量修改项目属性。

具体项目属性设置请参阅后章“项目管理”的“属性设置”。

采集的步骤

下面请认真阅读采集步骤说明，建立您要采集的项目。单击顶部的“添加新项目”功能链接，开始添加新的采集项目。

基本设置

“添加新项目--基本设置”的界面参数说明：

1.基本设置：

·管理导航：如果是编辑项目，可任意点击所属的项目链接。

·添加项目名称：填写自定义项目名称。

·网站名称：填写自定义网站名称。

·新闻列表网址：填写采集网站的的栏目列表页（即标题较多的列表网页，不是首页）。

·网页编码格式：提供GB2312、UTF-8和Big5三种编码格式。国内的网站基本都是GB2312,(默认选项可不选)

如果是香港，台湾网站请采用 Big5编码,如果是采集海外网站用UTF-8编码。

·项目备注：填写自定义备注信息。

2.登录设置：

·网站登录：选择不需要登录或设置参数（如果网站需要登录后才能浏览信息刚要选择此选项）设置参数中填写登录地址、提交地址、用户参数和密码参数。

详细设置：

登录地址: 用户要网站要登录的网页例如：http://www.xxxx.com/UserLogin.asp

提交地址: 指用查看网页源代码方式查看登录地址的Form 表单提交的地址;比如上面输入登录地址为http://www.xxxx.com/UserLogin.asp 打开后查看网页源代码;在源代码中发现他的form 代码是 <form action='/User/User_ChkLogin.asp';那么提交地址就是http://www.xxxx.com/User/User_ChkLogin.asp

用户参数: 用户文本框名称就是查看网页源代码登录表单的用户文本框名称例如：<input name='UserName'它的用户文本框名就是UserName用户名称就是您要登录对方网站的注册用户名

密码参数：密码文本框名称就是查看网页源代码登录表单的密码文本框名称例如：<input name='UserPassword'它的用户文本框名就是 UserPassword密码名称就是您要登录对方网站的注册用户密码

失败信息: 这里获取地址的最简单方法是,在对方网站登录时随便输入一个错误的用户名和密码,点登录后,这时一般都会出现一个提示登录不正确的页面,把这个页面提示登录不正确的字符复制下来填写到这里就可以了(注意复制的字符要求在提示登录不正确页面的唯一字符，就是没有重复的字符).

->填写好相关参数后，单击“下一步”按钮，进行采集列表项目信息设置。

列表设置

本步骤界面中，将显示基本设置中填写的采集目标新闻列表页的信息，并设置采集的列表的相关代码：

1.网页预览：显示采集目标列表网页预览效果。

2.代码预览：可以设置是否查看列表网页的源码。

3.基本设置：设置详细的列表采集信息。

·列表的开始代码和列表的结束代码：填写上部采集目标源码框中显示的采集列表代码的开始和结束的代码。

！填写的代码必须保证是当前列表页唯一的，可单击右侧的“测试代码”按钮是测试填写的代码是否唯一。

·链接开始代码和结束代码：填写获得链接的代码。

如果列表分页正确后，就获得的一排列表标题代码。链接代码就要获得标题的URL链接,注意是要获得标题到正文的Url链接。

->使用例举1：

一个新闻标题的代码为“<td class='listbg'><a class='listA' href='/Help/Admin/others/394.html' title='文章标题：如何去掉图片随鼠标而放大或缩小的功能　作者：壮志　更新时间：2005-5-13 20:04:23' target='_self'>如何去掉图片随鼠标而放大或缩小的功能</a><img src='/images/new.gif' alt='最新文章'></td>”

则链接开始代码和链接结束代码填写的信息为：

链接开始代码“<a class='listA' href='” 链接结束代码“' title='”

->使用例举2：

一个新闻标题的代码为<td valign="top"><a href="/chinese/SPORT-c/859117.htm" class="ty5" target="_blank">汉堡大师赛冷门迭爆阿加西不敌非种子选手出局</a><span class="ty6">(05/11)</span></td>

则链接开始代码和链接结束代码填写的信息为：

链接开始代码“<a href="” 链接结束代码“" class="ty5" target="_blank">”

这时获得的字符正好为可运行的链接“/Help/Admin/others/394.html”和“/Help/Admin/others/394.html”。在这里，如何获得有效的链接是关键。

·链接特殊处理：填写对链接的特殊处理定义。如果选择“重新定位”选项，则出现“绝对链接字符”内容框。

绝对链接字符：同列表重新定向原理一样，就是当有的栏目页用的是js代码运算，获得的URL而不是地址。但如果运算它并出现最后成功的页面，则可认为是正确的。把正确的URL添在下面以针对js处理的栏目页。

当链接代码是一些非常特殊的JS函数调用代码时，请设置此选项。

例如：列表中的链接代码形如：<a href='#' onclick='opennews(137)'>，对应的opennews(id)函数的代码为：window.open('http: //www.xxxx.com/xxx/news.asp?id='+id,'','****')。

则链接开始代码设置为： <a href='#' onclick='opennews(，链接结束代码为：)'>，此处“重定向URL”设置为：http://www.xxxx.com/xxx/news.asp?id={$ID}（{$ID}是系统规定的标签）

->填写好相关参数后，单击“下一步”按钮进行采集正文的相关设置。

4.分页设置：

从源代码中获取下一页的URL：

·开始代码或结束代码至少有一个在网页中是唯一的，才能保证可以正确采集到相关内容。因为每个列表页的代码都可能不同，所以需要您分析多个列表页并找到相同的开始代码和结束代码，才能保证可以从所有列表页中准确采集到所需内容。

·列表索引分页：如果列表网页中有象“上一页”、“下一页”这样的分页，则要设置索引分页。

->不作设置。注：当前采集的列表页不分页。

->设置标签。若采集的列表分页中有“下一页”和“上一页”的分页内容，则要获取分页开始与结尾的代码。

>>下页开始和结束标记：填写下一页开始和结束标记代码。

例：“共 82 篇新闻首页上一页下一页尾页”，这是某列表页的分页链接。

1.首先我们就要得到“下一页”的链接URL。

例：以下是网页中的“下一页”的URL代码“<a href='/news/List/List_2_2.html'>下一页</a>”，那么我们就要得到：下页开始标记“<a href='”，下页结束标记“'>下一页</a>”。

！请注意：开始和结束标记再加上中间采集到的代码，正好是一个完整的网络URL地址，这就是我们要设置的。

2.要正确的得到下一页URL地址关键是/news/List/List_2_2.html（如果是相对路径也不用担心，系统会自动转换为绝对路径），您还要单击右侧“测试”按钮以确认唯一性。

！因为下一页代码少，所以不可能全部唯一，但只要有一处代码为唯一就可以了。

> >索引分页重定向：系统能智能分析网站的相对路径，如果特殊情况分析不对，请按上述步骤使用此功能。一般不会用到，如果采集分页很纵深，并且下一页代码是相对路径。在下一步链接设置分析到的下一页列表的URL和实际不符，应用此功能。在列表设置捕获相对路径，如果是动态页捕获ID。

例：在索引分页中填写实际路径 http://www.xxxxx.com/xxx/xx/xxx/news/{$ID} {$ID}就是列表捕获的相对路径或动态ID。

批量指定分页URL代码：如果分页的代码都是数字，就可用批量生成自动控制分页。

>>原字符串：例：http://www.xxxxx.com/news/index_1.html 它的分页都为http://www.xxxxx.com/news/index_2.html，即有数字规律，则可在原字符串中这样填写：

“http://www.xxxxx.com/news/index_{$ID}.html”

其中{$ID}代表分页数。

>>生成范围：可写1-10或10-1，意思是采集1到10页或10到1页倒序采集。

手动添加分页URL代码：

如果对方网页分页实在是没有头绪，则可用手工添加方式添加各个分页的URL。

！注：一行一个分页URL地址。事实证明这种效率并不高，为无奈之举，因为无头绪的分页中列表分页也未必是有头绪的。

5.列表缩略图：

·缩略图开始代码和结束代码：填写获得缩略图地址的代码。

适用于截取一些列表页有缩略图的网站。列表缩略图就要获得缩略图的地址。

->使用例举：

一个网站列表缩略图的代码为

以下是引用片段：<td vAlign=top width=108 rowSpan=2><IMG height=62 src="/Skin/200508/index_001.gif" width=75></td>

则缩略图开始代码和缩略图结束代码填写的信息为：

缩略图开始代码

以下是引用片段：

<IMG height=62 src="

链接结束代码

以下是引用片段：

" width

这时获得的地址正好为缩略图的地址“/Skin/200508/index_001.gif”。

在这里，需要注意的是“缩略图开始代码”的代码设置，不能设置为：“src="”。这里要把您采集的缩略图的代码它们共同代码一起设置上，不然会出现和正文不对应的现象。

正文设置

本步骤界面中，将显示所采集正文的信息，并设置标题、正文、时间、作者、来源、关键字等信息：

1.网页预览：显示采集目标内容页的预览效果。

！上面显示“请选择测试的正文页”下拉选择框，可以选择相应的正文页面作为测试页。

2.代码预览：可以设置是否查看列表网页的源码。

3.基本设置：

·标题开始标记和结束标记：对网页正文的标题进行设置。

->使用例举1：

源码框中显示的标题信息为“<title>如何去掉图片随鼠标而放大或缩小的功能</title>”，则标题开始标记和标题结束标记中填写的信息为：

标题开始标记“<title>”

标题结束标记“</title>”

->使用例举2：

源码框中显示的标题信息为“<b><font size='4'><br>这是文章标题</font></b>”，则标题开始标记和标题结束标记中填写的信息为：

标题开始标记“<b><font size='4'><br>”

标题结束标记“</font></b>”

这时获得的字符正好为我们想要的标题“如何去掉图片随鼠标而放大或缩小的功能”和“这是文章标题”。

·正文设置操作如上

！在这里，如何获得有效的链接是关键。就会得到我们想要的标题。

4.选项设置：

·更新时间、文章作者、文章来源、文章关键字、文章简介：

这些内容的设置与上述设置方法相同。

->使用例举：

源码框中显示的时间、作者、来源信息为“<td colspan="2" class="Article_tdbgall">作者：<a href='#' title='壮志'>壮志</a> 文章来源：本站原创点击数：<script language='javascript' src='/Help/GetHits.asp?ArticleID=394'></script> 更新时间：2005-5-13</td>”

则填写的时间、作者、来源信息为：

时间开始标记“> 更新时间：”

时间结束标记“</td>”

作者开始标记“作者：”

作者结束标记“ 文章来源”

来源开始标记“文章来源：”

来源结束标记“点击数：”

·您可以指定作者设置、来源设置和关键字词的自定义文字。

在关键字词设置中，如果想让关键字是正文的标题，关键词操作：

->可选择将标题打散为关键词(默认) 打散的字数可以指定

->也可以指定网页中截取的关键词

如：关键字：|如何|何去|去掉|掉图|图片|片随|随鼠|鼠标|标而|而放|放大|大或|或缩|缩小|小的|的功|功能|能|