编辑“淘特Asp.NetCms WEB采集说明”

<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>导航:</strong> [[淘特Asp.NetCms|上一页]]</span>
<div style="clear:both;"></div>
*'''第一步：填写采集名称，要采集的[[网址]]，及[[编码]]，选择采集的文章使用哪个文章[[模板]]，设置采集文章到哪个栏目'''
[[Image:TotNetCMS_Collection1.jpg|center]]

*'''第二步：设置文章列表标记'''
[[Image:TotNetCMS_Collection2.jpg|center]]

'''参数说明：'''
*'''列表起始标记：'''设置要采集文章列表的开始[[HTML]]代码
*'''列表结束标记：'''设置要采集文章列表的结束HTML代码。

提示：点击“查看标记设置结果”按钮，可以在左侧“采集的段”下文本框中看到采集效果。

*'''替换链接：'''如果文章列表中链接使用相对地址，可以使用该功能，将[[相对链接]]替换成[[绝对地址]]。
*'''过滤设置：'''如果文章列表中含有此字符的链接将过滤掉。
*'''分页设置：'''如果要采集多页，此处设置分页标记符，假如对方的文章列表页是<nowiki>http://****/list_1.htm</nowiki>,<nowiki> http://****/list_2.htm</nowiki>，则可以设置为http://****/list_$num$.htm。

这一步主要设置对方网页文章列表的起始和结束[[标签]]，标签设置的原理其实就是掐头去尾法，比如对方[[网页]]结构如下：
[[Image:TotNetCMS_Collection3.gif|center]]

假如要采集“2007福建高考....”，至“地域歧视：北京….”之间的文章，那么列表起始标签可以设置为：高考新闻开始(这里为了演示，特意将高考新闻开始做为列表的头，这里只是为了说明原理，具体采集的时候请根据实际情况而定)

同样道理，列表起始结束标签设置为：高考新闻结束

一般来讲，都是根据对方网页源代码找到文章列表的前后一行特征代码，然后将其设置为起始和结束标签。(注意：这一行特征码要在其源代码中唯一出现，否则有可能截取的字符不是想要的字符)

以上说明了文章列表的采集，以后不管是文章列表标签还是文章内容详细页标签，其设置均是掐头去尾法。

*'''第三步、文章内容采集'''
[[Image:TotNetCMS_Collection4.jpg|center]]

这一步主要设置要采集文章的标题、内容、作者、来源等属性。起始、结束标签均是采用掐头去尾法截取内容。如对方网页文章源代码的标题一行代码为：

<nowiki><h1>香港高校明年起不再录取内地中学保送生</h1></nowiki>

因此设置标题起始标记为：<nowiki><h1> 标签结束标记为：</h1></nowiki>

提示：如果上图上LinkList一项没有看到多行的链接地址，则说明没有采集到文章列表，建议返回上一步重新设置列表标记，直到LinkList下获取如上图所示的多行[[URL]]网址。

设置好文章标题、内容、作者等相关标记后，点击下一步，如果设计设置正确，将会显示如图：
[[Image:TotNetCMS_Collection5.jpg|center]]

假如采集获取的内容和上图类似，上图中每行提示采集到的标题(Title)，

作者：Author，内容(Content)，这样一个采集任务到此添加成功了。点击“采集管理”链接返回至“采集任务”列表如下图：
[[Image:TotNetCMS_Collection6.jpg|center]] 

点击“操作”一列中的“采集”链接，系统提示开始采集，以下是采集的过程记录。
[[Image:TotNetCMS_Collection7.jpg|center]] 

提示：系统在采集时会自动保存采集的URL地址，以后采集时会自动判断是否采集过，防止采集重复的URL地址。

==相关条目==
*[[动易]]
*[[Drupal]]
*[[DedeCMS]]

==参考来源==
*[http://www.totcms.com/totnetcms/help/ 参考来源]

[[category:淘特Asp.NetCms|W]]