淘特Asp.NetCms WEB采集说明

来自站长百科

跳转至：导航、搜索

导航: 上一页

第一步：填写采集名称，要采集的网址，及编码，选择采集的文章使用哪个文章模板，设置采集文章到哪个栏目

TotNetCMS Collection1.jpg

第二步：设置文章列表标记

TotNetCMS Collection2.jpg

参数说明：

列表起始标记：设置要采集文章列表的开始HTML代码
列表结束标记：设置要采集文章列表的结束HTML代码。

提示：点击“查看标记设置结果”按钮，可以在左侧“采集的段”下文本框中看到采集效果。

替换链接：如果文章列表中链接使用相对地址，可以使用该功能，将相对链接替换成绝对地址。
过滤设置：如果文章列表中含有此字符的链接将过滤掉。
分页设置：如果要采集多页，此处设置分页标记符，假如对方的文章列表页是http://****/list_1.htm, http://****/list_2.htm，则可以设置为http://****/list_$num$.htm。

这一步主要设置对方网页文章列表的起始和结束标签，标签设置的原理其实就是掐头去尾法，比如对方网页结构如下：

TotNetCMS Collection3.gif

假如要采集“2007福建高考....”，至“地域歧视：北京….”之间的文章，那么列表起始标签可以设置为：高考新闻开始(这里为了演示，特意将高考新闻开始做为列表的头，这里只是为了说明原理，具体采集的时候请根据实际情况而定)

同样道理，列表起始结束标签设置为：高考新闻结束

一般来讲，都是根据对方网页源代码找到文章列表的前后一行特征代码，然后将其设置为起始和结束标签。(注意：这一行特征码要在其源代码中唯一出现，否则有可能截取的字符不是想要的字符)

以上说明了文章列表的采集，以后不管是文章列表标签还是文章内容详细页标签，其设置均是掐头去尾法。

第三步、文章内容采集

TotNetCMS Collection4.jpg

这一步主要设置要采集文章的标题、内容、作者、来源等属性。起始、结束标签均是采用掐头去尾法截取内容。如对方网页文章源代码的标题一行代码为：

<h1>香港高校明年起不再录取内地中学保送生</h1>

因此设置标题起始标记为：<h1> 标签结束标记为：</h1>

提示：如果上图上LinkList一项没有看到多行的链接地址，则说明没有采集到文章列表，建议返回上一步重新设置列表标记，直到LinkList下获取如上图所示的多行URL网址。

设置好文章标题、内容、作者等相关标记后，点击下一步，如果设计设置正确，将会显示如图：

TotNetCMS Collection5.jpg

假如采集获取的内容和上图类似，上图中每行提示采集到的标题(Title)，

作者：Author，内容(Content)，这样一个采集任务到此添加成功了。点击“采集管理”链接返回至“采集任务”列表如下图：

TotNetCMS Collection6.jpg

点击“操作”一列中的“采集”链接，系统提示开始采集，以下是采集的过程记录。

TotNetCMS Collection7.jpg

提示：系统在采集时会自动保存采集的URL地址，以后采集时会自动判断是否采集过，防止采集重复的URL地址。

相关条目[ ]

参考来源[ ]

参考来源

取自“https://www.zzbaike.com/wiki/index.php?title=淘特Asp.NetCms_WEB采集说明&oldid=44248”

分类：

淘特Asp.NetCms