淘特Asp.NetCms WEB采集说明

来自站长百科
跳转至: 导航、​ 搜索

导航: 上一页

  • 第一步:填写采集名称,要采集的网址,及编码,选择采集的文章使用哪个文章模板,设置采集文章到哪个栏目
TotNetCMS Collection1.jpg
  • 第二步:设置文章列表标记
TotNetCMS Collection2.jpg

参数说明:

  • 列表起始标记:设置要采集文章列表的开始HTML代码
  • 列表结束标记:设置要采集文章列表的结束HTML代码。

提示:点击“查看标记设置结果”按钮,可以在左侧“采集的段”下文本框中看到采集效果。

  • 替换链接:如果文章列表中链接使用相对地址,可以使用该功能,将相对链接替换成绝对地址
  • 过滤设置:如果文章列表中含有此字符的链接将过滤掉。
  • 分页设置:如果要采集多页,此处设置分页标记符,假如对方的文章列表页是http://****/list_1.htm, http://****/list_2.htm,则可以设置为http://****/list_$num$.htm。

这一步主要设置对方网页文章列表的起始和结束标签,标签设置的原理其实就是掐头去尾法,比如对方网页结构如下:

TotNetCMS Collection3.gif

假如要采集“2007福建高考....”,至“地域歧视:北京….”之间的文章,那么列表起始标签可以设置为:高考新闻开始(这里为了演示,特意将高考新闻开始做为列表的头,这里只是为了说明原理,具体采集的时候请根据实际情况而定)

同样道理,列表起始结束标签设置为:高考新闻结束

一般来讲,都是根据对方网页源代码找到文章列表的前后一行特征代码,然后将其设置为起始和结束标签。(注意:这一行特征码要在其源代码中唯一出现,否则有可能截取的字符不是想要的字符)

以上说明了文章列表的采集,以后不管是文章列表标签还是文章内容详细页标签,其设置均是掐头去尾法。

  • 第三步、文章内容采集
TotNetCMS Collection4.jpg

这一步主要设置要采集文章的标题、内容、作者、来源等属性。起始、结束标签均是采用掐头去尾法截取内容。如对方网页文章源代码的标题一行代码为:

<h1>香港高校明年起不再录取内地中学保送生</h1>

因此设置标题起始标记为:<h1> 标签结束标记为:</h1>

提示:如果上图上LinkList一项没有看到多行的链接地址,则说明没有采集到文章列表,建议返回上一步重新设置列表标记,直到LinkList下获取如上图所示的多行URL网址。

设置好文章标题、内容、作者等相关标记后,点击下一步,如果设计设置正确,将会显示如图:

TotNetCMS Collection5.jpg

假如采集获取的内容和上图类似,上图中每行提示采集到的标题(Title),

作者:Author,内容(Content),这样一个采集任务到此添加成功了。点击“采集管理”链接返回至“采集任务”列表如下图:

TotNetCMS Collection6.jpg

点击“操作”一列中的“采集”链接,系统提示开始采集,以下是采集的过程记录。

TotNetCMS Collection7.jpg

提示:系统在采集时会自动保存采集的URL地址,以后采集时会自动判断是否采集过,防止采集重复的URL地址。

相关条目[ ]

参考来源[ ]