NetCMS 采集系统说明
导航: 上一页
新建栏目[ ]
建立站点的一个分类文件夹,更好的查看和管理站点。
新建站点[ ]
以采集页面http://ent.sina.com.cn/star/mainland/more.html为例
点击“新建站点”,显示页面。
输入采集站点的名称,页面的地址,选择站点的分类。也就是上面提到的“新建栏目”里添加的分类。设置此站点采集后的新闻入库后所属的栏目,这个栏目指的是新闻管理里面的栏目。各种采集的参数和过滤的选项进行设置。点击保存,这个站点即被保存。
此时添加的站点是无法采集的,显示的是无效。
点击“向导”,出现刚才设置站点的页面,再点击下一步。
打开http://ent.sina.com.cn/star/mainland/more.html的源文件,找到新闻列表开始的第一个新闻和最后一条新闻。如下:找到“濮存昕出席艾滋病公益广告发布会宣传防艾(图)”“ 图文:2007莱卡风尚大典--名模秀性感香肩”在源代码中前面和后面的一段代码。
选择第一个标题前和最后一个标题后的一段代码。确定两段代码在整个页面里具有唯一性。
这里第一段选择的是“” 第二段选择的是“<img src=http://i3.sinaimg.cn/ent/images/c.gif width=1 height=23>”
如图插入到列表内容里:
点击“下一步”
如果上一步设置列表内容正确,则在点击下一步之后,应该会出现如下图所示的页面,能够读取到该列表页列表的源代码,并且显示整个读取的列表。
在代码中找到新闻标题前,连接路径的代码,如下:
<a href=http://ent.sina.com.cn/s/m/2007-12-10/13241828229.shtml target=_blank>濮存昕出席艾滋病公益广告发布会宣传防艾(图)</a>根据代码设置“列表URL”,新闻的连接地址“http://** ”用“[列表URL]”代替,新闻的标题部分用“[变量]”代替。
如图:
点击“下一步”
如果上一步设置列表URL正确,则在点击下一步之后,点击“预览”, 再点击下拉菜单,任意选择一条新闻,便可以看到新闻的内容页。如下图:
点击“基本设置”,打开新闻内容页的源代码。
- 设置标题
在源代码中找到新闻标题,根据代码设置“标题”,新闻的标题部分用“[标题]”代替,如图:
如果设置如下,则在采集以后的新闻标题显示为“濮存昕出席艾滋病公益广告发布会宣传防艾(图)”。
如果设置如下,则在采集以后的新闻标题显示为“濮存昕出席艾滋病公益广告发布会宣传防艾(图)_影音娱乐_新浪网”。
以下为两种效果采集后不同的标题显示。
- 设置内容
在源代码中找到新闻内容的开始和结束部分,截取新闻内容开始前和结束后唯一的两段代码。这个采集页面刚好在代码里有明确说明新闻内容开始和结束的注释,可以直接用和。
新闻内容用“[内容]”来代替,如图:
点击完成。返回站点列表。显示为“有效”,可以进行采集。
关键字过滤[ ]
采集回来的新闻,在代码里面可能会出现一些多余的代码,可以用设置关键字过滤的方法来过滤掉。
新闻处理[ ]
对已经采集回来的新闻进行修改,入库,删除等处理。
未入库的新闻显示状态为:
已入库的新闻显示状态为: