FoosunCMS-采集教程

来自站长百科
跳转至: 导航、​ 搜索

导航:返回上一页

FoosunCMS-采集教程


采集是很多用户感觉头疼的事情,实际上也不是那么难的,现在我举例给大家详细说明一下吧,可能不如录像那么直观,我尽量说明白一点。

要采集,则必须满足服务器支持组件:Microsoft.XMLHTTP

点击菜单栏的“常规管理”,选择辅助工具里面的新闻采集。首先设置站点,根据采集对象页面设置过滤条件,设置好之后进行采集,然后审核数据,将数据进行入库,入库之后的数据可以在历史数据里面看到,历史数据不删除,则在采集的时候采集过的文章不会再次采集。如果删掉了历史数据则采集的时候不能过滤采集过的文章的。


站点设置[ ]

建立站点[ ]

采集教程1.png


选择站点设置,进入采集站点的设置。


首先选择“新建站点”:

采集教程2.png


名为“娱乐新闻”,入库目标栏目可以根据需要选择,我设置为Test_1,采集对象页面地址就填写采集站点的地址:http://www.chinanews.com.cn/entertainment.shtml,模板当然是自己选择了,这里因为采集的对象页面可能有图,我设置了保存远程图片,如果不需要采集对象页面的图片也可以不选择。然后保存,则在后台的站点设置里面可以看到我们刚刚建立的站点了。

接下来我们需要修改向导了。

采集教程3.png


这里就是我们刚刚建立站点设置的参数,直接点击“下一步”,进入设置获取新闻列表的条件:

这时我们打开站点,查看采集对象页面的源文件,最好是把源文件拷贝到DW(Dreamweaver)里面,这样比较好找到适合的条件。

在DW里面查看新闻列表的源码:

采集教程4.png


下图阴影部分则为列表代码

采集教程5.png


从图中我们可以看到列表开始的代码是:

,最好是在源文件里面查一下是否这句代码是否是唯一的。如果是唯一的,则可以在设置条件的框里面填上。如果不是唯一的,则可以扩大代码的范围,一定要保证代码的唯一性。 然后我们看一下列表代码结束的地方 采集教程6.png 该页面的列表代码结束则是:

这样我们找到了列表的开始代码和结束代码,在这两句代码直接则是我们需要获取的新闻列表了,所以我们设置的条件则是如下:

采集教程7.png


这里不设置分页,所以直接点击下一步进入新闻链接的条件设置:

这个时候你可以看到页面分为了三部分:列表URL条件设置部分,代码部分,结果部分,如果上一步设置正确,则这里的代码部分和结果部分就会显示获取到的新闻列表的代码和新闻列表了。

这里我们开始设置获取链接的代码:


采集教程8.png


阴影部分是一条新闻的代码,则我们可以看到,新闻的链接路径代码是:

<a href=/news/2005/2005-11-01/8/645660.shtml TARGET=_blank>,则我们直接可以把路径“/news/2005/2005-11-01/8/645660.shtml” 替换成我们的参数[列表URL],

则设置好的采集条件是:


采集教程9.png

这一步设置好之后,点击下一步,则应该设置读取新闻页面的条件了。

这一步里面可以看到有预览结果一项,如果设置条件正确则点击链接可以打开列表里面的第一条新闻的页面。

这里主要是设置新闻标题和新闻内容。关于其他的作者设置等实际原理是一样的。

首先也是打开新闻页面,查看源文件,在DW里面找到相应的代码。

『标题设置』这个站点的页面标题就是新闻的标题,如图:

采集教程10.png


则我们可以设置条件为:<title>[标题]</title>,如果页面标题不是新闻标题的,则需要在页面内部查看了,比如这个页面的标题代码也可以是在

文件:采集教程11.png

则条件也可以设置成:

<table width="95%" border="0" cellspacing="0" cellpadding="0" align="center" class=20v height="56">[标题]</table>,当然这个时候需要注意条件的唯一性。


内容设置』找到内容所在的代码,如果这个时候新闻内容最前面有图片则要注意图片包含在内容里面,不要把图片去掉了,不需要图片的在外。采用和前面相同的原理可以找到内容的开始是:

<table width="85%" border="0" cellspacing="0" cellpadding="0" align="center" class=14-1v>,这里的结束要注意不一定就是</table>,要根据实际情况,可能是另外一个表格开始的作为这个列表的结束的。我们这里的结束代码就是:

<table width="95%" border="0" cellspacing="0" cellpadding="0" align="center" height="43">。

所以我们设置的采集的标题和内容的条件就是:


采集教程12.png


这里你可以自己手动设置新闻的来源:


采集教程13.png


然后点击下一步就可以看到采集的效果了。

如果没有出现标题或者内容则表示采集条件设置可能有问题,回头再重新设置一下,经常采集可能需要多次的调试的。

修改向导[ ]

点击修改向导之后出现下面的界面:



参考来源[ ]