CMSware新建采集分类/索引页规则定义

来自站长百科
跳转至: 导航、​ 搜索

导航:返回上一页

新建采集分类/采集索引页规则定义

Cmsware115.gif


Cmsware116.gif

  • 采集索引页面URL
待采集的内容链接列表页,一般是网站的2级或3级栏目首页.
  • 采集索引页有效区域定位规则:
用来定位有效的内容链接位置,如下图.

Cmsware117.gif

我们要采集的是国内最新播报的内容,所以其它区域的无效链接要过虑掉,而通过设置采集索引页有效区域定位规则就可以过虑无效的链接.

Cmsware118.gif


Cmsware119.gif

我们通过查看网页的源代码来定位有效链接区域,如上图,有效区域位于

<td bgcolor="#BAD4E5" height="20" width="97%" class="big"><font color="#000000">国内最新播报</font></td>
......
....
有效链接区域
..
</html> 

通过搜索,我们可以得知国内最新播报在整个网页源码中是唯一的,所以它也可以用来作为头标识,而用</html>来作为尾标识即可.最后定下来的正则规则是:

/国内最新播报(.*)<\/html>/isU
名词解释:

    * 头标识  : 用来定位采集有效区域开始的字串,在整个网页源代码中必须唯一.
    * 尾标识  : 用来定位采集有效区域结束的字串,在整个网页源代码中必须唯一.
正则语法:

    * 所有采集正则必须以/开始, /isU结束.格式.即:

      /头标识(.*)尾标识/isU
    * 头/尾标识中的所有/符号必须加个\转义符,也就是< /html>你要写成<\/html>
      头/尾标识中的所有"符号必须加个\转义符,也就是<font color="#000000">你要写成<font color=\"#000000\">
    * [\s]*代表0个或多个空格,
    * [^\"><\s]*代表除了",<,>,空格外的所有字符
    * [0-9]+代表任意的数字组合:
  • 有效内容页URL过虑规则:

Cmsware121.gif

通过分析有效区域里面的链接格式,我们最终确定了有效内容页URL过虑规则 如下:

/<a[\s]*href=([^\"><\s]*content_[0-9]+.htm)/isU
正则语法:

    * 所有采集正则必须以/开始, /isU结束.格式.即:

      /头标识.......尾标识/isU
    * 头/尾标识中的所有/符号必须加个\转义符,也就是</html>你要写成<\/html>
      头/尾标识中的所有"符号必须加个\转义符,也就是<font color="#000000">你要写成<font color=\"#000000\">
    * [\s]*代表0个或多个空格,
    * [^\"><\s]*代表除了",<,>,空格外的所有字符
    * [0-9]+代表任意的数字组合

    * \r代表回车符

    * 有效链接地址我们使用(.....)来标识,如上/<a[\s]*href=([^\"><\s]*content_[0-9]+.htm)/isU

设置完之后我们点测试,如果规则无误的话,系统将可以解析出所有有效内容页地址

Cmsware120.gif



参考来源[ ]