CMSware新建采集分类/索引页规则定义
来自站长百科
导航:返回上一页
新建采集分类/采集索引页规则定义
- 采集索引页面URL:
- 采集索引页有效区域定位规则:
- 用来定位有效的内容链接位置,如下图.
我们要采集的是国内最新播报的内容,所以其它区域的无效链接要过虑掉,而通过设置采集索引页有效区域定位规则就可以过虑无效的链接.
我们通过查看网页的源代码来定位有效链接区域,如上图,有效区域位于
<td bgcolor="#BAD4E5" height="20" width="97%" class="big"><font color="#000000">国内最新播报</font></td> ...... .... 有效链接区域 .. </html>
通过搜索,我们可以得知国内最新播报在整个网页源码中是唯一的,所以它也可以用来作为头标识,而用</html>来作为尾标识即可.最后定下来的正则规则是:
/国内最新播报(.*)<\/html>/isU
名词解释: * 头标识 : 用来定位采集有效区域开始的字串,在整个网页源代码中必须唯一. * 尾标识 : 用来定位采集有效区域结束的字串,在整个网页源代码中必须唯一.
正则语法: * 所有采集正则必须以/开始, /isU结束.格式.即: /头标识(.*)尾标识/isU * 头/尾标识中的所有/符号必须加个\转义符,也就是< /html>你要写成<\/html> 头/尾标识中的所有"符号必须加个\转义符,也就是<font color="#000000">你要写成<font color=\"#000000\"> * [\s]*代表0个或多个空格, * [^\"><\s]*代表除了",<,>,空格外的所有字符 * [0-9]+代表任意的数字组合:
- 有效内容页URL过虑规则:
通过分析有效区域里面的链接格式,我们最终确定了有效内容页URL过虑规则 如下:
/<a[\s]*href=([^\"><\s]*content_[0-9]+.htm)/isU
正则语法: * 所有采集正则必须以/开始, /isU结束.格式.即: /头标识.......尾标识/isU * 头/尾标识中的所有/符号必须加个\转义符,也就是</html>你要写成<\/html> 头/尾标识中的所有"符号必须加个\转义符,也就是<font color="#000000">你要写成<font color=\"#000000\"> * [\s]*代表0个或多个空格, * [^\"><\s]*代表除了",<,>,空格外的所有字符 * [0-9]+代表任意的数字组合 * \r代表回车符 * 有效链接地址我们使用(.....)来标识,如上/<a[\s]*href=([^\"><\s]*content_[0-9]+.htm)/isU
设置完之后我们点测试,如果规则无误的话,系统将可以解析出所有有效内容页地址