火车采集器/正则匹配模式采集数据
来自站长百科
正则表达式很强大,利用它可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等。从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。
火车采集器里支持两种正则,一个纯正则,一个参数正则。我们下边分开讲一下。
- 纯正则
先看一下图
在标签中用正则表达式采内容的格式是这样:
开始代码(?<content>正则表达式)结束代码
其中在开始代码和结束代码中如有需要转义的字符就要用\转义。
比如要获取火车论坛的版块,从首页获取,正则可以这样写
然后就可以获需要的版块名称了。
- 参数正则
这个不算是正则,和网址采集那块的参数使用原理是一样的,可以对采到的内容进行组合。
输入框两边都不得为空,后边的组合结果 [参数N] 是按匹配内容的顺序来写的,还是以http://bbs.locoy.com/为例,来获得栏目ID和栏目名称。
测试一下,是可以获得需要的结果了。