火车采集器/正则匹配模式采集数据

来自站长百科
跳转至: 导航、​ 搜索

火车采集器 | 安装 | 主程序 | 子程序 | 应用拓展 | 模块开发 | FAQ

正则表达式很强大,利用它可以获得一定格式的数据,比如网址E-mail地址,数字,字母等等。从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。

火车采集器里支持两种正则,一个纯正则,一个参数正则。我们下边分开讲一下。

  • 纯正则

先看一下图

Lopoy RegexModel1.jpg

标签中用正则表达式采内容的格式是这样:

开始代码(?<content>正则表达式)结束代码

其中在开始代码和结束代码中如有需要转义的字符就要用\转义。

比如要获取火车论坛的版块,从首页获取,正则可以这样写

Lopoy RegexModel2.jpg
Lopoy RegexModel4.jpg

然后就可以获需要的版块名称了。

  • 参数正则

这个不算是正则,和网址采集那块的参数使用原理是一样的,可以对采到的内容进行组合。

输入框两边都不得为空,后边的组合结果 [参数N] 是按匹配内容的顺序来写的,还是以http://bbs.locoy.com/为例,来获得栏目ID和栏目名称。

Lopoy RegexModel3.jpg

测试一下,是可以获得需要的结果了。


参考来源[ ]

火车采集器使用手册导航

安装

系统安装

主程序

主程序|主菜单|命令行启动|随机文件夹保存数据|正则匹配模式采集数据|采集记录筛选|代理服务器采集数据|POST方式获得网址|拓展插件|分页采集|多页采集|数据导出|多任务多线程|手动链接格式设置|循环匹配采集|网站登陆采集|列表缩略图及标签采集|html标签排除|全局词语替换|首图缩略|FTP文件上传|附件上传|本地数据编辑|下载导出|图片下载|Flash文件下载|任意格式文件下载|采集数据导入数据库|任务定时自动更新|任务运行日志|自动中文分词|自动摘要和拼音|前后截取模式|采集任务新建

子程序

源代码获取与模拟|Web在线发布模块编辑器|Web在线发布配置管理|数据库发布模块编辑器|数据库发布配置管理|工具箱|编程插件管理|翻译测试|中文分词测试|自动运行管理器 任务队列管理器|自动升级程序

应用拓展

数据库发布模块编辑器制作|外部编程插件开发

模块开发

DedeCMS文章模块|PHPWind论坛模块|Discuz论坛模块

FAQ

使用前常见问题|编辑任务中常见问题|发布失败常见问题|使用中常见问题|VIP版本常见问题