火车采集器/多页采集

来自站长百科
跳转至: 导航、​ 搜索

火车采集器 | 安装 | 主程序 | 子程序 | 应用拓展 | 模块开发 | FAQ

何为多页?

本来是从网址采集那块采集到网址,再对这个网址(也叫默认页)进行采集。但是有时有许多信息他并不在一个页面上,而是和这个默认页有一定的关系,要不网址在默认页里,要不网址和默认页网址有联系。就这个问题来讲一下具体的解决办法。

这里有两种途径获得第三个网址,先讲从默认页网址替换得到新网址。

以http://data.movie.xunlei.com/movie/39843 这个页面为例,比如要获得全部的”剧情简介“,就得进入一下页,刚好这两页有关系,”剧情简介“页面的地址是 http://movie.xunlei.com/movie/39843/introduction,只是多了一个 introduction ,这里可以使用普通替换,也可以使用正则。看一下。

Locoy DYCJ1.jpg

这样就可以获得所需要的了。当然这里组合也可以有多个$的,比如$1,$2。

下边说一下用默认页源代码中获得网址的方法来处理上边的网址,这样就可以获得和上边一样的效果了。

Locoy DYCJ2.jpg




参考来源[ ]

火车采集器使用手册导航

安装

系统安装

主程序

主程序|主菜单|命令行启动|随机文件夹保存数据|正则匹配模式采集数据|采集记录筛选|代理服务器采集数据|POST方式获得网址|拓展插件|分页采集|多页采集|数据导出|多任务多线程|手动链接格式设置|循环匹配采集|网站登陆采集|列表缩略图及标签采集|html标签排除|全局词语替换|首图缩略|FTP文件上传|附件上传|本地数据编辑|下载导出|图片下载|Flash文件下载|任意格式文件下载|采集数据导入数据库|任务定时自动更新|任务运行日志|自动中文分词|自动摘要和拼音|前后截取模式|采集任务新建

子程序

源代码获取与模拟|Web在线发布模块编辑器|Web在线发布配置管理|数据库发布模块编辑器|数据库发布配置管理|工具箱|编程插件管理|翻译测试|中文分词测试|自动运行管理器 任务队列管理器|自动升级程序

应用拓展

数据库发布模块编辑器制作|外部编程插件开发

模块开发

DedeCMS文章模块|PHPWind论坛模块|Discuz论坛模块

FAQ

使用前常见问题|编辑任务中常见问题|发布失败常见问题|使用中常见问题|VIP版本常见问题