火车采集器/多页采集

火车采集器 | 安装 | 主程序 | 子程序 | 应用拓展 | 模块开发 | FAQ

何为多页？

本来是从网址采集那块采集到网址，再对这个网址（也叫默认页）进行采集。但是有时有许多信息他并不在一个页面上，而是和这个默认页有一定的关系，要不网址在默认页里，要不网址和默认页网址有联系。就这个问题来讲一下具体的解决办法。

这里有两种途径获得第三个网址，先讲从默认页网址替换得到新网址。

以http://data.movie.xunlei.com/movie/39843 这个页面为例，比如要获得全部的”剧情简介“，就得进入一下页，刚好这两页有关系，”剧情简介“页面的地址是 http://movie.xunlei.com/movie/39843/introduction，只是多了一个 introduction ，这里可以使用普通替换，也可以使用正则。看一下。

这样就可以获得所需要的了。当然这里组合也可以有多个$的，比如$1,$2。

下边说一下用默认页源代码中获得网址的方法来处理上边的网址，这样就可以获得和上边一样的效果了。

参考来源[ ]

http://help.locoy.com/2010/

火车采集器使用手册导航

安装：	系统安装
主程序：	主程序\|主菜单\|命令行启动\|随机文件夹保存数据\|正则匹配模式采集数据\|采集记录筛选\|代理服务器采集数据\|POST方式获得网址\|拓展插件\|分页采集\|多页采集\|数据导出\|多任务多线程\|手动链接格式设置\|循环匹配采集\|网站登陆采集\|列表缩略图及标签采集\|html标签排除\|全局词语替换\|首图缩略\|FTP文件上传\|附件上传\|本地数据编辑\|下载导出\|图片下载\|Flash文件下载\|任意格式文件下载\|采集数据导入数据库\|任务定时自动更新\|任务运行日志\|自动中文分词\|自动摘要和拼音\|前后截取模式\|采集任务新建
子程序：	源代码获取与模拟\|Web在线发布模块编辑器\|Web在线发布配置管理\|数据库发布模块编辑器\|数据库发布配置管理\|工具箱\|编程插件管理\|翻译测试\|中文分词测试\|自动运行管理器任务队列管理器\|自动升级程序
应用拓展：	数据库发布模块编辑器制作\|外部编程插件开发
模块开发：	DedeCMS文章模块\|PHPWind论坛模块\|Discuz论坛模块
FAQ：	使用前常见问题\|编辑任务中常见问题\|发布失败常见问题\|使用中常见问题\|VIP版本常见问题

WIKI使用导航

站长百科导航

站长专题

火车采集器/多页采集

参考来源[ ]

火车采集器使用手册导航