火车采集器/分页采集

来自站长百科
跳转至: 导航、​ 搜索

火车采集器 | 安装 | 主程序 | 子程序 | 应用拓展 | 模块开发 | FAQ

分页就是目标网站上一个文章分为好几页,需要设置规则将其全部采到。采集要点:

  • 采集规则要对每个分页都适用。
  • 分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是上下页,每个页面的分页规则也要都适用。

具体操作流程:先测试获得所有分页,再对每个分页里的内容进行获取。

下边以http://www.pconline.com.cn/diy/graphics/hq/gz/0802/1226877.html为例来说明一下具体的使用方法。

第一点:采集规则要对每个分页都适用 看一下,这里分页有两个,前一页[1] [2] 下一页 ,要做的是要使所写的规则在两个页面中都可以正常采到内容,写个规则,测试第一页,成功获取内容,然后改写网址为第二个,测试,同样可以获得要的内容,那么,说明这一步已经成功了。

进入下一步。规则是这样写的,两个页面都通过。

Locoy FYCJ1.jpg

现在看分页这里的设置,全部列出是在第一页或每一页上都有全部的发布文章的网址,上下页是没有将全部的列出。这个规则里选全部列出。因此,只要在第一页里找好包含所有网址的区域就可以了。

Locoy FYCJ2.jpg

看一下,上边是有分页网址的区域,选个开头结尾,就可以正常采到分页了。

Locoy FYCJ3.jpg

火车的新版是可以直观的看到分页网址的,这对做分页规则很有用。

Locoy FYCJ4.jpg

这样全部采集到了。

注意:分页设置下边有个分页内容合并连接代码,可以设置成你想要的东西,比如CMS的手动分页标签

下边来讲一个上下页的分页处理方法及如何使用手动链接地地规则.

以 http://www.inpai.com.cn/doc/hard/86643.htm 这个页面为例.来找一下分页的开头和结尾,这个分页很明显.

开始:<div id="divSubPageNav" class="doctext08">

结束:</div>.

使用上一页,下一页的形式就可以采到所有地址.不过会发现有一个地址是不需要的,看下边:

此页面包含多个分页:
1:http://www.inpai.com.cn/doc/hard/86643.htm
2:http://www.inpai.com.cn/doc/hard/86643_2.htm
3:http://www.inpai.com.cn/doc/hard/86643_3.htm
4:http://www.inpai.com.cn/doc/hard/86643_4.htm
5:http://www.inpai.com.cn/doc/hard/86643_5.htm
6:http://www.inpai.com.cn/doc/hard/86643_6.htm
7:http://www.inpai.com.cn/doc/hard/86643_7.htm
8:http://www.inpai.com.cn/doc/hard/86643_8.htm
9:http://www.inpai.com.cn/doc/hard/86643_9.htm
10:http://www.inpai.com.cn/doc/hard/86643_10.htm
11:http://www.inpai.com.cn/doc/hard/86643_11.htm
12:http://www.inpai.com.cn/doc/hard/86643_12.htm
13:http://www.inpai.com.cn/doc/hard/86643_13.htm
14:http://www.inpai.com.cn/doc/hard/86643_14.htm
15:http://www.inpai.com.cn/doc/hard/86643_15.htm
16:http://www.inpai.com.cn/doc/hard/86643_16.htm
17:http://www.inpai.com.cn/doc/hard/86643_17.htm
18:http://www.inpai.com.cn/doc/hard/86643_18.htm
19:http://product.inpai.com.cn/Product_default_1041.htm
有分页匹配的标签,比如内容注意选中标签编辑框中的[该标签在分页中匹配]

最后一个不是,可以看到,前边的网址和后边的是不一样的.现在是使用手动填写链接地址规则的时候了.在分页链接地址样式里边,写 http://www.inpai.com.cn/[参数].htm 分页网址里写http://www.inpai.com.cn/[参数1].htm,现在看一下,正确了.

Locoy FYCJ5.jpg

技巧:在使用自定义地址样式时,程序会自动补全网址,请看这个规则

Locoy FYCJ6.jpg



参考来源[ ]

火车采集器使用手册导航

安装

系统安装

主程序

主程序|主菜单|命令行启动|随机文件夹保存数据|正则匹配模式采集数据|采集记录筛选|代理服务器采集数据|POST方式获得网址|拓展插件|分页采集|多页采集|数据导出|多任务多线程|手动链接格式设置|循环匹配采集|网站登陆采集|列表缩略图及标签采集|html标签排除|全局词语替换|首图缩略|FTP文件上传|附件上传|本地数据编辑|下载导出|图片下载|Flash文件下载|任意格式文件下载|采集数据导入数据库|任务定时自动更新|任务运行日志|自动中文分词|自动摘要和拼音|前后截取模式|采集任务新建

子程序

源代码获取与模拟|Web在线发布模块编辑器|Web在线发布配置管理|数据库发布模块编辑器|数据库发布配置管理|工具箱|编程插件管理|翻译测试|中文分词测试|自动运行管理器 任务队列管理器|自动升级程序

应用拓展

数据库发布模块编辑器制作|外部编程插件开发

模块开发

DedeCMS文章模块|PHPWind论坛模块|Discuz论坛模块

FAQ

使用前常见问题|编辑任务中常见问题|发布失败常见问题|使用中常见问题|VIP版本常见问题