火车采集器/分页采集
分页就是目标网站上一个文章分为好几页,需要设置规则将其全部采到。采集要点:
- 采集规则要对每个分页都适用。
- 分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是上下页,每个页面的分页规则也要都适用。
具体操作流程:先测试获得所有分页,再对每个分页里的内容进行获取。
下边以http://www.pconline.com.cn/diy/graphics/hq/gz/0802/1226877.html为例来说明一下具体的使用方法。
第一点:采集规则要对每个分页都适用 看一下,这里分页有两个,前一页[1] [2] 下一页 ,要做的是要使所写的规则在两个页面中都可以正常采到内容,写个规则,测试第一页,成功获取内容,然后改写网址为第二个,测试,同样可以获得要的内容,那么,说明这一步已经成功了。
进入下一步。规则是这样写的,两个页面都通过。
现在看分页这里的设置,全部列出是在第一页或每一页上都有全部的发布文章的网址,上下页是没有将全部的列出。这个规则里选全部列出。因此,只要在第一页里找好包含所有网址的区域就可以了。
看一下,上边是有分页网址的区域,选个开头结尾,就可以正常采到分页了。
火车的新版是可以直观的看到分页网址的,这对做分页规则很有用。
这样全部采集到了。
注意:分页设置下边有个分页内容合并连接代码,可以设置成你想要的东西,比如CMS的手动分页标签。
下边来讲一个上下页的分页处理方法及如何使用手动链接地地规则.
以 http://www.inpai.com.cn/doc/hard/86643.htm 这个页面为例.来找一下分页的开头和结尾,这个分页很明显.
开始:<div id="divSubPageNav" class="doctext08">
结束:</div>.
使用上一页,下一页的形式就可以采到所有地址.不过会发现有一个地址是不需要的,看下边:
此页面包含多个分页: 1:http://www.inpai.com.cn/doc/hard/86643.htm 2:http://www.inpai.com.cn/doc/hard/86643_2.htm 3:http://www.inpai.com.cn/doc/hard/86643_3.htm 4:http://www.inpai.com.cn/doc/hard/86643_4.htm 5:http://www.inpai.com.cn/doc/hard/86643_5.htm 6:http://www.inpai.com.cn/doc/hard/86643_6.htm 7:http://www.inpai.com.cn/doc/hard/86643_7.htm 8:http://www.inpai.com.cn/doc/hard/86643_8.htm 9:http://www.inpai.com.cn/doc/hard/86643_9.htm 10:http://www.inpai.com.cn/doc/hard/86643_10.htm 11:http://www.inpai.com.cn/doc/hard/86643_11.htm 12:http://www.inpai.com.cn/doc/hard/86643_12.htm 13:http://www.inpai.com.cn/doc/hard/86643_13.htm 14:http://www.inpai.com.cn/doc/hard/86643_14.htm 15:http://www.inpai.com.cn/doc/hard/86643_15.htm 16:http://www.inpai.com.cn/doc/hard/86643_16.htm 17:http://www.inpai.com.cn/doc/hard/86643_17.htm 18:http://www.inpai.com.cn/doc/hard/86643_18.htm 19:http://product.inpai.com.cn/Product_default_1041.htm 有分页匹配的标签,比如内容注意选中标签编辑框中的[该标签在分页中匹配]
最后一个不是,可以看到,前边的网址和后边的是不一样的.现在是使用手动填写链接地址规则的时候了.在分页链接地址样式里边,写 http://www.inpai.com.cn/[参数].htm 分页网址里写http://www.inpai.com.cn/[参数1].htm,现在看一下,正确了.
技巧:在使用自定义地址样式时,程序会自动补全网址,请看这个规则