火车采集器/POST方式获得网址
来自站长百科
2009版本起,火车采集器加强了post采集网址的功能,可以提交自定义的数据并获得想要的结果。比如使用搜索,查询一个关键字,返回一些结果。再采集返回的这些内容网址,再去采它。
以程序自带的51job的网址采集说明一下这个功能的使用.在获取相关职位时,是设定好搜索,然后再提交,就可以获得需要的内容了.现在,在提交时用抓包工具抓取一下程序提交的数据,发布是向这个网页提交了数据.
这时,需要设置提交的网址为如图设置,采集深度为1,然后在填写提交的数据.可以发现,第一次提交的数据是这样的.
第二页的最后一项是2,这样的话,就只需要在提交时更改最后一个参数就可以获得网址了.填写时指定页数的范围就可以了.
一个功能有时会用到的.看上图那个大图的右下角,有一个随机值的获取.
这个功能是用来处理这样的页面,比如post了一个参数给一个页面,获得一个网址列表页,然后获得第二页时需将第一个列表页上的一些值传过去,这个随机值就是用来获得上一个页面的一些参数的.下边举个例子.看图.
测试了几页,看结果.