火车采集器/多页采集
来自站长百科
何为多页?
本来是从网址采集那块采集到网址,再对这个网址(也叫默认页)进行采集。但是有时有许多信息他并不在一个页面上,而是和这个默认页有一定的关系,要不网址在默认页里,要不网址和默认页网址有联系。就这个问题来讲一下具体的解决办法。
这里有两种途径获得第三个网址,先讲从默认页网址替换得到新网址。
以http://data.movie.xunlei.com/movie/39843 这个页面为例,比如要获得全部的”剧情简介“,就得进入一下页,刚好这两页有关系,”剧情简介“页面的地址是 http://movie.xunlei.com/movie/39843/introduction,只是多了一个 introduction ,这里可以使用普通替换,也可以使用正则。看一下。
这样就可以获得所需要的了。当然这里组合也可以有多个$的,比如$1,$2。
下边说一下用默认页源代码中获得网址的方法来处理上边的网址,这样就可以获得和上边一样的效果了。