PHP168:如何采集一篇文章中的分页(进阶)

来自站长百科
跳转至: 导航、​ 搜索

导航: 上一级 | PHP168 | 首页 | DedeCMS | 帝国CMS | Drupal | PHPCMS | Xoops | Joomla | PowerEasy | SupeSite

关于这个问题.相对来说复杂一点.但也并不是很难的.

首先.修改内容规则,然后点击选中: 显示不常用的高级设置(一般不用)

如下图

Php168 21.jpg

以上图中标志了三项输入框,需要进行设置.

  • 对于第一项表单而言
    比如:
    内容的第一页http://php168.com/1/index-22.html
    内容的第二页http://php168.com/1/index-22_2.htm
    那么表单填.html
    分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把第一页网址之后的字符复制出来 如果是这种情况 http://php168.com/1/index.php?id=2&page=1
    http://php168.com/1/index.php?id=2&page=2 对于这种情况,他后面不同的是一个数字,即是页码数字的话,就不需要填写.留空即可
  • 对于第二项表单而言
    第一页http://php168.com/1/index-22.html
    第二页http://php168.com/1/index-22_2.htm
    那么右边的表单填_[page].htm
    分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把第二页的网址之后的字符复制出来,并把变动的页码数字用[page]替换 如果是这种情况 http://php168.com/1/index.php?id=2&page=1
    http://php168.com/1/index.php?id=2&page=2 对于这种情况,他后面不同的是一个数字,即是页码数字的话,更简单,只需要填写[page]即可
  • 对于第三项表单而言
    第一页http://php168.com/1/index.html
    第二页http://php168.com/1/index_1.html
    此时属于怪癖的,理论上应该是 第三页http://php168.com/1/index_2.html
    所以表单请选择是,但一般情况都是选否的,也就是说页码数字为1却是第二页.页码数为2却是第三页.就属于特殊现象.需要选则是.