Phpcms:采集器

来自站长百科
跳转至: 导航、​ 搜索

导航: 上一级 | PHPCMS | 首页 | DedeCMS | 帝国CMS | Drupal | PHP168 | Xoops | Joomla | PowerEasy | SupeSite

PHPCMS内部采集器

  • 采集演示一

采集文章需要先获取文章的地址,通常我们打开的是栏目列表页面,phpcms后台---功能模块---采集器;

采集匹配规则:前部分需要是唯一的。后面为紧跟着的匹配

Phpcms采集器


Phpcms采集器

打开这个页面向里面填入信息(http://news.sina.com.cn/china/sz/index.html)

Phpcms采集器


Phpcms采集器
Phpcms采集器


Phpcms采集器

国内全部为要获取的区域前部分

某篇区域内获取列表:填入这个后,可以有效的获取列表代码段。可以排除列表外,如导航链接,相关新闻链接

Phpcms采集器


Phpcms采集器

往日新闻为列表结尾

Phpcms采集器

找到标题

Phpcms采集器


Phpcms采集器


Phpcms采集器

保存,开始测试

Phpcms采集器


Phpcms采集器


Phpcms采集器


Phpcms采集器


Phpcms采集器


Phpcms采集器


Phpcms采集器


Phpcms采集器


Phpcms采集器


文章添加时间可以是随机时间,也可以是按照当前时间进行添加。

发布后,

到该频道下面--管理文章

我们已经采集到了。不过现在文章还没有生成静态。需要生成下

Phpcms采集器

进入发布网页 可指定生成的开始id和结尾id

Phpcms采集器

最终效果如图

Phpcms采集器
  • 采集演示二

打开 http://book.phpip.com/more.php?class_id=2 我们开始采集武侠小说栏目的文章

Phpcms采集器

在这个页面当中,有作品名称和最后章节都有链接地址。

添加任务:

首先分析:

作品名:http://book.phpip.com/zuopin.php?book_id=20115

最后章节:http://book.phpip.com/yuedu.php?book_id=20115&chapter_id=371896

我们发现在最后章节中含有chapter_id,

文章网址筛选 中添加

Phpcms采集器


Phpcms采集器

此页面具有分页

Phpcms采集器

我们点击下一页,然后再点击上一页。发现地址变为

第一页:http://book.phpip.com/more.php?navigator_page=1&class_id=2

第二页:http://book.phpip.com/more.php?navigator_page=2&class_id=2

不同的地方已经出来。

我们任意打开一篇文章:

http://book.phpip.com/yuedu.php?book_id=29781&chapter_id=372679

开始找寻内容规则:

查看源码

Phpcms采集器

我们先找标题:所选部分前面的要是唯一的

Phpcms采集器


Phpcms采集器

内容:

Phpcms采集器


Phpcms采集器


Phpcms采集器

保存。

开始测试...

Phpcms采集器


Phpcms采集器

我们发现采集的名称都是乱码。

我们看源文件最上面的编码方式

Phpcms采集器

utf-8编码的站点。

我们进入规则高级设置

Phpcms采集器

继续测试

Phpcms采集器

测试成功。

开始采集网址--发布内容---批量生成。

Phpcms桌面采集器

  火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的CMS模块参数,自定义发表的内容等。此外,丰富的规则制定,内容替换功能,对Access,MySQL,MSSQL的数据入库导出的支持,更可令你采集内容的时候得心应手,现在开始你可以抛弃过去重复乏味的手工添加工作了,请马上开始体验瞬间建站的乐趣吧!

  火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,DedeCMS文章,Xydw文章,惊云]文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。

  由于PHPCMS采用的特殊的登录验证,而采集器软件内将这一块写死,导致最新的PHPCMS3.0->2007一直无法使用火车采集器在线发布文章,为解决该问题,我写了一个PHP接口文件和PHPCMS2007的登录模块,请大家下载试用,附部分使用说明

附件包内文件:
1.phpcms_art_add_locoy.php
2.PHPCMS2007.cwr

请将文件1上传至PHPCMS根目录,将文件2拷贝至采集器软件内Module文件夹,phpcms_art_add_locoy.php文件是软件发布的接口文件,不存在太大风险,但仍建议采集使用完建议删除该文件,或重命名并更改该模块内的相应刷新列表页面和发布文件页面的文件名参数

附件包下载地址:点击下载

Phpcms部分截图

部分地方需要修改模块:如频道ID变了,更改接口文件名,是否下载图片等远程文件请对照图中修改模块中相关部分,文章是默认生成的,并在采集的过程中自动生成文章页并更新栏目页

火车采集器3.1下载:点击下载

Phpcms采集器


Phpcms采集器


Phpcms259.gif


Phpcms260.gif


Phpcms采集器