Phpcms:采集器
导航: 上一级 | PHPCMS | 首页 | DedeCMS | 帝国CMS | Drupal | PHP168 | Xoops | Joomla | PowerEasy | SupeSite
PHPCMS内部采集器
- 采集演示一
采集文章需要先获取文章的地址,通常我们打开的是栏目列表页面,phpcms后台---功能模块---采集器;
采集匹配规则:前部分需要是唯一的。后面为紧跟着的匹配
打开这个页面向里面填入信息(http://news.sina.com.cn/china/sz/index.html)
国内全部为要获取的区域前部分
某篇区域内获取列表:填入这个后,可以有效的获取列表代码段。可以排除列表外,如导航链接,相关新闻链接等
往日新闻为列表结尾
找到标题
保存,开始测试
文章添加时间可以是随机时间,也可以是按照当前时间进行添加。
发布后,
到该频道下面--管理文章
我们已经采集到了。不过现在文章还没有生成静态。需要生成下
进入发布网页 可指定生成的开始id和结尾id
最终效果如图
- 采集演示二
打开 http://book.phpip.com/more.php?class_id=2 我们开始采集武侠小说栏目的文章
在这个页面当中,有作品名称和最后章节都有链接地址。
添加任务:
首先分析:
作品名:http://book.phpip.com/zuopin.php?book_id=20115
最后章节:http://book.phpip.com/yuedu.php?book_id=20115&chapter_id=371896
我们发现在最后章节中含有chapter_id,
文章网址筛选 中添加
此页面具有分页
我们点击下一页,然后再点击上一页。发现地址变为
第一页:http://book.phpip.com/more.php?navigator_page=1&class_id=2
第二页:http://book.phpip.com/more.php?navigator_page=2&class_id=2
不同的地方已经出来。
我们任意打开一篇文章:
http://book.phpip.com/yuedu.php?book_id=29781&chapter_id=372679
开始找寻内容规则:
查看源码
我们先找标题:所选部分前面的要是唯一的
内容:
保存。
开始测试...
我们发现采集的名称都是乱码。
我们看源文件最上面的编码方式
是utf-8编码的站点。
我们进入规则高级设置
继续测试
测试成功。
开始采集网址--发布内容---批量生成。
Phpcms桌面采集器
火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的CMS模块参数,自定义发表的内容等。此外,丰富的规则制定,内容替换功能,对Access,MySQL,MSSQL的数据入库导出的支持,更可令你采集内容的时候得心应手,现在开始你可以抛弃过去重复乏味的手工添加工作了,请马上开始体验瞬间建站的乐趣吧!
火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,DedeCMS文章,Xydw文章,惊云]文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。
由于PHPCMS采用的特殊的登录验证,而采集器软件内将这一块写死,导致最新的PHPCMS3.0->2007一直无法使用火车采集器在线发布文章,为解决该问题,我写了一个PHP接口文件和PHPCMS2007的登录模块,请大家下载试用,附部分使用说明
附件包内文件:
1.phpcms_art_add_locoy.php
2.PHPCMS2007.cwr
请将文件1上传至PHPCMS根目录,将文件2拷贝至采集器软件内Module文件夹,phpcms_art_add_locoy.php文件是软件发布的接口文件,不存在太大风险,但仍建议采集使用完建议删除该文件,或重命名并更改该模块内的相应刷新列表页面和发布文件页面的文件名参数
附件包下载地址:点击下载
Phpcms部分截图
部分地方需要修改模块:如频道ID变了,更改接口文件名,是否下载图片等远程文件请对照图中修改模块中相关部分,文章是默认生成的,并在采集的过程中自动生成文章页并更新栏目页
火车采集器3.1下载:点击下载