编辑“Phpcms:采集器”

<span style="text-align:center; border:1px solid #000; float:right; padding:6px; margin-bottom:10px;"><strong>导航:</strong> [[Phpcms:Phpcms使用手册|上一级]] | [[PHPCMS]] | {{Template:Phpcms导航}}</span>
<div style="clear:both; border:1px solid #999; padding:0 5px; margin:20px 0 20px; font-size:15px; font-weight:bold; background:#f0f0f0;">
PHPCMS内部采集器
</div>
*'''采集演示一'''

[[采集]]文章需要先获取文章的[[地址]]，通常我们打开的是栏目列表[[页面]],phpcms后台---功能模块---采集器;

采集匹配规则：前部分需要是唯一的。后面为紧跟着的匹配
<div style="border:1px solid #999; width:531px;">
[[{{ns:image}}:phpcms219.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:685px;">
[[{{ns:image}}:phpcms220.jpg|Phpcms采集器]]</div>
打开这个页面向里面填入信息(<nowiki>http://news.sina.com.cn/china/sz/index.html</nowiki>)
<div style="border:1px solid #999; width:559px;">
[[{{ns:image}}:phpcms221.jpg|Phpcms采集器]]</div><br>
<div style="border-top:1px solid #999; border-left:1px solid #999; border-right:1px solid #999; width:660px;">
[[{{ns:image}}:phpcms222.jpg|Phpcms采集器]]</div>
<div style="border-bottom:1px solid #999; border-left:1px solid #999; border-right:1px solid #999; width:660px;">
[[{{ns:image}}:phpcms222_2.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:257px;">
[[{{ns:image}}:phpcms223.jpg|Phpcms采集器]]</div>
国内全部为要获取的区域前部分

某篇区域内获取列表：填入这个后，可以有效的获取列表代码段。可以排除列表外，如导航链接，相关新闻[[链接]]等
<div style="border:1px solid #999; width:544px;">
[[{{ns:image}}:phpcms224.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:671px;">
[[{{ns:image}}:phpcms225.jpg|Phpcms采集器]]</div>
'''往日新闻'''为列表结尾
<div style="border:1px solid #999; width:365px;">
[[{{ns:image}}:phpcms226.jpg|Phpcms采集器]]</div>
找到标题
<div style="border:1px solid #999; width:568px;">
[[{{ns:image}}:phpcms227.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:762px;">
[[{{ns:image}}:phpcms228.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:766px;">
[[{{ns:image}}:phpcms229.jpg|Phpcms采集器]]</div>
保存，开始测试
<div style="border:1px solid #999; width:798px;">
[[{{ns:image}}:phpcms230.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:798px;">
[[{{ns:image}}:phpcms231.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:788px;">
[[{{ns:image}}:phpcms232.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:268px;">
[[{{ns:image}}:phpcms233.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:552px;">
[[{{ns:image}}:phpcms234.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:797px;">
[[{{ns:image}}:phpcms235.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:256px;">
[[{{ns:image}}:phpcms236.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:459px;">
[[{{ns:image}}:phpcms237.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:798px;">
[[{{ns:image}}:phpcms238.jpg|Phpcms采集器]]</div><br>
文章添加时间可以是随机时间，也可以是按照当前时间进行添加。

发布后，

到该频道下面--管理文章

我们已经采集到了。不过现在文章还没有生成[[静态]]。需要生成下
<div style="border:1px solid #999; width:738px;">
[[{{ns:image}}:phpcms239.jpg|Phpcms采集器]]</div>
进入发布[[网页]]  可指定生成的开始id和结尾id 
<div style="border:1px solid #999; width:788px;">
[[{{ns:image}}:phpcms240.jpg|Phpcms采集器]]</div>
最终效果如图
<div style="border:1px solid #999; width:753px;">
[[{{ns:image}}:phpcms241.jpg|Phpcms采集器]]</div>
*'''采集演示二'''

打开 <nowiki>http://book.phpip.com/more.php?class_id=2</nowiki> 我们开始采集武侠小说栏目的文章
<div style="border:1px solid #999; width:497px;">
[[{{ns:image}}:phpcms242.jpg|Phpcms采集器]]</div>
在这个页面当中，有作品名称和最后章节都有链接地址。

添加任务：

首先分析：

作品名：<nowiki>http://book.phpip.com/zuopin.php?book_id=20115</nowiki>

最后章节：<nowiki>http://book.phpip.com/yuedu.php?book_id=20115&chapter_id=371896</nowiki>

我们发现在最后章节中含有chapter_id，

文章[[网址]]筛选 中添加 
<div style="border:1px solid #999; width:798px;">
[[{{ns:image}}:phpcms243.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:641px;">
[[{{ns:image}}:phpcms244.jpg|Phpcms采集器]]</div>
此页面具有分页
<div style="border:1px solid #999; width:284px;">
[[{{ns:image}}:phpcms245.jpg|Phpcms采集器]]</div>
我们点击下一页，然后再点击上一页。发现地址变为

第一页：<nowiki>http://book.phpip.com/more.php?navigator_page=1&class_id=2</nowiki>

第二页：<nowiki>http://book.phpip.com/more.php?navigator_page=2&class_id=2</nowiki>

不同的地方已经出来。

我们任意打开一篇文章：

<nowiki>http://book.phpip.com/yuedu.php?book_id=29781&chapter_id=372679</nowiki>

开始找寻内容规则：

查看[[源码]]
<div style="border:1px solid #999; width:423px;">
[[{{ns:image}}:phpcms246.jpg|Phpcms采集器]]</div>
我们先找标题：所选部分前面的要是唯一的
<div style="border:1px solid #999; width:798px;">
[[{{ns:image}}:phpcms247.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:572px;">
[[{{ns:image}}:phpcms248.jpg|Phpcms采集器]]</div>
内容：
<div style="border:1px solid #999; width:423px;">
[[{{ns:image}}:phpcms249.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:798px;">
[[{{ns:image}}:phpcms250.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:576px;">
[[{{ns:image}}:phpcms251.jpg|Phpcms采集器]]</div>
保存。

开始测试...
<div style="border:1px solid #999; width:798px;">
[[{{ns:image}}:phpcms252.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:403px;">
[[{{ns:image}}:phpcms253.jpg|Phpcms采集器]]</div>
我们发现采集的名称都是乱码。

我们看源文件最上面的编码方式
<div style="border:1px solid #999; width:557px;">
[[{{ns:image}}:phpcms254.jpg|Phpcms采集器]]</div>
是[[utf-8]]编码的站点。

我们进入规则高级设置
<div style="border:1px solid #999; width:482px;">
[[{{ns:image}}:phpcms255.jpg|Phpcms采集器]]</div>
继续测试
<div style="border:1px solid #999; width:795px;">
[[{{ns:image}}:phpcms256.jpg|Phpcms采集器]]</div>
测试成功。

开始采集网址--发布内容---批量生成。
<div style="border:1px solid #999; padding:0 5px; margin:20px 0 20px; font-size:15px; font-weight:bold; background:#f0f0f0;">
Phpcms桌面采集器
</div>
<p>&nbsp;&nbsp;[[火车采集器]](LocoySpider) 是一个供各大主流文章系统，论坛系统等使用的多线程内容采集发布程序。使用火车采集器，你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载，图片批量水印，[[Flash]][[下载]],下载文件地址探测，自制作发表的[[CMS]]模块参数，自定义发表的内容等。此外，丰富的规则制定，内容替换功能，对[[Access]],[[MySQL]],[[MSSQL]]的数据入库导出的支持，更可令你采集内容的时候得心应手，现在开始你可以抛弃过去重复乏味的手工添加工作了，请马上开始体验瞬间建站的乐趣吧!</p>
<p>&nbsp;&nbsp;火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件，强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器，自定义用户cms系统模块，不管你的网站是什么系统，都有可能使用上火车采集器，系统自带的模块文件支持:[[风讯]]文章，[[动易]]文章，[[动网]]论坛，[[PhpWind|PHPWIND]]论坛,[[Discuz]]论坛,phpcms文章,phparticle文章,[[LeadBBS]]论坛,魔力论坛，[[DedeCMS]]文章,[[Xydw]]文章,[[惊云]]]文章等的模块文件。更多cms模块请自己参照制作修改，也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。</p>
<p>&nbsp;&nbsp;由于[[PHP]]CMS采用的特殊的登录验证，而采集器软件内将这一块写死，导致最新的PHPCMS3.0->2007一直无法使用火车采集器在线发布文章，为解决该问题，我写了一个PHP接口文件和PHPCMS2007的登录模块，请大家下载试用，附部分使用说明</p>
附件包内文件：<br>
1.phpcms_art_add_locoy.php<br>
2.PHPCMS2007.cwr
<p>请将文件1上传至PHPCMS根目录，将文件2拷贝至采集器软件内Module文件夹，phpcms_art_add_locoy.php文件是软件发布的接口文件，不存在太大风险，但仍建议采集使用完建议删除该文件，或重命名并更改该模块内的相应刷新列表页面和发布文件页面的文件名参数</p>
附件包下载地址:[http://down.zzbaike.com/download/lsphpcms-1083.html 点击下载]

Phpcms部分截图

部分地方需要修改模块：如频道ID变了，更改接口文件名，是否下载图片等远程文件请对照图中修改模块中相关部分,文章是默认生成的，并在采集的过程中自动生成文章页并更新栏目页

火车采集器3.1下载：[http://down.zzbaike.com/download/locoyspider-1081.html 点击下载]
<div style="border:1px solid #999; width:296px;">
[[{{ns:image}}:phpcms257.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:544px;">
[[{{ns:image}}:phpcms258.jpg|Phpcms采集器]]</div><br>
<div style="border:1px solid #999; width:544px;">
[[{{ns:image}}:phpcms259.gif]]</div><br>
<div style="border:1px solid #999; width:592px;">
[[{{ns:image}}:phpcms260.gif]]</div><br>
<div style="border:1px solid #999; width:470px;">
[[{{ns:image}}:phpcms261.jpg|Phpcms采集器]]</div>

[[Category:CMS使用]]
[[Category:PHPCMS内容管理系统]]