站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
Phpcms:采集器
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="text-align:center; border:1px solid #000; float:right; padding:6px; margin-bottom:10px;"><strong>导航:</strong> [[Phpcms:Phpcms使用手册|上一级]] | [[PHPCMS]] | {{Template:Phpcms导航}}</span> <div style="clear:both; border:1px solid #999; padding:0 5px; margin:20px 0 20px; font-size:15px; font-weight:bold; background:#f0f0f0;"> PHPCMS内部采集器 </div> *'''采集演示一''' [[采集]]文章需要先获取文章的[[地址]],通常我们打开的是栏目列表[[页面]],phpcms后台---功能模块---采集器; 采集匹配规则:前部分需要是唯一的。后面为紧跟着的匹配 <div style="border:1px solid #999; width:531px;"> [[{{ns:image}}:phpcms219.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:685px;"> [[{{ns:image}}:phpcms220.jpg|Phpcms采集器]]</div> 打开这个页面向里面填入信息(<nowiki>http://news.sina.com.cn/china/sz/index.html</nowiki>) <div style="border:1px solid #999; width:559px;"> [[{{ns:image}}:phpcms221.jpg|Phpcms采集器]]</div><br> <div style="border-top:1px solid #999; border-left:1px solid #999; border-right:1px solid #999; width:660px;"> [[{{ns:image}}:phpcms222.jpg|Phpcms采集器]]</div> <div style="border-bottom:1px solid #999; border-left:1px solid #999; border-right:1px solid #999; width:660px;"> [[{{ns:image}}:phpcms222_2.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:257px;"> [[{{ns:image}}:phpcms223.jpg|Phpcms采集器]]</div> 国内全部为要获取的区域前部分 某篇区域内获取列表:填入这个后,可以有效的获取列表代码段。可以排除列表外,如导航链接,相关新闻[[链接]]等 <div style="border:1px solid #999; width:544px;"> [[{{ns:image}}:phpcms224.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:671px;"> [[{{ns:image}}:phpcms225.jpg|Phpcms采集器]]</div> '''往日新闻'''为列表结尾 <div style="border:1px solid #999; width:365px;"> [[{{ns:image}}:phpcms226.jpg|Phpcms采集器]]</div> 找到标题 <div style="border:1px solid #999; width:568px;"> [[{{ns:image}}:phpcms227.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:762px;"> [[{{ns:image}}:phpcms228.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:766px;"> [[{{ns:image}}:phpcms229.jpg|Phpcms采集器]]</div> 保存,开始测试 <div style="border:1px solid #999; width:798px;"> [[{{ns:image}}:phpcms230.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:798px;"> [[{{ns:image}}:phpcms231.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:788px;"> [[{{ns:image}}:phpcms232.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:268px;"> [[{{ns:image}}:phpcms233.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:552px;"> [[{{ns:image}}:phpcms234.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:797px;"> [[{{ns:image}}:phpcms235.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:256px;"> [[{{ns:image}}:phpcms236.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:459px;"> [[{{ns:image}}:phpcms237.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:798px;"> [[{{ns:image}}:phpcms238.jpg|Phpcms采集器]]</div><br> 文章添加时间可以是随机时间,也可以是按照当前时间进行添加。 发布后, 到该频道下面--管理文章 我们已经采集到了。不过现在文章还没有生成[[静态]]。需要生成下 <div style="border:1px solid #999; width:738px;"> [[{{ns:image}}:phpcms239.jpg|Phpcms采集器]]</div> 进入发布[[网页]] 可指定生成的开始id和结尾id <div style="border:1px solid #999; width:788px;"> [[{{ns:image}}:phpcms240.jpg|Phpcms采集器]]</div> 最终效果如图 <div style="border:1px solid #999; width:753px;"> [[{{ns:image}}:phpcms241.jpg|Phpcms采集器]]</div> *'''采集演示二''' 打开 <nowiki>http://book.phpip.com/more.php?class_id=2</nowiki> 我们开始采集武侠小说栏目的文章 <div style="border:1px solid #999; width:497px;"> [[{{ns:image}}:phpcms242.jpg|Phpcms采集器]]</div> 在这个页面当中,有作品名称和最后章节都有链接地址。 添加任务: 首先分析: 作品名:<nowiki>http://book.phpip.com/zuopin.php?book_id=20115</nowiki> 最后章节:<nowiki>http://book.phpip.com/yuedu.php?book_id=20115&chapter_id=371896</nowiki> 我们发现在最后章节中含有chapter_id, 文章[[网址]]筛选 中添加 <div style="border:1px solid #999; width:798px;"> [[{{ns:image}}:phpcms243.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:641px;"> [[{{ns:image}}:phpcms244.jpg|Phpcms采集器]]</div> 此页面具有分页 <div style="border:1px solid #999; width:284px;"> [[{{ns:image}}:phpcms245.jpg|Phpcms采集器]]</div> 我们点击下一页,然后再点击上一页。发现地址变为 第一页:<nowiki>http://book.phpip.com/more.php?navigator_page=1&class_id=2</nowiki> 第二页:<nowiki>http://book.phpip.com/more.php?navigator_page=2&class_id=2</nowiki> 不同的地方已经出来。 我们任意打开一篇文章: <nowiki>http://book.phpip.com/yuedu.php?book_id=29781&chapter_id=372679</nowiki> 开始找寻内容规则: 查看[[源码]] <div style="border:1px solid #999; width:423px;"> [[{{ns:image}}:phpcms246.jpg|Phpcms采集器]]</div> 我们先找标题:所选部分前面的要是唯一的 <div style="border:1px solid #999; width:798px;"> [[{{ns:image}}:phpcms247.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:572px;"> [[{{ns:image}}:phpcms248.jpg|Phpcms采集器]]</div> 内容: <div style="border:1px solid #999; width:423px;"> [[{{ns:image}}:phpcms249.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:798px;"> [[{{ns:image}}:phpcms250.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:576px;"> [[{{ns:image}}:phpcms251.jpg|Phpcms采集器]]</div> 保存。 开始测试... <div style="border:1px solid #999; width:798px;"> [[{{ns:image}}:phpcms252.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:403px;"> [[{{ns:image}}:phpcms253.jpg|Phpcms采集器]]</div> 我们发现采集的名称都是乱码。 我们看源文件最上面的编码方式 <div style="border:1px solid #999; width:557px;"> [[{{ns:image}}:phpcms254.jpg|Phpcms采集器]]</div> 是[[utf-8]]编码的站点。 我们进入规则高级设置 <div style="border:1px solid #999; width:482px;"> [[{{ns:image}}:phpcms255.jpg|Phpcms采集器]]</div> 继续测试 <div style="border:1px solid #999; width:795px;"> [[{{ns:image}}:phpcms256.jpg|Phpcms采集器]]</div> 测试成功。 开始采集网址--发布内容---批量生成。 <div style="border:1px solid #999; padding:0 5px; margin:20px 0 20px; font-size:15px; font-weight:bold; background:#f0f0f0;"> Phpcms桌面采集器 </div> <p> [[火车采集器]](LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,[[Flash]][[下载]],下载文件地址探测,自制作发表的[[CMS]]模块参数,自定义发表的内容等。此外,丰富的规则制定,内容替换功能,对[[Access]],[[MySQL]],[[MSSQL]]的数据入库导出的支持,更可令你采集内容的时候得心应手,现在开始你可以抛弃过去重复乏味的手工添加工作了,请马上开始体验瞬间建站的乐趣吧!</p> <p> 火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:[[风讯]]文章,[[动易]]文章,[[动网]]论坛,[[PhpWind|PHPWIND]]论坛,[[Discuz]]论坛,phpcms文章,phparticle文章,[[LeadBBS]]论坛,魔力论坛,[[DedeCMS]]文章,[[Xydw]]文章,[[惊云]]]文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。</p> <p> 由于[[PHP]]CMS采用的特殊的登录验证,而采集器软件内将这一块写死,导致最新的PHPCMS3.0->2007一直无法使用火车采集器在线发布文章,为解决该问题,我写了一个PHP接口文件和PHPCMS2007的登录模块,请大家下载试用,附部分使用说明</p> 附件包内文件:<br> 1.phpcms_art_add_locoy.php<br> 2.PHPCMS2007.cwr <p>请将文件1上传至PHPCMS根目录,将文件2拷贝至采集器软件内Module文件夹,phpcms_art_add_locoy.php文件是软件发布的接口文件,不存在太大风险,但仍建议采集使用完建议删除该文件,或重命名并更改该模块内的相应刷新列表页面和发布文件页面的文件名参数</p> 附件包下载地址:[http://down.zzbaike.com/download/lsphpcms-1083.html 点击下载] Phpcms部分截图 部分地方需要修改模块:如频道ID变了,更改接口文件名,是否下载图片等远程文件请对照图中修改模块中相关部分,文章是默认生成的,并在采集的过程中自动生成文章页并更新栏目页 火车采集器3.1下载:[http://down.zzbaike.com/download/locoyspider-1081.html 点击下载] <div style="border:1px solid #999; width:296px;"> [[{{ns:image}}:phpcms257.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:544px;"> [[{{ns:image}}:phpcms258.jpg|Phpcms采集器]]</div><br> <div style="border:1px solid #999; width:544px;"> [[{{ns:image}}:phpcms259.gif]]</div><br> <div style="border:1px solid #999; width:592px;"> [[{{ns:image}}:phpcms260.gif]]</div><br> <div style="border:1px solid #999; width:470px;"> [[{{ns:image}}:phpcms261.jpg|Phpcms采集器]]</div> [[Category:CMS使用]] [[Category:PHPCMS内容管理系统]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)
本页使用的模板:
模板:Phpcms导航
(
查看源代码
)(受保护)