站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
CMSware内容页采集规则定义
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="border:1px solid #000; float:right; text-align:center; padding:6px;"><strong>导航:</strong>[[CMSware采集管理|返回上一页]]</span> <div style="clear:both;"></div> 内容页的[[采集]]规则数量多少取决与内容模型字段数量的多少以及你想采集的项目数量的多少,一般来说,新闻采集只需采集新闻的标题和内容,那样就只需要定2个规则,让我们往下看: <div> [[Image:cmsware122.gif]] </div> 要正确定义标题和内容的采集规则,我们需要考察内容页的[[网页]]源代码 <div> [[Image:cmsware123.gif]] </div> 我们发现网页的<nowiki><Title></nowiki>包含了新闻的标题,所以标题的采集规则很容易就定下来了 <pre> /<Title>(.*)<\/Title>/isU==>[clearHTML] 这里,我们使用==>[clearHTML]来进行内容过滤,也就是过滤掉标题中的所有html代码,比如字体大小颜色定义等. </pre> 下面让我们接着确定内容的采集规则,我们继续考察源代码 <div> [[Image:cmsware124.gif]] </div> 通过研究内容周围的[[HTML]],我们确定了采集规则的头标识和尾标识分别为<nowiki><font id="Zoom"> 和 </font></nowiki> ,于是,内容采集规则定为 <pre> /<font id=\"Zoom\">(.*) <\/font>/isU==>[clearRubbish,1] 这里,我们使用==>[clearRubbish,1]来进行内容过滤,第一个参数clearRubbish是用来去除内容中的垃圾代码,比如 flash广告,js广告等,而第2个参数是用来定义是否对 内容中的图片进行本地化,在这里我们设为1,即内容图片本地化 注意:我们使用 <\/font>作为尾标识可能有欠妥当的地方,因为很可能内容中还会出现<font></font>的定义,那样就可能出现问题,此时我们需要更准确的规则定义: /<font id=\"Zoom\">(.*)<\/font>\s\r[\s]*<table/isU==>[clearRubbish,1] </pre> 标题和内容的采集规则都确定下来了,现在我们再点测试,系统显示有效内容页地址解析结果,然后我们对一条结果进行解析,解析结果如下: <div> [[Image:cmsware125.gif]] </div> 好了,所有测试通过,让我们开始运行我们的爬虫,开始采集 ==参考来源== *[http://www.lonmo.com/cmsware/manual/ 参考来源] [[category:CMSware]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)