站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
CMSware新建采集分类/索引页规则定义
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="border:1px solid #000; float:right; text-align:center; padding:6px;"><strong>导航:</strong>[[CMSware采集管理|返回上一页]]</span> <div style="clear:both;"></div> 新建[[采集]]分类/采集索引页规则定义 <div> [[Image:cmsware115.gif]] </div> <br> <div> [[Image:cmsware116.gif]] </div> *采集索引页面[[URL]]: :待采集的内容[[链接]]列表页,一般是[[网站]]的2级或3级栏目首页. *采集索引页有效区域定位规则: :用来定位有效的内容链接位置,如下图. <div> [[Image:cmsware117.gif]] </div> 我们要采集的是国内最新播报的内容,所以其它区域的无效链接要过虑掉,而通过设置采集索引页有效区域定位规则就可以过虑无效的链接. <div> [[Image:cmsware118.gif]] </div> <br> <div> [[Image:cmsware119.gif]] </div> 我们通过查看[[网页]]的源代码来定位有效链接区域,如上图,有效区域位于 <pre> <td bgcolor="#BAD4E5" height="20" width="97%" class="big"><font color="#000000">国内最新播报</font></td> ...... .... 有效链接区域 .. </html> </pre> 通过搜索,我们可以得知国内最新播报在整个网页源码中是唯一的,所以它也可以用来作为头标识,而用<nowiki></html></nowiki>来作为尾标识即可.最后定下来的正则规则是: <pre> /国内最新播报(.*)<\/html>/isU </pre> <pre> 名词解释: * 头标识 : 用来定位采集有效区域开始的字串,在整个网页源代码中必须唯一. * 尾标识 : 用来定位采集有效区域结束的字串,在整个网页源代码中必须唯一. </pre> <pre> 正则语法: * 所有采集正则必须以/开始, /isU结束.格式.即: /头标识(.*)尾标识/isU * 头/尾标识中的所有/符号必须加个\转义符,也就是< /html>你要写成<\/html> 头/尾标识中的所有"符号必须加个\转义符,也就是<font color="#000000">你要写成<font color=\"#000000\"> * [\s]*代表0个或多个空格, * [^\"><\s]*代表除了",<,>,空格外的所有字符 * [0-9]+代表任意的数字组合: </pre> *有效内容页URL过虑规则: <div> [[Image:cmsware121.gif]] </div> 通过分析有效区域里面的链接格式,我们最终确定了有效内容页URL过虑规则 如下: <pre> /<a[\s]*href=([^\"><\s]*content_[0-9]+.htm)/isU </pre> <pre> 正则语法: * 所有采集正则必须以/开始, /isU结束.格式.即: /头标识.......尾标识/isU * 头/尾标识中的所有/符号必须加个\转义符,也就是</html>你要写成<\/html> 头/尾标识中的所有"符号必须加个\转义符,也就是<font color="#000000">你要写成<font color=\"#000000\"> * [\s]*代表0个或多个空格, * [^\"><\s]*代表除了",<,>,空格外的所有字符 * [0-9]+代表任意的数字组合 * \r代表回车符 * 有效链接地址我们使用(.....)来标识,如上/<a[\s]*href=([^\"><\s]*content_[0-9]+.htm)/isU </pre> 设置完之后我们点测试,如果规则无误的话,系统将可以解析出所有有效内容页地址 <div> [[Image:cmsware120.gif]] </div> ==参考来源== *[http://www.lonmo.com/cmsware/manual/ 参考来源] [[category:CMSware]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)