站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
CMSware常用采集语法
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="border:1px solid #000; float:right; text-align:center; padding:6px;"><strong>导航:</strong>[[CMSware采集语法|返回上一页]]</span> <div style="clear:both;"></div> '''注意''':这里的“常用”是指可以用于多数页面,但绝对不是“万用” ===索引页有效区域定位=== 这个最简单,建议为空,不是必要的填写反而影响效率,也可以用下面的: <pre> /<html>(.*)<\/html>/isU </pre> ==有效内容页URL过虑== <pre> /href=[\"\'@]([^<>\"\']+)[\"\'@][\s>]/isU </pre> 基本可以通杀了- -不过既然覆盖面广了肯定就不会太准了,也就是说所有的链接都会抓来 再给两个范围比较小的: <pre> /href=[\"\'@]([^<>\s\"\']+.[shtml]+)[\"\'@][\s>]+/isU </pre> <pre> /href=[\"\'@]([^<>\s\"\']+.[asphpjx]+/?[a-z]+=[0-9]+)[\"\'@][\s>]+/isU </pre> 或者就直接把两个放一起: <pre> /href=[\"\'@]([^<>\s\"\']+.[shtml]+)[\"\'@][\s>]+|href=[\"\'@]([^<>\s\"\']+.[asphpjx]+/?[a-z]+=[0-9]+)[\"\'@][\s>]+/isU </pre> 如果要再精确点的话: <pre> /href=[\"\'@]([^<>\s\"\']+[0-9]+.[shtml]+)[\"\'@][\s>]+|href=[\"\'@]([^<>\s\"\']+.[asphpjx]+/?[a-z]+=[0-9]+)[\"\'@][\s>]+/isU </pre> 关键是在于[[链接]]的名称,就是红色部分 *如果是全数字就可以[0-9]+ *如果混有英文就[0-9a-z]+ *如果有符号比如-就[0-9\-]+ ==新闻标题== <pre> <title>([^<>\s]+)[^\s\-]+<\/title>/isU </pre> 如果是 <pre> /<h1>(.*)<\/h1>/isU </pre> 如果页面有h1,最好就是用这个了 ==多页采集== 比如需要[[采集]] <pre> http://edu.qq.com/kaoyan/fuxizhidao01.htm ... http://edu.qq.com/kaoyan/fuxizhidao08.htm </pre> 使用如下的索引页规则 <pre> http://edu.qq.com/kaoyan/fuxizhidao{0[1,8,0]}.htm </pre> 规则说明: {A[B,C,D]} “{...}”是索引页分页语法定义 *A:附加字符 *B:开始页数 *C:结束页数 *D:采集的第一页是否从默认初始页(去掉“{...}”的[[URL]])开始,是的话填“1”,否则填“0” *'''举例1-采集索引页URL规则1''' <pre> http://edu.qq.com/kaoyan/fuxizhidao{0[1,8,1]}.htm 可以采集如下页面: http://edu.qq.com/kaoyan/fuxizhidao.htm http://edu.qq.com/kaoyan/fuxizhidao01.htm http://edu.qq.com/kaoyan/fuxizhidao02.htm ... http://edu.qq.com/kaoyan/fuxizhidao08.htm </pre> *'''举例2-采集索引页URL规则2''' <pre> http://edu.qq.com/kaoyan/fuxizhidao{0[1,8,0]}.htm 可以采集如下页面: http://edu.qq.com/kaoyan/fuxizhidao01.htm http://edu.qq.com/kaoyan/fuxizhidao02.htm ... http://edu.qq.com/kaoyan/fuxizhidao08.htm </pre> 规则1比规则2多采集了一个 <nowiki>http://edu.qq.com/kaoyan/fuxizhidao.htm</nowiki> 这个就是参数D的作用 *'''举例3-采集索引页URL规则3''' <pre> http://www.blueidea.com/tech/web/index{_[2,8,1]}.asp 可以采集如下页面: http://www.blueidea.com/tech/web/index.asp http://www.blueidea.com/tech/web/index_2.asp http://www.blueidea.com/tech/web/index_3.asp ... http://www.blueidea.com/tech/web/index_8.asp </pre> *'''举例4-采集索引页URL规则4''' <pre> http://www.blueidea.com/tech/web/index{_[2,8,0]}.asp 可以采集如下页面: http://www.blueidea.com/tech/web/index_2.asp http://www.blueidea.com/tech/web/index_3.asp ... http://www.blueidea.com/tech/web/index_8.asp </pre> ==多页采集索引页URL规则== <pre> http://www.xinhuanet.com/newscenter/xhyw{_[1,20]}.htm </pre> 使用以上的规则就可以采集如下共20个页面 <pre> http://www.xinhuanet.com/newscenter/xhyw.htm http://www.xinhuanet.com/newscenter/xhyw_1.htm http://www.xinhuanet.com/newscenter/xhyw_2.htm http://www.xinhuanet.com/newscenter/xhyw_3.htm ... .. . http://www.xinhuanet.com/newscenter/xhyw_20.htm </pre> ==过虑函数管道== <pre> <Title>{DATA}</Title>==>[clearHTML]==>[localizeImg]==>helloworld </pre> 通过使用==>[采集函数名称]就可以加入一个过虑管道 ==内容图片本地化== 使用过虑函数实现:localizeImg <pre> <font id="Zoom">{DATA} </font> <table==>[clearRubbish]==>[localizeImg]==>[page] </pre> ==定义某个字段为分页采集字段== 比如新闻内容,规则如下: <pre> <font id="Zoom">{DATA} </font> <table==>[clearRubbish]==>[localizeImg]==>[Page] </pre> 内容页分页采集也使用过虑函数来实现 内容分页采集函数:[Page] *'''自适应规则语法''' 不再需要你熟悉正则语法 语法规则: <pre> [前标识]{DATA}[后标识](==>[过虑函数名1]==>[过虑函数名2]......) </pre> *[前标识] :必须。任何字符串,必须具有唯一性。 *{DATA} :必须。就是你要采集的有效内容 *[后标识] :必须。任何字符串 *(==>[过虑函数名1]==>[过虑函数名2]......) :可选。过虑函数管道,管道可以无限延伸下去 比如: <pre> <Title>{DATA}</Title>==>[clearHTML] <td class="Content">{DATA}</td> </tr> </table> <table width="100%" border="0"> </pre> *'''智能采集地址修复:''' 既便采集索引页内容中的有效内容页URL为相对地址也可以自动修复,例如: 采集索引页<nowiki>http://news.xinhuanet.com/newscenter/index.html</nowiki> *'''支持的URL格式列表:''' <pre> <a href="http://news.xinhuanet.com/newscenter/2004-12/04/content_2293879.htm " > <a href="/newscenter/2004-12/04/content_2293879.htm " > <a href="newscenter/2004-12/04/content_2293879.htm " > <a href="./04/content_2293879.htm " > <a href="../../content_2293879.htm " > </pre> ==内容页有分页时设置采集自动检测规则== <pre> <center><a href="{DATA}" class="nextPage"><img </pre> <pre> <a href="http://www.pconline.com.cn/pcjob/nettech/cisco/others/0412/506028_1.html" >[下一页]</a> <a href="http://news.xinhuanet.com/it/2004-12/04/content_2294495_2.htm" class="nextPage"><img src="http://imgs.xinhuanet.com/icon/newscenter /news_xy.gif" border="0"></a> </pre> *'''设置默认值:''' <pre> {Default:xxx} </pre> *'''时间采集器:''' 获取当前的时间戳(Timestamp) {Timer} *'''来源地址采集器:''' 获取当前的来源网址 {URL} #还有要注意的是大小写比如<a>和<a>等 #还有标记属性值有没有加引号就是“和‘ #还有就是特殊符号在php中的输入方法比如"和/ 就要写成"和/ #还有就是中英文输入符号的区别比如“ 和"是不同的,因为中文输入下符号是双字节的 注意了这些~一般的采集也就不成问题了 ==参考来源== *[http://www.lonmo.com/cmsware/manual/ 参考来源] [[category:CMSware]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)