站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
PHP168:采集参数用到的正则语法讲解
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>导航: </strong> [[PHP168:数据采集指南|上一级]] | [[PHP168]] | {{Template:php168导航}}</span> <div style="clear:both;"></div> 所用的正则语法,目的就是实现通配符的 它的语法规则是 '''{变量名=NO符号}'''<br> '''{变量名=*}'''<br> '''{NO符号}'''<br> '''{*}'''<br> 第一种与第三种一般用到标题的正则规则那里,第二种与第四种一般用到内容的正则规则那里. <ul> <li>对于第一种而言,比如<br> '''{url=NO"}'''<br> 代表的意思是,文章内容的[[网址]]是不能包括"双引号的.而凭什么就写"双引号,不写其它符号呢?这还得查看一下被[[采集]]的[[网站]]的列表页的源代码,看一下任意一篇的文章地址右边的是什么符号,如果是'单引号的话就输入'单引号,如果都不是的话.是空格的话.就输入空格.如果是>大于号的话.就输入>大于号.以此类推.遵循的原则就是靠近右边原则. <li>对于第二种,比如<br> '''{cotent=*}'''<br> <p>'''*'''号代表的意思是,任意字符串.为什么内容页可以使用*号,而标题页不能使用呢?因为标题而是有多组标题的.而内容页不可能出现多组内容.同样的道理.内容页是只有一个作者或一个来源地址的.所以就可以很方便的.只使用*号即可.而标题列表页是不能的.</p></ul> '''{NO符号}''','''{*}'''这两个所代表的意思,是不赋值给任何参数变量.因为他左边没有=等于号.使用这两个的目的是,为了实现通配符.比如在列表页的时候.一个[[链接]]地址如下<br> <a href='地址' title='描述'>标题</a> <p>像描述,我们是用不到的.但是你也要为它写一个通配符.因为每个标题的描述不一样的.所以就要写通配符.也就是说.凡是出现不需要的代码.但每个标题都不一样的.那就需要使用通配符.除了描述之外.有时也会有其它一些CSS样式等之类的.</p> 而'''{*}'''一般用在文章内容里边.即是作者跟内容之间有一大段不需要的代码.无论相同或者不同.我们都不需要它.就用'''{*}'''代替 而变量一般有<br> title 文章标题<br> url 被采集的文章内容网址<br> content 文章内容<br> author 文章作者<br> copyfrom 文章来源 [[Category:PHP168数据采集]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)
本页使用的模板:
模板:Php168导航
(
查看源代码
)(受保护)