站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
▼
建站程序
开发
服务器
办公软件
开发教程
▼
服务器教程
软件使用教程
运营教程
热门电子书
▼
CSS教程
WordPress教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
热点词条
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
火车采集器/采集任务新建
”(章节)
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
==采内容== 当所有网址抓取完后就可以开始抓取内容。抓取内容就是采集器请求到内容页后分析内容页的HTML源代码并依据在采集器中的[[标签]]规则设置匹配出相应的数据。 在测试到的地址中,任意选择一个子地址,双击选中的地址或者点击“测试该页”按钮。如图: [[Image:Locoy_XJRW21.jpg|center]] 将会跳转到任务中的“第二步:采集内容规则”如图: [[Image:Locoy_XJRW22.jpg|center]] 在典型页面中会出现刚才选中的网址,这里就是测试采集内容。左边的标签名下面有:出处、时间、作者、内容、标题,一共五个标签,可以对标签进行添加、删除和编辑等操作。每个标签就是采集后得到的一段内容,可以是从页面中截取的内容,也可以是设置的一个固定的值或其他方式得到的值。点测试按钮后在文本框中会得到典型页面(<nowiki>http://zhidao.baidu.com/question/50942867.html?si=1&wtp=wk</nowiki>)测试的效果,如图: [[Image:Locoy_XJRW23.jpg|center]] 由图可见,测试页面后得到的内容没经过任何处理所有的网页HTML代码都在。通过在标签中设置就可以提取出所需的内容。假设现在要提取问题,问题补充和最佳答案。首先添加这个三个标签,可以重新添加标签,也可以在上图中标签里编辑。我们重新添加一下。先将原来的标签删除再点击“添加标签”按钮后在“内容页标签编辑框”中填写上标签名:问题。 如图: [[Image:Locoy_XJRW24.jpg|center]] 再打开<nowiki>http://zhidao.baidu.com/question/50942867.html?si=1&wtp=wk</nowiki> 页面并查看该页的HTML源代码。在源代码中可以找到页面中的问题部分。如图: [[Image:Locoy_XJRW25.jpg|center]] 在“内容页标签编辑框”中进行相应的设置句可以从网页HTML源代码里得到需要的内容。 复制页面HTML中“<div class="f14 B wr" id="question_title"><cq>”后在文本中向上查找发现查找不到与该段相同的代码,说明此处是该段代码第一次出现的地方。如图: [[Image:Locoy_XJRW26.jpg|center]] <nowiki>复制这段代码到“内容有标签编辑框”的“开始字符串处”。 “</cq>”是“<div class="f14 B wr" id="question_title"><cq>”后面第一次出现的地方。复制“</cq>”到“结束字符串”处。如图:</nowiki> [[Image:Locoy_XJRW27.jpg|center]] 点击“确定”按钮后点“测试”按钮得到页面中的数据。如图: [[Image:Locoy_XJRW28.jpg|center]] <nowiki>采集器首先从网页源代码(HTML代码)中从头开始往下查找“开始字符串”中的内容第一次出现的位置(例上面:<div class="f14 B wr" id="question_title"><cq>),当找到与“开始字符串”处相同的内容时,再从找到的位置开始往后查找“结束字符串”处中的内容的(例上面:</cq>)第一次出现的位置(后面再次出现时不再理会)。当找到了“开始字符串”和“结束字符串后”就会提取出它们之间的内容作为采集到的内容。</nowiki> <nowiki>再如来提取最佳答案。新建“答案”标签,分析网页源代码。“<div class="f14 p90 pl10" id="best_answer_content">”是答案得内容前面的一段代码,把它作为“开始字符串”处。通过txt文本中的查找发现这段代码是第一次出现的地方所以可以用做“开始字符串”处的内容。不难发现“<div class="f14 p90 pl10" id="best_answer_content">”后第一次出现的“</div>”正好是在答案内容的结束的地方所以可以将“</div>”当做“结束字符串处的内容”。如图设置。</nowiki> [[Image:Locoy_XJRW29.jpg|center]] [[Image:Locoy_XJRW30.jpg|center]] 保存标签测试后得到的效果如图: [[Image:Locoy_XJRW31.jpg|center]] <nowiki>这样就采集到了最佳答案内容,发现内容中含有“<ca><pre><\pre><\ca>”这样的HTML代码,内容开头和结尾处也有很多的空格,可以在标签设置里将这些没用的代码排除。设置如图:</nowiki> [[Image:Locoy_XJRW32.jpg|center]] <nowiki>其中HTML标签排除中的“所有标签<”是指排除掉采集的内容中的所有“<”括起来的HTML标签。“<ca><pre><\pre><\ca>”就属于“<”类型的标签,所以可以被排除。保存标签测试如图:</nowiki> [[Image:Locoy_XJRW33.jpg|center]] 这样通过排除一些无用的东西基于可以得到了纯净的内容了。
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)