站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
火车采集器/采集任务新建
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
{{火车采集器导航}} 任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。采集器通过运行任务来采集发布数据。 任务工作的步骤总体可以分为三步:采网址,采内容,发内容。一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。 任务的编辑界面如图: [[Image:Locoy_XJRW1.jpg|center]] 采集器的使用最主要的就是对任务的设置。而采集数据可以分为两步,第一步是:采网址,第二步:采内容。 ==采网址== 采网址,就是从列表页中提取出内容页的地址。 *'''从页面自动分析得到地址连接''' 以<nowiki>http://roll.news.sina.com.cn/news/gjxw/hqqw/index_1.shtml</nowiki> 页面为例。来采集这个[[网址]]上的新闻,这个页面中有很多新闻的[[链接]],要采集每个链接中新闻内容.首先需要将每个新闻的链接地址抓取到也就是抓取内容页的地址。 先将该列表页地址添加到采集器里。点击“<<向导添加”后弹出“添加开始采集地址”对话框。选择“单条网址”并将要采集的网址添加进去。如图: [[Image:Locoy_XJRW2.jpg|center]] 然后点击“添加”按钮,并点击“完成”按钮,即可添加一条采集地址。如图: [[Image:Locoy_XJRW3.jpg|center]] 点击“完成”按钮后即可添加了一条采集网址。内容页的地址就从这条地址中提取出来。先不作任何过滤提取,在软件里测试下可以从该地址中得到哪些地址。如图: [[Image:Locoy_XJRW4.jpg|center]] 点击“开始测试网址采集”按钮后会得到<nowiki>http://roll.news.sina.com.cn/news/gjxw/hqqw/index_1.shtml</nowiki>页面中的所有连接地址。如图: [[Image:Locoy_XJRW5.jpg|center]] 其中有很多链接地址不是想要的,观察下得到得的地址发现想要的地址都包含有“/w/”。如图: [[Image:Locoy_XJRW6.jpg|center]] 点击“返回修改设置”按钮回到添加采集地址界面。在“文章内容页面的地址必要包含”处填写上“/w/”(指定内容页的地址必须包含“/w/”),然后再点“开始测试网址采集”如图: [[Image:Locoy_XJRW7.jpg|center]] 当再次测试得到内容页地址时,就已经过滤了很多地址剩下的地址都是包含“/w/”的,如图: [[Image:Locoy_XJRW8.jpg|center]] 在采集<nowiki>http://roll.news.sina.com.cn/news/gjxw/hqqw/index_1.shtml</nowiki>页面中的地址时,由原先的81条地址过滤后只剩下了40条地址。和页面比较发现这40条地址就是想要的新闻地址。如果在已经得到的地址中,还想排除一些地址可以通过“不得包含”来过滤。假如要排除2010-03-17日的新闻,可以如图设置: [[Image:Locoy_XJRW9.jpg|center]] 测试地址后如图: [[Image:Locoy_XJRW10.jpg|center]] 如果既想过滤掉含有2010-03-17的地址也想过滤掉含有2010-03-18的地址可以通过这样的设置,如果: [[Image:Locoy_XJRW11.jpg|center]] 中间的竖线“|”代表“或”的意思,上述写法就代表了:抓取的地址不得包含2010-03-17或2010-03-18测试地址后会发现抓取到的地址不会含有2010-03-17或2010-03-18。 *'''手动填写链接地址规则:''' 以百度知道的这个页面为例h<nowiki>ttp://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=00</nowiki>,打开这个页面发现一种有76页。其中网址如: <pre> 第一页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=00 第二页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=10 第三页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=20 第四页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=30 ……. </pre> 观察后发现每页网址都是按规律递增的。可以按上面所述方法添加网址但需要添加76个单独网址比较繁琐。这种情况的网站可以使用“批量/多页”来添加网址。在任务中点击“向导添加”按钮后添加网址如图: [[Image:Locoy_XJRW12.jpg|center]] 图中添加的网址 pn=00 部分改为了 pn=(*)n。 “(*)”是通配符,数字变化从0到75表示“(*)”可以代表0,1,2,3…..75,这样拼起的网址就会从pn=00到pn=750正好和要采集的页面及其所有分页。同时也可以如下图所示设置: [[Image:Locoy_XJRW13.jpg|center]] 将“间隔倍数”设为10,pn=(*),得到的地址也会是从pn=00到pn=75。添加完地址后测试网址得到0级网址76个,如图: [[Image:Locoy_XJRW14.jpg|center]] 添加了好网址,接下来提取需要的内容页地址。观察下测试得到的1级网址发现要通过“文章内容页面的地址必须包含\不得包含”提取出想要的地址比较困难。这样的情况用“手工填写连接地址规则”比较方便。如图: [[Image:Locoy_XJRW15.jpg|center]] 点击后,会弹出如下界面: [[Image:Locoy_XJRW16.jpg|center]] 接下来分析下网页的源代码([[html]]代码),在页面上右击[[鼠标]]选择“查看源文件”,如图: [[Image:Locoy_XJRW17.jpg|center]] 打开源文件可以发现要抓取的内容页连接地址都在里面,如图: [[Image:Locoy_XJRW18.jpg|center]] 由网页源代码可见要抓取的每个连接地址都包含在统一的一段HTML代码中。如: <pre> <table border=0 cellpadding=0 cellspacing=0><tr><td class=f> <a href="链接地址" target=_blank> </pre> 这段代码就是提取网址的脚本规则。选中“启用自定义链接格式得到地址”和“禁用系统自动识别链接”,并如下图设置 [[Image:Locoy_XJRW19.jpg|center]] 这样采集器在采集的时候,会从网页源文件中去匹配上图脚本规则里的HTML代码,匹配到一段这样的代码后会将“[参数]”提取出来(网页的地址)传递给实际连接。实际连接得到参数后可以做任意的组合。如实际连接处可以填写:<nowiki>http://zhidao.baidu.com</nowiki>[参数1] 这样拼接起来得到的地址正好是要抓取的地址。可以简化填写[参数1],采集器会自动补上<nowiki>http://zhidao.baidu.com</nowiki>。当采集器会匹配完所有的和[[脚本]]规则中相同的HTML代码,并不是匹配完一次就不再匹配的。测试网址后如图: [[Image:Locoy_XJRW20.jpg|center]] ==采内容== 当所有网址抓取完后就可以开始抓取内容。抓取内容就是采集器请求到内容页后分析内容页的HTML源代码并依据在采集器中的[[标签]]规则设置匹配出相应的数据。 在测试到的地址中,任意选择一个子地址,双击选中的地址或者点击“测试该页”按钮。如图: [[Image:Locoy_XJRW21.jpg|center]] 将会跳转到任务中的“第二步:采集内容规则”如图: [[Image:Locoy_XJRW22.jpg|center]] 在典型页面中会出现刚才选中的网址,这里就是测试采集内容。左边的标签名下面有:出处、时间、作者、内容、标题,一共五个标签,可以对标签进行添加、删除和编辑等操作。每个标签就是采集后得到的一段内容,可以是从页面中截取的内容,也可以是设置的一个固定的值或其他方式得到的值。点测试按钮后在文本框中会得到典型页面(<nowiki>http://zhidao.baidu.com/question/50942867.html?si=1&wtp=wk</nowiki>)测试的效果,如图: [[Image:Locoy_XJRW23.jpg|center]] 由图可见,测试页面后得到的内容没经过任何处理所有的网页HTML代码都在。通过在标签中设置就可以提取出所需的内容。假设现在要提取问题,问题补充和最佳答案。首先添加这个三个标签,可以重新添加标签,也可以在上图中标签里编辑。我们重新添加一下。先将原来的标签删除再点击“添加标签”按钮后在“内容页标签编辑框”中填写上标签名:问题。 如图: [[Image:Locoy_XJRW24.jpg|center]] 再打开<nowiki>http://zhidao.baidu.com/question/50942867.html?si=1&wtp=wk</nowiki> 页面并查看该页的HTML源代码。在源代码中可以找到页面中的问题部分。如图: [[Image:Locoy_XJRW25.jpg|center]] 在“内容页标签编辑框”中进行相应的设置句可以从网页HTML源代码里得到需要的内容。 复制页面HTML中“<div class="f14 B wr" id="question_title"><cq>”后在文本中向上查找发现查找不到与该段相同的代码,说明此处是该段代码第一次出现的地方。如图: [[Image:Locoy_XJRW26.jpg|center]] <nowiki>复制这段代码到“内容有标签编辑框”的“开始字符串处”。 “</cq>”是“<div class="f14 B wr" id="question_title"><cq>”后面第一次出现的地方。复制“</cq>”到“结束字符串”处。如图:</nowiki> [[Image:Locoy_XJRW27.jpg|center]] 点击“确定”按钮后点“测试”按钮得到页面中的数据。如图: [[Image:Locoy_XJRW28.jpg|center]] <nowiki>采集器首先从网页源代码(HTML代码)中从头开始往下查找“开始字符串”中的内容第一次出现的位置(例上面:<div class="f14 B wr" id="question_title"><cq>),当找到与“开始字符串”处相同的内容时,再从找到的位置开始往后查找“结束字符串”处中的内容的(例上面:</cq>)第一次出现的位置(后面再次出现时不再理会)。当找到了“开始字符串”和“结束字符串后”就会提取出它们之间的内容作为采集到的内容。</nowiki> <nowiki>再如来提取最佳答案。新建“答案”标签,分析网页源代码。“<div class="f14 p90 pl10" id="best_answer_content">”是答案得内容前面的一段代码,把它作为“开始字符串”处。通过txt文本中的查找发现这段代码是第一次出现的地方所以可以用做“开始字符串”处的内容。不难发现“<div class="f14 p90 pl10" id="best_answer_content">”后第一次出现的“</div>”正好是在答案内容的结束的地方所以可以将“</div>”当做“结束字符串处的内容”。如图设置。</nowiki> [[Image:Locoy_XJRW29.jpg|center]] [[Image:Locoy_XJRW30.jpg|center]] 保存标签测试后得到的效果如图: [[Image:Locoy_XJRW31.jpg|center]] <nowiki>这样就采集到了最佳答案内容,发现内容中含有“<ca><pre><\pre><\ca>”这样的HTML代码,内容开头和结尾处也有很多的空格,可以在标签设置里将这些没用的代码排除。设置如图:</nowiki> [[Image:Locoy_XJRW32.jpg|center]] <nowiki>其中HTML标签排除中的“所有标签<”是指排除掉采集的内容中的所有“<”括起来的HTML标签。“<ca><pre><\pre><\ca>”就属于“<”类型的标签,所以可以被排除。保存标签测试如图:</nowiki> [[Image:Locoy_XJRW33.jpg|center]] 这样通过排除一些无用的东西基于可以得到了纯净的内容了。 ==参考来源== *http://help.locoy.com/2010/ [[category:火车采集器|C]] {{火车采集器使用手册导航}}
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)
本页使用的模板:
模板:火车采集器使用手册导航
(
编辑
)
模板:火车采集器导航
(
编辑
)