编辑“火车采集器/采集任务新建”（章节）

==采内容==
当所有网址抓取完后就可以开始抓取内容。抓取内容就是采集器请求到内容页后分析内容页的HTML源代码并依据在采集器中的[[标签]]规则设置匹配出相应的数据。

在测试到的地址中，任意选择一个子地址，双击选中的地址或者点击“测试该页”按钮。如图：
[[Image:Locoy_XJRW21.jpg|center]]

将会跳转到任务中的“第二步：采集内容规则”如图：
[[Image:Locoy_XJRW22.jpg|center]]

在典型页面中会出现刚才选中的网址，这里就是测试采集内容。左边的标签名下面有：出处、时间、作者、内容、标题，一共五个标签，可以对标签进行添加、删除和编辑等操作。每个标签就是采集后得到的一段内容，可以是从页面中截取的内容，也可以是设置的一个固定的值或其他方式得到的值。点测试按钮后在文本框中会得到典型页面（<nowiki>http://zhidao.baidu.com/question/50942867.html?si=1&wtp=wk</nowiki>）测试的效果，如图：
[[Image:Locoy_XJRW23.jpg|center]]

由图可见，测试页面后得到的内容没经过任何处理所有的网页HTML代码都在。通过在标签中设置就可以提取出所需的内容。假设现在要提取问题，问题补充和最佳答案。首先添加这个三个标签，可以重新添加标签，也可以在上图中标签里编辑。我们重新添加一下。先将原来的标签删除再点击“添加标签”按钮后在“内容页标签编辑框”中填写上标签名：问题。

如图：
[[Image:Locoy_XJRW24.jpg|center]]

再打开<nowiki>http://zhidao.baidu.com/question/50942867.html?si=1&wtp=wk</nowiki> 页面并查看该页的HTML源代码。在源代码中可以找到页面中的问题部分。如图：
[[Image:Locoy_XJRW25.jpg|center]]

在“内容页标签编辑框”中进行相应的设置句可以从网页HTML源代码里得到需要的内容。
复制页面HTML中“<div class="f14 B wr" id="question_title"><cq>”后在文本中向上查找发现查找不到与该段相同的代码，说明此处是该段代码第一次出现的地方。如图：
[[Image:Locoy_XJRW26.jpg|center]]

<nowiki>复制这段代码到“内容有标签编辑框”的“开始字符串处”。 “</cq>”是“<div class="f14 B wr" id="question_title"><cq>”后面第一次出现的地方。复制“</cq>”到“结束字符串”处。如图：</nowiki>
[[Image:Locoy_XJRW27.jpg|center]]

点击“确定”按钮后点“测试”按钮得到页面中的数据。如图：
[[Image:Locoy_XJRW28.jpg|center]]

<nowiki>采集器首先从网页源代码（HTML代码）中从头开始往下查找“开始字符串”中的内容第一次出现的位置（例上面：<div class="f14 B wr" id="question_title"><cq>），当找到与“开始字符串”处相同的内容时，再从找到的位置开始往后查找“结束字符串”处中的内容的（例上面：</cq>）第一次出现的位置（后面再次出现时不再理会）。当找到了“开始字符串”和“结束字符串后”就会提取出它们之间的内容作为采集到的内容。</nowiki>

<nowiki>再如来提取最佳答案。新建“答案”标签，分析网页源代码。“<div class="f14 p90 pl10" id="best_answer_content">”是答案得内容前面的一段代码，把它作为“开始字符串”处。通过txt文本中的查找发现这段代码是第一次出现的地方所以可以用做“开始字符串”处的内容。不难发现“<div class="f14 p90 pl10" id="best_answer_content">”后第一次出现的“</div>”正好是在答案内容的结束的地方所以可以将“</div>”当做“结束字符串处的内容”。如图设置。</nowiki>
[[Image:Locoy_XJRW29.jpg|center]]

[[Image:Locoy_XJRW30.jpg|center]]

保存标签测试后得到的效果如图：
[[Image:Locoy_XJRW31.jpg|center]]

<nowiki>这样就采集到了最佳答案内容，发现内容中含有“<ca><pre><\pre><\ca>”这样的HTML代码，内容开头和结尾处也有很多的空格，可以在标签设置里将这些没用的代码排除。设置如图：</nowiki>
[[Image:Locoy_XJRW32.jpg|center]]

<nowiki>其中HTML标签排除中的“所有标签<”是指排除掉采集的内容中的所有“<”括起来的HTML标签。“<ca><pre><\pre><\ca>”就属于“<”类型的标签，所以可以被排除。保存标签测试如图：</nowiki>
[[Image:Locoy_XJRW33.jpg|center]]

这样通过排除一些无用的东西基于可以得到了纯净的内容了。