火车采集器/编辑任务中常见问题
来自站长百科
- 标题前面大量空白,应该如何去除
答:程序里有html过滤选项,可以选中过滤这些空白字符 ,如果有些空白字符不在html过虑里,可以在过滤选项里添加那些字符。
- 同一个页面,很多相同内容,怎么分做为多条记录保存?
答:程序有循环匹配的功能,在选中循环后,再选下边的添加为新记录就可以了。
- 如何把采集内容页的网址也采集下来 ?
答:程序默认是将采集页的网址保存在数据库里,在模块或模板里可以使用[采集页地址] 这个标签来将它发布或显示出去。
- 内容页上有个链接,如何把这个链接页面上的内容采过来?
- 采集要登陆的网站怎么办?
答:在采集网址那一块,可以选择是默认获取cookie或者是手动获取登陆信息。获取到正确的cookie后,就可以了.
- 采集时出现乱码,怎么办?
答:程序默认是自动识别网页编码。如果有些网页编码识别出错,请在文件保存及部分高级设置那里手动指定编码。
- 采集网页源码中需要的内容结尾不固定怎么办?网站有多个风格怎么办?
答:这种情况下,使用正则表达式就可以很好的解决问题。 这个适于有相关经验的朋友。具体是在编辑规则时,编辑标签那里,选"使用正则匹配内容“。
- 如何过滤空格或回车等字符?
答:在任务的标签编辑里,在过滤那里,敲个回车进去程序会过滤掉回车符,敲个空格进去会过滤空格,以此类推。
- 采集器.是先排除,还是先替换啊?
答:先排除再替换。
- 为什么不能下载文件或论坛附件?
答:因为这功能在个人版以上才有,免费版只能下载图片和flash.
- 循环采集时,分页内容合并链接代码不起作用了?
答:这个是程序特意设计的,因为循环时,一定是用间隔符连接的,比如采论坛回复时需要使用循环,一个主题下主题及所有的回复和是应放在一块的。
- 对于网址深度多于2级的怎么办?
答:火车采集器有网址导出导入的功能,可以用这个实现无限级的网址采集。在测试网址那一块,选测试网址,然后就可以导出二级或二级网址。
- 采集器里哪里支持正则表达式?
答:一是规则制作那块,使用content来存储获得的内容如(?<content>\d+),这个是获取数字的。二是多页那块网址替换那里,是用$1,$2这样的形式来在下边引用。