火车采集器/主菜单介绍
来自站长百科
- 操作
- 开始采集(S):开始选定的任务或选定的站点下的所有任务采集。
- 停止采集(P):停止选定的任务的采集工作。
- 继续采集(J):当任务处于暂停状态时,可以继续该任务采集工作。
- 重启程序(R):退出并重新打开程序。
- 退出程序(X):确认无任务运行或强行退出程序运行。
- 任务
- 新建任务:打开新建任务窗口,创建采集任务
- 编辑任务:编辑选中的任务规则
- 删除任务:(支持多选)删除选中的任务规则(支持多选)
- 导入规则:导入.ljob任务规则文件,创建任务
- 导出规则:导出选中的任务规则(支持多选)
- 复制任务:复制任务规则后,请到某一个站点上执行粘贴操作。
- 剪贴任务:剪切任务规则后,请到某一个站点上执行粘贴操作。
- 粘贴任务:粘贴复制的任务到指定站点上.
- 清空任务地址库:清空所有的用于对比去除重复的任务采集数据地址库。
- 清空本地采集数据:清空本地任务所有的采集数据。
- 标志内容发布状态未发:设置任务内所有采集数据发布状态为未发。
- 标志内容发布状态已发:设置任务内所有采集数据发布状态为已发。
- 本地编辑任务采集数据:打开窗体设计器,本地编辑已经采集下来的数据。
- 站点
- 新建站点:新建一任务管理站点,以下任务自动集成该站点配置。
- 编辑站点:编辑站点属性及相关规则配置。
- 删除站点:删除站点(需先删除该站点下属所有任务)。
- 导入站点规则:导入.lsite站点规则文件。
- 导出站点规则:导出站点属性为.lsite站点规则文件。
- 导入任务规则:至该站点将.ljob任务规则文件导入至选定的站点内。
- 删除站点地址库:删除该站点所属的所有任务所采集过的采集地址库。
- 视图
- 站点任务列表树:如果左边列表关闭时,可以在这里打开站点列表树窗口。
- 起始页欢迎窗口:如果任务运行显示区内起始页欢迎窗口关闭时,可以在这里打开欢迎页窗口。
- 浏览官方论坛:打开内置浏览器浏览火车采集器官方论坛。
- 打开
- 任务本地采集数据管理:打开窗体设计器,本地编辑选中的任务已经采集下来的数据。
- 采集多页管理面板:同时采集多页的多页设置管理器,用户创建,修改和删除多页设置。
- 导入Web在线发布模块:导入Web在线发布模块(.cwr文件),此操作等同于将文件直接复制在程序目录下Module文件夹下。
- 导入数据库发布模块:导入数据库发布模块(.jhc文件),此操作等同于将文件直接复制在程序目录下Module文件夹下。
- 打开文件夹:打开程序目录及System.User.Module等常用目录。
- 选项
系统全局设置
- 同时运行最大任务个数:同时可以运行的任务数目(站点下的任务)。默认设置为3,也就是可以同时运行三个任务。每个任务都可以设置采集不同的站点发布到不同的站点。
- 默认采集最大分页数:这里不是指网址列表页的分页数,而是采集内容时内容页的分页数。
- 请求超时放弃(秒):在请求一个网页时当30秒(默认设置为30秒)未请求成功就放弃请求该网页开始请求下个网页。抓取网址,抓取内容均有效。
- 保存二级网址时过滤重复网址:在网址列表页中提取内容页地址时,如提取出有重复的内容页地址,可以选择过滤掉重复的内容页地址。
- 是否忽略大小写:可以选择在采集内容时标签里的截取内容的规则表达式是否忽略大小写。
- 任务运行完成后注销运行界面:每个任务采集时都有一个采集进度的任务窗口,默认是任务采集完毕后采集窗口仍然显示在软件界面中。可以选择任务采集完毕后该任务采集的进度窗口自动关闭。
- 任务运行停止播放声音提示:可以选择任务采集完成后是否播放声音提示。
任务采集发布
- 循环采集时内容合并的间隔符:在采集内容页内容当用到循环采集时可以根据需求设置循环采集到的数据之间的分隔符。如在采集论坛的帖子时可以用循环采集到每个回复的内容,这些回复的内容就是用循环采集得到的,回复与回复之间的分隔符就可以通过这里来设置。
- 保存为TXT文件时删除HTML标签:在发布数据将数据保存到本地的TXT文本时可以选择是否删除数据中的HTML标签。
- 模拟客户浏览/搜索引擎蜘蛛爬行(发布时不启用该配置):采集器在访问被采集网页时可以模拟baidu蜘蛛、google蜘蛛和yahoo蜘蛛,默认使用用户本地浏览器访问。
- 本机浏览器User-Agent:这个可以获取到本机浏览器的User-Agent,也可以设置其他的User-Agent。
- 自动转换为拼音选项:当设置把采集来的中文转换为拼音时起的作用。默认设置为全字拼音,也可以设置为只获取首字母。全字拼音是将每个汉字完全转换成拼音;只获取首字母是将每个汉字转换成拼音后只保留拼音的第一个字母。
- 拼音大小写选项:可以将采集来的汉字转换成拼音时设置拼音的首字母大写、全大写和全小写。
- 拼音最大长度:就是拼音字母的个数,当拼音字母个数超过设置的个数将会把多余的字面截取掉。
- 连续重复采集多少条后跳过采网址:当采集器运行一个任务在采集一个网站相关内容时先抓取内容页的地址(称为:采网址)并将抓取的地址保存到该任务的站点的数据库中(任务所在的站点),当所有内容页地址都抓取完后才开始根据内容页地址逐一采集内容。而运行一个任务时首先要采集内容页地址,当采集到一条地址后发现采集器站点数据库中已经有该条地址那么就会检测出该地址已经存在(默认设置为检测重复地址,也可以设置不检测),当采集器发现连续采集10条地址都已经存在时(默认设置是10,可以根据自己需要修改),就会停止采集内容页地址开始采集内容步骤。
- 中文URL服务器编码设置:采集器在采集网址时,可以先将网址进行编码后再去采集网址。可以选择多种编码方式。常见的如网址中含有汉字时,有的需要对网址进行某种方式的编码再采集。
- 对不符合标签内容包含条件的项:在采集内容时,可以设置采集到的数据是否满足一个条件,比如必须包含某个字,不得包含某个字等条件。当不符合设置的条件时可以选择是否将不符合条件的数据直接删除,还是设置为未采状态。
HTTP代理设置
可以在此处设置代理服务器,采集器就会以设置的代理身份去采集了。代理地址需要用户自己提供,采集器暂不支持自动搜寻代理地址。
下载组件配置
在采集文件时候的一些相关设置。默认是用火车采集器下载文件,也可以选择用迅雷,FlashGet这两种下载工具下载。在使用下载工具下载时采集器会在指定目录生成文件的下载地址列表,然后手工将下载地址列表一次导入到下载工具中进行下载。
个人使用偏好
可以根据自己的喜好个性化设置软件的一些配置。
文件自动上传
FTP文件上传在采集器的每个任务中设置的。可以通过在这里设置好,从而使每新建个任务时任务中FTP文件上传的设置都已经如这里所设置的。
内容自动分词
采集器分析采集的内容,按词频,词性提取关键字。采集器的词库分为用户词库和系统词库。
用户可以自己添加词语也可以屏蔽一些词语。自己添加的词语是在采集器根目录的User/UserDict.txt位置。禁用的词语是在采集器目录的User/NotAllowedDict.txt位置。词语设置每行一个。
数据处理设置
全局关键字替换功能可以将采集到的数据按词库中所设置替换词语的进行替换。替换过程是在词库中的词语中由上而下依次替换。其中词库可以根据需求增减,词库的位置在采集器的根目录下User\ReplaceWords.txt文件中。
HTTP请求设置
这里是HTTP请求中的高级设置,一般用默认设置即可。如遇到特殊网站需要改变默认设置的,可以在此修改。
- 工具
- Web在线发布模块编辑工具:编辑web发布到网站.cwr模块文件
- 数据库发布模块编辑工具:编辑发布数据到数据库.jhc模块文件。
- Web在线发布配置管理:管理发布到网站配置。
- 数据库直接入库配置管理:管理发布到数据库配置。
- 编辑用户词库编辑用户自定义词库,该文件实际位置:User/UserDict.txt,一行一个单词。
- 获取源代码、模拟查看、提交工具
- 火车采集器日志统计工具
- 迅雷,FlashGet地址加密解密工具
- 火车采集器任务批量处理工具
- 压缩文件批处理工具
- 网站链接增强生成工具
- 压缩或优化所有任务数据库
- 刷新站点任务列表
- 全部完成后自动关机
- 删除临时及测试数据
- 高级
- 自动更新管理器(F) :管理自动更新设置,添加,查看,修改,删除自动更新设置
- 任务队列管理器(D): 管理任务队列状态,查看运行情况,将任务加入或移出队列运行
- 任务运行日志管理器(L): 管理任务运行日志,查看各个任务,各个时段采集运行情况
- 任务自动更新自动启动总开关:是否启用自动更新的总开关,不选中则不启用自动更新
- 火车采集器插件管理器(P):C#,PHP插件统一管理器, 添加,查看,调试,修改运行插件。
- 中文分词效果测试(W):查看中文分词分词效果,管理用户词库及重新加载词库。
- 中文->英文翻译测试(T):查看将中文翻译成英文的效果。
- 更改数据保存数据库(C) :修改采集到本地的数据保存数据库类型及任务数据库结构转换。
- 帮助
- 帮助文档(F):程序目录下离线版用户手册help.chm。
- 在线帮助:http://help.locoy.com
- 联系我们:可以通过以上Email与官方取得联系。
- 在线升级:检测是否存在软件更新,存在则自动升级更新到最新版
- Bug反馈:在线提交Bug及建议到官方程序后台
- 关于LocoySpider