火车采集器/拓展插件
来自站长百科
火车采集器支持丰富的插件扩展,用户使用插件,可以完成更多的任务.目前可以使用插件的位置有以下几个
以下是这几个插件在采集器里处理时所处的位置.
- 采网址:采集器采网址时下载到的所有的网页的源代码,都先经过此插件处理,处理后返回数据给采集器,采集器再进行分析网址,提取内容等操作.
- 采内容:采默认页时将默认页下载完成后,该插件处理下载的源代码,处理完成后采集器进行分页,多页的分析和下载以及其它操作.
- 采多页:在处理每一个多页时,调用该插件处理网页源代码.
- 保存时:在采集器下载分析完成后,在即将保存数据到数据库之前,在处理符合不符合记录之前使用该插件处理数据.
插件处理方式PHP的请考虑默认的 PHP-Demo.php,C#的请打开插件管理器,新建C#插件,然后按默认的开发模板进行开发.