火车采集器/外部编程插件开发

来自站长百科
跳转至: 导航、​ 搜索

火车采集器 | 安装 | 主程序 | 子程序 | 应用拓展 | 模块开发 | FAQ

使用外部编程插件,可以对数据做任意想要的处理。

处理过程是火车采集器先获取网页内容,然后将网页内容,网页地址等数据传递给插件,插件可以针对传送过来的数据做处理,然后返回一定格式的数据给采集器.目前火车采集器里有四个位置可以使用插件.

Locoy WBBCCJKF1.png
  • 采网址:是采集器对网址列表里的网址请求完数据未分析源码前给插件使用.
  • 采内容:采集默认页后返回源代码给插件处理.
  • 采多页:在多页采集时每个页面都将使用.
  • 保存时:在采集器处理完数据,保存数据到数据库之前,在网页内容符合排除条件之前处理.

具体的插件开发请配合插件管理器进行开发.

Locoy WBBCCJKF2.png

具体插件的开发,请点击插件管理器里的新建按钮,即可以查看到相应的开发文件和开发示例.

如下是几个简单的PHP插件中可能使用到的小程序.

第一个,如果标题小于一定字节,就用其它的字符替换掉标题。

      $num=strlen($LabelArray['内容']);
       if ($num<10) //小于10字节
        {
        $LabelArray['内容']='替换的内容';//如果小于上面设置的多少字节,就替换成这个
}

第二个:普通地址与迅雷专用地址互相转化

  
$LabelArray['迅雷地址解密']=substr(base64_decode(str_ireplace("thunder://","",$LabelArray['迅雷地址解密'])),2,-2);      
$LabelArray['迅雷地址加密']="thunder://".base64_encode("AA".$LabelArray['迅雷地址加密']."ZZ");       
 

第三个:使用php计算出售价格

<?php
$LabelArray['价格']=$LabelArray['价格']*2+100-90;
    //价格标签为纯数字,可以执行常规的一些运算,主要用于采集的商品价格自动增加出售价使用
?> 
 

第四个:使用标题的MD5值做随机文件名使用

<?php
$date = date(DATE_RFC822);
$file=$LabelArray['标题'];
$LabelArray['随机文件名']=MD5($file."$date");
    //这样的结果就是标题文字+当前时间的MD5值,做为部分程序的随机文件名使用比较好,重复机率比较小了
?> 

第五个:随机打乱行号

<?php
        $arr = explode("\n",$LabelArray['内容']); //用换行分隔形式一数组
        shuffle($arr);//打乱数组
       $LabelArray['内容']= implode("\n",$arr);//重新做成字符串
?>   

这些只做参考,更多功能,请编程实现。

参考来源[ ]

火车采集器使用手册导航

安装

系统安装

主程序

主程序|主菜单|命令行启动|随机文件夹保存数据|正则匹配模式采集数据|采集记录筛选|代理服务器采集数据|POST方式获得网址|拓展插件|分页采集|多页采集|数据导出|多任务多线程|手动链接格式设置|循环匹配采集|网站登陆采集|列表缩略图及标签采集|html标签排除|全局词语替换|首图缩略|FTP文件上传|附件上传|本地数据编辑|下载导出|图片下载|Flash文件下载|任意格式文件下载|采集数据导入数据库|任务定时自动更新|任务运行日志|自动中文分词|自动摘要和拼音|前后截取模式|采集任务新建

子程序

源代码获取与模拟|Web在线发布模块编辑器|Web在线发布配置管理|数据库发布模块编辑器|数据库发布配置管理|工具箱|编程插件管理|翻译测试|中文分词测试|自动运行管理器 任务队列管理器|自动升级程序

应用拓展

数据库发布模块编辑器制作|外部编程插件开发

模块开发

DedeCMS文章模块|PHPWind论坛模块|Discuz论坛模块

FAQ

使用前常见问题|编辑任务中常见问题|发布失败常见问题|使用中常见问题|VIP版本常见问题