火车采集器/外部编程插件开发
来自站长百科
使用外部编程插件,可以对数据做任意想要的处理。
处理过程是火车采集器先获取网页内容,然后将网页内容,网页地址等数据传递给插件,插件可以针对传送过来的数据做处理,然后返回一定格式的数据给采集器.目前火车采集器里有四个位置可以使用插件.
- 采网址:是采集器对网址列表里的网址请求完数据未分析源码前给插件使用.
- 采内容:采集默认页后返回源代码给插件处理.
- 采多页:在多页采集时每个页面都将使用.
- 保存时:在采集器处理完数据,保存数据到数据库之前,在网页内容符合排除条件之前处理.
具体的插件开发请配合插件管理器进行开发.
具体插件的开发,请点击插件管理器里的新建按钮,即可以查看到相应的开发文件和开发示例.
如下是几个简单的PHP插件中可能使用到的小程序.
第一个,如果标题小于一定字节,就用其它的字符替换掉标题。
$num=strlen($LabelArray['内容']); if ($num<10) //小于10字节 { $LabelArray['内容']='替换的内容';//如果小于上面设置的多少字节,就替换成这个 }
第二个:普通地址与迅雷专用地址互相转化
$LabelArray['迅雷地址解密']=substr(base64_decode(str_ireplace("thunder://","",$LabelArray['迅雷地址解密'])),2,-2); $LabelArray['迅雷地址加密']="thunder://".base64_encode("AA".$LabelArray['迅雷地址加密']."ZZ");
第三个:使用php计算出售价格
<?php $LabelArray['价格']=$LabelArray['价格']*2+100-90; //价格标签为纯数字,可以执行常规的一些运算,主要用于采集的商品价格自动增加出售价使用 ?>
第四个:使用标题的MD5值做随机文件名使用
<?php $date = date(DATE_RFC822); $file=$LabelArray['标题']; $LabelArray['随机文件名']=MD5($file."$date"); //这样的结果就是标题文字+当前时间的MD5值,做为部分程序的随机文件名使用比较好,重复机率比较小了 ?>
第五个:随机打乱行号
<?php $arr = explode("\n",$LabelArray['内容']); //用换行分隔形式一数组 shuffle($arr);//打乱数组 $LabelArray['内容']= implode("\n",$arr);//重新做成字符串 ?>
这些只做参考,更多功能,请编程实现。