首页站长新闻DEDECMS采集程序优化 采集只需两步

DEDECMS采集程序优化 采集只需两步

2013-02-03 33

        DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。比如58同城首页,使用discuz的下载函数采集过来的都是一片空白或者警告内容,但是使用dedecms的下载完全可以下载下来。

DEDE采集程序原理

        DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处——不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。

修改文件dedehttpdown.class.php

        要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:

DEDECMS采集程序优化 采集只需两步

        (2)第 285行$this->m_html .= fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。

DEDECMS采集程序优化 采集只需两步

使用方法:

★ $remoteURL = ‘http://www.***.com/info/fabu/’;

★ $dh = new DedeHttpDown();

★ $dh->OpenUrl($remoteURL);

★ $dh->dataLimit = 1024;

★ $remoteHTML = $dh->GetHtml();

DEDECMS采集程序优化 采集只需两步

        我们只需要在 $dh->OpenUrl($remoteURL);背后加入 $dh->dataLimit = 1024;(你想采集的字节大小)即可。  通过这样的方法,我们可以更节约服务器资源。

来源:www.35dalu.com

  • 广告合作

  • QQ群号:707632017

温馨提示:
1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。 2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。

相关文章