采集
来自站长百科
采集,这里的采集指的是网站内容的采集,故又称为:网站采集。网站采集是一种网站内容编辑模式。采集是复制粘贴的升级,指利用工具,按照一定的规则,定时或一次性批量的复制其他网站的内容。采集一般的步骤是设置采集规则,采集目标网站,然后程序去自动抓取内容,写入网站数据库。采集与离线浏览器下载不同,离线浏览器只是把网站所有的内容下载到本地硬盘,而采集只抓取有用的内容,然后一般是写入网站数据库,和网站是一体的,就像是一个机器人自动的为你的网站添加内容。
采集的方式[ ]
采集一般用如下方式:
CMS自带采集系统[ ]
目前国内几大CMS系统都自带采集模块,例如 动易 帝国CMS DedeCMS等等。
第三方采集软件[ ]
有些专门开发的采集软件,典型的有火车头采集器。
采集的优缺点[ ]
优点:
- 自动添加网站内容,维护成本低
- 可在短期内迅速增加网站内容
缺点:
- 涉及版权问题。目前国内对这方面不重视,但是采集就是对所采集网站的劳动成果的窃取,如果一个网站一直依靠采集是无法发展壮大的
- 服务器消耗资源大。如果是用CMS自带模块进行采集,采集之后生成静态页面,资源消耗是非常厉害的,所以不少主机商是禁止采集的。
- 大量重复内容,容易被搜索引擎惩罚
- 可能遭到所采集网站的各种报复,例如起诉,攻击等等。
采集的版权及道德问题[ ]
- 采集一般侵犯了对方网站的版权
- 采集增加了对方服务器的资源消耗,如果对方是个人网站,使用的是虚拟主机,很可能引起资源消耗太大,被主机商关闭空间
- 采集窃取了对方的劳动成果,并且在搜索引擎等地方与对方形成竞争关系