采集

来自站长百科
跳转至: 导航、​ 搜索

采集,这里的采集指的是网站内容的采集,故又称为:网站采集。网站采集是一种网站内容编辑模式。采集是复制粘贴的升级,指利用工具,按照一定的规则,定时或一次性批量的复制其他网站的内容。采集一般的步骤是设置采集规则,采集目标网站,然后程序去自动抓取内容,写入网站数据库。采集与离线浏览器下载不同,离线浏览器只是把网站所有的内容下载到本地硬盘,而采集只抓取有用的内容,然后一般是写入网站数据库,和网站是一体的,就像是一个机器人自动的为你的网站添加内容。

采集的方式[ ]

采集一般用如下方式:

CMS自带采集系统[ ]

目前国内几大CMS系统都自带采集模块,例如 动易 帝国CMS DedeCMS等等。

第三方采集软件[ ]

有些专门开发的采集软件,典型的有火车头采集器。

采集的优缺点[ ]

优点:

  • 自动添加网站内容,维护成本低
  • 可在短期内迅速增加网站内容

缺点:

  • 涉及版权问题。目前国内对这方面不重视,但是采集就是对所采集网站的劳动成果的窃取,如果一个网站一直依靠采集是无法发展壮大的
  • 服务器消耗资源大。如果是用CMS自带模块进行采集,采集之后生成静态页面,资源消耗是非常厉害的,所以不少主机商是禁止采集的。
  • 大量重复内容,容易被搜索引擎惩罚
  • 可能遭到所采集网站的各种报复,例如起诉,攻击等等。

采集的版权及道德问题[ ]

  • 采集一般侵犯了对方网站的版权
  • 采集增加了对方服务器的资源消耗,如果对方是个人网站,使用的是虚拟主机,很可能引起资源消耗太大,被主机商关闭空间
  • 采集窃取了对方的劳动成果,并且在搜索引擎等地方与对方形成竞争关系