Apache Hadoop

来自站长百科
跳转至: 导航、​ 搜索

Apache Hadoop 软件库是一个框架,允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是旨在检测和处理应用程序层的故障,因此在计算机集群上提供高可用性服务,每台计算机都可能容易出现故障。

概述[ ]

许多Apache Hadoop大数据服务提供商都竞相争取企业客户。毕竟,Apache Hadoop大数据不仅仅是一种存储最大数据集合的解决方案,而是需要充分利用尽可能多的数据管理。如果你正在寻找部署Apache Hadoop大数据的解决方案,单纯的Apache Hadoop定义就不够了。你需要一个能够适应不断增长数据的Apache Hadoop数据中心基础设施。

Apache Hadoop的分布式文件系统开启了一个新时代,利用相对廉价的本地磁盘群集,以成本效益的方式进行大规模数据分析。无论企业增长速度有多快,Apache Hadoop及相关的大数据解决方案可以确保持续地分析各种原始数据。

然而,一旦你开始使用Apache Hadoop大数据,传统的数据管理问题就会重新浮现,如数据安全性、可靠性、性能和数据保护。尽管Apache Hadoop分布式文件系统已经相当成熟,但仍有许多方面需要进一步改进以满足企业需求。

事实上,当企业开始将Apache Hadoop大数据用于生产数据收集时,存储集群上的产品可能并没有提供最低成本的解决方案。因此,关键在于大企业如何充分利用Apache Hadoop大数据。我们不仅需要简单地复制、移动和备份Apache Hadoop大数据,而是需要以安全、谨慎的方式管理这些数据,甚至需要更多功能。与传统的小规模Apache Hadoop数据库不同,如果我们的关键业务流程依赖于新的Apache Hadoop大数据存储,我们将需要其提供的所有操作弹性和高性能。

发展历程[ ]

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop 最初只与网页索引有关,迅速发展成为分析大数据的领先平台。

目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。

核心组件[ ]

Hadoop的核心组件包括了分布式文件系统HDFS、MapReduce处理框架以及多种数据仓库工具和分布式数据库。以下是对Hadoop各个核心组件的详细介绍:

  • HDFS(Hadoop Distributed File System):作为Hadoop的基础,它是一个高度可靠、高吞吐量的分布式文件系统,设计用来存储大规模的数据集。它通过将数据分成块并分布在集群中的多个节点上来工作。
  • MapReduce:这是一个编程模型,用于处理和生成大型数据集。它由JobTrackers(负责作业调度和监控)和TaskTrackers(负责执行任务)组成。MapReduce能够处理海量数据,并将这些数据处理过程分布在整个Hadoop集群上执行。
  • YARN(Yet Another Resource Negotiator):它是资源管理平台,负责在Hadoop集群中管理和调度计算资源。
  • HBase:基于BigTable概念开发的数据存储系统,它是一个分布式、版本化、非关系型的数据库,适用于随机实时读/写访问大规模数据集。
  • Hive:它是一个数据仓库工具,提供类似SQL的查询语言,称为HiveQL,转换这些查询为MapReduce任务来处理存储在Hadoop文件系统上的大数据。

优势[ ]

1、可靠性:Hadoop设计时考虑到了硬件故障的可能性,因此它通过在集群中维护多个数据副本来确保数据的可靠性。这意味着即使某个节点失败,数据仍然可用,并且可以在其他节点上重新启动任务。

2、高效性:Hadoop通过并行处理来提高处理速度。它将大型任务分解成多个子任务,并在集群中的多个节点上同时执行这些任务,从而加快了处理速度。此外,Hadoop的MapReduce框架能够有效地处理大规模数据集。

3、可伸缩性:Hadoop能够轻松处理PB级别的数据。由于其分布式架构,可以根据需要扩展集群规模,以应对不断增长的数据量。

4、低成本:由于Hadoop是开源的,并且建立在廉价的硬件上,因此它的成本相对较低。此外,Hadoop社区提供了大量的支持和资源,使得任何人都能够轻松地使用和部署Hadoop。

相关条目[ ]