站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
Apache Hadoop
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
Apache Hadoop 软件库是一个框架,允许使用简单的编程模型跨[[计算机]]集群对大型数据集进行分布式处理。它旨在从单个[[服务器]]扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是旨在检测和处理[[应用程序]]层的故障,因此在计算机集群上提供高可用性服务,每台计算机都可能容易出现故障。 == 概述 == 许多Apache Hadoop[[大数据]]服务提供商都竞相争取企业客户。毕竟,Apache Hadoop大数据不仅仅是一种存储最大数据集合的解决方案,而是需要充分利用尽可能多的数据管理。如果你正在寻找部署Apache Hadoop大数据的解决方案,单纯的Apache Hadoop定义就不够了。你需要一个能够适应不断增长数据的Apache Hadoop数据中心基础设施。 Apache Hadoop的分布式文件系统开启了一个新时代,利用相对廉价的本地磁盘群集,以成本效益的方式进行大规模数据分析。无论企业增长速度有多快,Apache Hadoop及相关的大数据解决方案可以确保持续地分析各种原始数据。 然而,一旦你开始使用Apache Hadoop大数据,传统的数据管理问题就会重新浮现,如数据安全性、可靠性、性能和数据保护。尽管Apache Hadoop分布式文件系统已经相当成熟,但仍有许多方面需要进一步改进以满足企业需求。 事实上,当企业开始将Apache Hadoop大数据用于生产数据收集时,存储集群上的产品可能并没有提供最低成本的解决方案。因此,关键在于大企业如何充分利用Apache Hadoop大数据。我们不仅需要简单地复制、移动和[[备份]]Apache Hadoop大数据,而是需要以安全、谨慎的方式管理这些数据,甚至需要更多功能。与传统的小规模Apache Hadoop[[数据库]]不同,如果我们的关键业务流程依赖于新的Apache Hadoop大数据存储,我们将需要其提供的所有操作弹性和高性能。 == 发展历程 == Hadoop原本来自于[[谷歌]]一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop 最初只与网页索引有关,迅速发展成为分析大数据的领先平台。 目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家[[云计算]]基础设施公司,在2012年,该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。 == 核心组件 == Hadoop的核心组件包括了分布式文件系统HDFS、MapReduce处理框架以及多种数据仓库工具和分布式数据库。以下是对Hadoop各个核心组件的详细介绍: * HDFS(Hadoop Distributed File System):作为Hadoop的基础,它是一个高度可靠、高吞吐量的分布式文件系统,设计用来存储大规模的数据集。它通过将数据分成块并分布在集群中的多个节点上来工作。 * MapReduce:这是一个[[编程]]模型,用于处理和生成大型数据集。它由JobTrackers(负责作业调度和监控)和TaskTrackers(负责执行任务)组成。MapReduce能够处理海量数据,并将这些数据处理过程分布在整个Hadoop集群上执行。 * YARN(Yet Another Resource Negotiator):它是资源管理平台,负责在Hadoop集群中管理和调度计算资源。 * HBase:基于BigTable概念开发的数据存储系统,它是一个分布式、版本化、非关系型的数据库,适用于随机实时读/写访问大规模数据集。 * Hive:它是一个数据仓库工具,提供类似[[SQL]]的查询语言,称为HiveQL,转换这些查询为MapReduce任务来处理存储在Hadoop文件系统上的大数据。 == 优势 == 1、可靠性:Hadoop设计时考虑到了硬件故障的可能性,因此它通过在集群中维护多个数据副本来确保数据的可靠性。这意味着即使某个节点失败,数据仍然可用,并且可以在其他节点上重新启动任务。 2、高效性:Hadoop通过并行处理来提高处理速度。它将大型任务分解成多个子任务,并在集群中的多个节点上同时执行这些任务,从而加快了处理速度。此外,Hadoop的MapReduce框架能够有效地处理大规模数据集。 3、可伸缩性:Hadoop能够轻松处理PB级别的数据。由于其分布式架构,可以根据需要扩展集群规模,以应对不断增长的数据量。 4、低成本:由于Hadoop是[[开源]]的,并且建立在廉价的硬件上,因此它的成本相对较低。此外,Hadoop社区提供了大量的支持和资源,使得任何人都能够轻松地使用和部署Hadoop。 == 相关条目 == * [[云存储软件]] * [[Ceph]] * [[MinIO]] * [[GlusterFS]] * [[OpenIO]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)