2.4 Hadoop发行版选择

2016-03-04 01:46:56 4,723 0

Hadoop发行版可以理解为Redhat、Ubuntu与Linux的关系,就是第三方公司在官方开源的Hadoop版本上添加一些新的特性和功能,供用户使用并提供技术支持。

目前提供第三方发行版的公司主要有:Coudera、Hortonworks、Intel、IBM和华为

一、目前主流的发行版

Cloudera

2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,主要是包括支持,咨询服务,培训。2009年hadoop的创始人 Doug Cutting也任职于 Cloudera 公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support。CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对hadoop的技术支持。cloudera的标价为每年每个节点4000美元。

其优势为:

·Cloudera的Hadoop管理工具非常成熟

·Cloudera还提供了应用导航的功能

·Cloudera在Hadoop领域是非常有经验的

·Cloudera对于Hadoop的发展起着重要作用

·Cloudera拥有广泛的合作伙伴支持

·Cloudera专攻Hadoop,同时资金充沛

·Hadoop最初的作者doug cutting和hadoop权威指南的作者Tom white都加入了Cloudera,Cloudera的技术实力不容小觑。

Hortonworks

2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建的公司。公司成立之初吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发 Hadoop,这些工程师贡献了hadoop 80%的代码。。雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,HDP除了常见的项目外还包含了Ambari,一款开源的安装和管理系统。HCatalog,一个元数据管理系 统。

优势为:

·Hortonworks拥有大量的Hadoop专家,同时对Hadoop的发展也起到了重要作用

·Hortonworks也拥有广泛的合作伙伴支持

·Hortonworks与Cloudera很相似,也专攻Hadoop

·Hortonworks对专有代码的依赖低于Cloudera,因此用户不必担心“厂商锁定”问题。

Intel

Intel 的商业版本,主要是强调其能提供全面的软硬件解决方案设计,针对硬件具有更好的性能优化,以及提供集群管理工具和安装工具简化了 Hadoop 的安装和配置,能够提供项目规划到实施各阶段专业的咨询服务,实际中采购Intel版本貌似动力不足。

优势:

·Intel的Hadoop性能很好

·Intel的Hadoop发行版最先进入中国市场(在中国市场的一大重要优势),我所服务的浙江移动通信工程采购的Hadoop就是采购的Intelhadoop

EMC/Pivotal/Greenplum

·使用Greenplum数据库的用户别犹豫了,就选择新的Pivotal HD吧

MapR

·某种程度上说MapR的Hadoop发行版在性能方面具备优势

IBM

IBM’s InfoSphere BigInsights: 当前版本为1.3,在其中打包了文本分析、用于数据探索的BigSheets、开发工具。IBM扩展了M\R和灵活的调度器。并提供了一个HDFS的替代 方案(GPFS),提供了企业级的安全,提供了一个基于WEB的管理界面,提供了高速数据连接器。

·信任IBM的服务就选择它的Hadoop发行版

华为

华为在硬件上具有天然的优势,在网络,虚拟化,PC机等都有很强的硬件实力。华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是 对hadoop的小修补,远不如mapR解决的彻底。华为在hadoop社区中的Contributor和committer也是国内最多的,算是国内技 术实力较强的公司。

二、如何选择Hadoop版本

自己建立Hadoop的软件栈和选择一个有支持的商业版本。最终结论是大部分的公司都应该选择后者,除非是像大型互联网公司这种将Hadoop视为核心和长期演进的才应该选择前者。

关于Hadoop的开发者或者使用者应该如何选择呢?

研究源码的:采用Apache Hadoop官方版本吧。或者采用CDH(Cloudera’s 100% Open Source Distribution of Hadoop)。

同时对于使用者而言,CDH有更多的安装部署文档,比apache hadoop好一些。建议选择。

现在CDH最新的是5.0 CDH 5.0 (including Hadoop 2, YARN, Impala, and Search)。

Intel在2014年3月宣布向Cloudera投入大笔资金,总投资额增至7.4亿美元,持股比例达到18%,已经成为Cloudera最大的战略股东。据了解,双方的合作将从多个方面展开:Intel的Hadoop发行版(简称IDH)将并入Cloudera Hadoop发行版(简称CDH),CDH 5.3将完全融合了IDH的所有功能。

本教程使用的就是国内使用的较多的CDH5。因为官方的文档中已经说明,CDH3及以前的版本已经不再继续维护,所以可选的只有CDH4和CDH5。从学习的角度考虑,我们采用CDH5.