Why Hadoop2，whyhadoop2

文章由LinuxBoy分享于2019-03-27 04:03:42热评（519）

Why Hadoop2，whyhadoop2

自从Hadoop2出现之后，其迅速取代了Hadoop1的地位，并丰富了Hadoop的应用场景。如果现在有公司使用Hadoop的话，往往直接采用Hadoop2了。

Hadoop2能被如此广泛的使用，肯定有其自身的优势，本文将对其进行梳理

支持更多的计算框架

Hadoop1采用的计算框架是MapReduce，MapReduce是批处理计算框架，适合做海量数据的离线处理。为了让Hadoop能支持到更多的应用场合，更多的计算框架，YARN应运而生，它极大的拓展了Hadoop的使用场合。
采用YARN框架后，会带来另外一个好处。为了让集群能满足企业的需求，企业往往将不同的计算框架部署到不同的集群上，在采用YARN后，企业可以将这些计算框架部署在一个集群上，极大的提升了集群的利用率，并且减少了运维成本

集群拓展性更强

Hadoop1只能支持数千台计算机的容量，这是因为NameNode和JobTracker的内存容量有限导致的。在HDFS2采用Federation，Hadoop将jobtracker的逻辑拆分后，Hadoop集群的拓展性得到了质的提升。

集群资源利用率更高

下面两张图是twitter分别采用Hadoop1和Hadoop2时，集群资源利用率的对比

HDFS和RM单点故障的解决

在Hadoop1上，HDFS和JobTracker是存在单点故障的，主节点崩溃后，集群也随之崩溃，而在Hadoop2上，当采用HA机制后，单点故障解决了。

Hadoop 教学习顺序

我不是高手，但我可以告诉你我怎么学习。①选择一个Hadoop的版本，然后阅读文档了解Hadoop：What's Hadoop, Why Hadoop exists；②安装Hadoop，三种方式都试下；③在Hadoop文档里面有Hadoop Command的资料，I.hdfs command，II.job command，尽量试试这两方面的命令；④Hadoop Files，看看Hadoop文件的概念，关注它的分布式特点，然后看看Reduce函数输出的文件；⑤自己写WordCount与Advanced WordCount；⑥写HDFS io，这个例子在《Hadoop In Action》里面有，讲得也不错。如copy，sequenceFile等；⑦写Sort程序；⑧写MRBench程序（这个网上有很多例子），了解MRBench是什么；⑨使用RandomTextWriter；10.模仿SequenceFileInputFormat、SequenceFileOutputFormat、SequenceFileRecordReader写自己的；11.yahoo有一个Hadoop的教程，英文版的，里面的内容很好；12.《hadoop权威指南》当参考书，自己实战了

hadoop220 64位编译

看我写的博客，上面有详情于[Hadoop 2.2.0的高可用性集群搭建步骤（64位）]; cnblogs.com/lucius

推荐文章：

评论暂时关闭

最新云计算教程

Linux头条