Why Hadoop2,whyhadoop2



自从Hadoop2出现之后,其迅速取代了Hadoop1的地位,并丰富了Hadoop的应用场景。如果现在有公司使用Hadoop的话,往往直接采用Hadoop2了。

Hadoop2能被如此广泛的使用,肯定有其自身的优势,本文将对其进行梳理


支持更多的计算框架

Hadoop1采用的计算框架是MapReduce,MapReduce是批处理计算框架,适合做海量数据的离线处理。为了让Hadoop能支持到更多的应用场合,更多的计算框架,YARN应运而生,它极大的拓展了Hadoop的使用场合。
采用YARN框架后,会带来另外一个好处。为了让集群能满足企业的需求,企业往往将不同的计算框架部署到不同的集群上,在采用YARN后,企业可以将这些计算框架部署在一个集群上,极大的提升了集群的利用率,并且减少了运维成本



集群拓展性更强

Hadoop1只能支持数千台计算机的容量,这是因为NameNode和JobTracker的内存容量有限导致的。在HDFS2采用Federation,Hadoop将jobtracker的逻辑拆分后,Hadoop集群的拓展性得到了质的提升。


集群资源利用率更高

下面两张图是twitter分别采用Hadoop1和Hadoop2时,集群资源利用率的对比



HDFS和RM单点故障的解决

在Hadoop1上,HDFS和JobTracker是存在单点故障的,主节点崩溃后,集群也随之崩溃,而在Hadoop2上,当采用HA机制后,单点故障解决了。






Hadoop 教学习顺序

我不是高手,但我可以告诉你我怎么学习。①选择一个Hadoop的版本,然后阅读文档了解Hadoop:What's Hadoop, Why Hadoop exists;②安装Hadoop,三种方式都试下;③在Hadoop文档里面有Hadoop Command的资料,I.hdfs command,II.job command,尽量试试这两方面的命令;④Hadoop Files,看看Hadoop文件的概念,关注它的分布式特点,然后看看Reduce函数输出的文件;⑤自己写WordCount与Advanced WordCount;⑥写HDFS io,这个例子在《Hadoop In Action》里面有,讲得也不错。如copy,sequenceFile等;⑦写Sort程序;⑧写MRBench程序(这个网上有很多例子),了解MRBench是什么;⑨使用RandomTextWriter;10.模仿SequenceFileInputFormat、SequenceFileOutputFormat、SequenceFileRecordReader写自己的;11.yahoo有一个Hadoop的教程,英文版的,里面的内容很好;12.《hadoop权威指南》当参考书,自己实战了
 

hadoop220 64位编译

看我写的博客,上面有详情于[Hadoop 2.2.0的高可用性集群搭建步骤(64位)]; cnblogs.com/lucius
 

相关内容

    暂无相关文章