Hadoop与分布式开发，Hadoop分布式开发

文章由LinuxBoy分享于2019-03-27 05:03:29热评（317）

Hadoop与分布式开发，Hadoop分布式开发

hadoop上的并行应用程序开发是基于MapReduce编程框架的，MapReduce编程模型的原理是：利用一个输入的key/value对集合来产生一个输出的key/value对集合。MapReduce库的用户用两个函数来表达这个计算：Map和Reduce。
用户自定义的map函数接收一个输入的key/value对，然后产生一个中间key/value对的集合。MapReduce把所有具有相同key值的value集合在一起，然后传递给reduce函数。
用户自定义的reduce函数接收key和相关的value集合。reduce函数合并这些value值，形成一个较小的value集合。一般来说，每次reduce函数调用只产生0或1个输出的value值。通常我们通过一个迭代器把中间的value值提供给reduce函数，这样就可以处理无法全部放入内存中的大量的value值集合了。MapReduce计算模型非常适合在大量计算机组成的大规模集群上并行运行。
Hadoop分布式文件系统由一个名称节点和N个数据节点组成。每个节点均是一台普通的计算机。在使用方式上HDFS与我们熟悉的单机文件系统非常类似，它可以创建目录，创建、复制和删除文件，以及查看文件的内容等。
通常，MapReduce框架和分布式文件系统是运行在一组相同的节点上的，也就是说，计算节点和存储节点在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务，这可以使整个集群的网络带宽被非常高效的利用。

HBase的数据管理

HBase是一个类似Bigtable的分布式数据库，它的大部分特性和Bigtable一样，是一个稀疏的、长期存储的、多维度的排序映射表。这张表的索引是行关键字、列关键字和时间戳。每个值是一个不解释的字符数组，数据都是字符串，没有类型。
HBase体系结构的三大重要组成部分是：

HBaseMaster：HBase主服务器，与Bigtable的主服务器类似。
HRegionServer：HBase域服务器，与Bigtable的Tablet服务器类似。
HBaseClient：HBase客户端是由org.apache.hadoop.HBase.client.HTable定义的。

NameNode：HDFS的守护程序，记录文件是如何分割成数据块的，以及这些数据块被存储到哪些节点上，对内存和I/O进行集中管理，是个单点，发生故障将使集群崩溃
SecondaryNameNode：监控HDFS状态的辅助后台程序，每个集群都有一个，与NameNode进行通讯，定期保存HDFS元数据快照，当NameNode故障可以作为备用NameNode使用
DataNode：每台从服务器都运行一个，负责把HDFS数据块读写到本地文件系统，负责所在物理节点的存储管理，一次写入，多次读取，文件由数据块组成，典型的大小是64MB，数据块尽量散布到各个节点
JobTracker：用于处理作业的后台程序，决定有哪些文件参与处理，然后切割task并分配节点，监控task，重启失败的task，每个集群只有唯一一个JobTracker，位于Master节点
TaskTracker：位于Slave节点，与DataNode结合，管理各自节点上的task，每个节点只有一个TaskTracker，但一个TaskTracker可以启动多个JVM，用于并行执行map或reduce任务，与JobTracker交互
Master：运行NameNode、SecondaryNameNode、JobTracker的节点，Master不是唯一的
Slave：运行TaskTracker、DataNode的节点

三种运行模式

单机模式：安装简单，几乎不用作任何配置，但仅限于调试用于伪分布模式：在单节点上同时启动NameNode、DataNode、JobTracker、TaskTracker、SecondaryNameNode等五个进程，模拟分布式运行的各个节点完全分布模式：正常的Hadoop集群，由多个各司其职的节点构成
NameNode使用事务日志记录HDFS元数据的变化，使用映像文件存储文件系统的命名空间，包括文件映射，文件属性等。

hadoop怎开发web程序

其实，你弄错了hadoop的真正意图。首先，hadoop不适合于开发WEB程序。hadoop的优势在于大规模的分布式数据处理。负责数据的分析并采用分布式数据库(hbase)来存储。但是，hadoop有个特点是，所有的数据处理作业都是批处理的，也就是说hadoop在实时性上是不占优势的。对于WEB应用来说，你也许可以做的是，将系统的数据处理部分分离出来交给hadoop去做。关于hadoop的数据处理有一个专门的工具:hive。hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。希望对你有帮助

问hadoop怎进行web开发？

首先呢, 这种适用方式我没有做过. 但是, hadoop的HDFS就是做分布式存储的. HDFS有java的api,可以通过该API进行输入输出.

推荐文章：

Hadoop与分布式开发，Hadoop分布式开发