Hadoop学习笔记（一）——Hadoop体系结构，hadoop学习笔记

文章由LinuxBoy分享于2019-03-27 05:03:01热评（543）

Hadoop学习笔记（一）——Hadoop体系结构，hadoop学习笔记

HDFS和MapReduce是Hadoop的两大核心。整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的，并且通过MapReduce来实现分布式并行任务处理的程序支持。

一、HDFS体系结构

HDFS采用了主从(Master/Slave)结构模型。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中，NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据。HDFS典型的部署是在一个专门的机器上运行NameNode，集群中的其他机器各运行一个DataNode；也可以在运行NameNode的机器上同时运行DataNode，或者一台机器上运行多个DataNode。一个集群只有一个NameNode的设计大大简化了系统架构。

从最终用户的角度来看，它就像传统的文件系统一样，可以通过目录路径对文件执行CRUD(Create/Read/Update/Delete)操作。

NameNode管理文件系统的元数据，DataNode存储实际的数据。客户端通过同NameNode和DataNodes交互访问文件系统。客户端联系NameNode以获取文件的元数据，而真正的文件I/O操作时直接和DataNode进行交互的。

下图为HDFS体系结构：

文件写入(Or客户端文件上传)：
1、Client向NameNode发起文件写入的请求。
2、NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

3、Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

文件读取：

1、Client向NameNode发起文件读取的请求。

2、NameNode返回文件存储的DataNode的信息。

3、Client读取文件信息。

客户端：将文件切分为block依次上传；与NameNode交互获取文件位置信息；与DataNode交互读取或者写入文件；管理和访问HDFS

二、MapReduce体系结构

MapReduce是一种并行编程模式，利用这种模式软件开发者可以轻松编写出分布式并行程序。在Hadoop体系结构中，MapReduce是一个简单易行的软件框架，基于它可以将任务分发到由上千台商用机器组成的集群上，并以一种可靠容错的方式并行处理大量数据集，实现Hadoop并行任务处理能力。

MapReduce框架是由一个单独运行在主节点的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的从节点上。主节点监控他们的执行情况，并且重新执行之前失败的任务；从节点仅负责由主节点指派的任务。

当一个Job被提交时，JobTracker接收到提交作业和其配置信息之后，就会将配置信息等分发给从节点，同时调度任务并监控TaskTracker的执行

后续会不断完善补充……

应用hadoop实现一个示例程序？

我建议你还是一步一步来。你在linux运行的话，先学会linux下的基本操作。然后部署hadoop，再然后看点hadoop相关的文献，然后写代码。亲自体验一下，更能学到很多东西。我也在研究hadoop。仅供参考~~

Hadoop是一个新开发的软件

不是的。Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。

baike.baidu.com/view/908354.htm

推荐文章：

Hadoop学习笔记（一）——Hadoop体系结构，hadoop学习笔记