大数据学习笔记3--HDFS扩展和mapreduce工作过程，3--hdfsmapreduce

文章由LinuxBoy分享于2019-03-27 08:03:27热评（242）

大数据学习笔记3--HDFS扩展和mapreduce工作过程，3--hdfsmapreduce

HDFS配置：

客户端中的配置参数可以覆盖服务端的参数。
例如：副本数，切块大小

HDFS文件存储：

服务端存储block的实际大小，但是不适合存储小文件，小文件会占用namenode的元数据空间。
对于小文件数据的优化，可以在上传之前先合并再上传。
例如：压缩、文本文件合并

HDFS扩展：

hdfs支持rest API，与平台无关
jetty 容器
hdfs支持rest command

分布式任务传统方式：

hadoop对分布式抽象

yarn：资源调度器，负责硬件资源调度、任务分配、环境配置、启动任务。
mapredce：分布式运算框架，监视任务执行、失败重试、中间结果调度。
spark、storm：实时计算

mapreduce

mapper：
一次读取一行数据
输出一组keyValue
mapper个数等于block块数
shuffle：
合并数据
reduce：
业务逻辑处理

hadoop序列化机制：

hadoop中目前的序列化机制是writable，后续版本中会替换为avro

mapreduce任务提交方式

mapreduce任务执行流程

RunJar：客户端
ResourceManager：资源管理器，老大
NodeManager：执行任务管理器
MrAppMaste：任务启动、监控、失败重试
yarnchild：mapper和reducer

推荐文章：

评论暂时关闭

最新云计算教程

Linux头条