大数据学习笔记3--HDFS扩展和mapreduce工作过程,3--hdfsmapreduce


HDFS配置:

  • 客户端中的配置参数可以覆盖服务端的参数。

  • 例如:副本数,切块大小

HDFS文件存储:

  • 服务端存储block的实际大小,但是不适合存储小文件,小文件会占用namenode的元数据空间。

  • 对于小文件数据的优化,可以在上传之前先合并再上传。

  • 例如:压缩、文本文件合并

HDFS扩展:

  • hdfs支持rest API,与平台无关

  • jetty 容器

  • hdfs支持rest command

分布式任务传统方式:

hadoop对分布式抽象

  • yarn:资源调度器,负责硬件资源调度、任务分配、环境配置、启动任务。

  • mapredce:分布式运算框架,监视任务执行、失败重试、中间结果调度。

  • spark、storm:实时计算

mapreduce

  • mapper:
    一次读取一行数据
    输出一组keyValue
    mapper个数等于block块数
  • shuffle:
    合并数据
  • reduce:
    业务逻辑处理

hadoop序列化机制:

  • hadoop中目前的序列化机制是writable,后续版本中会替换为avro

mapreduce任务提交方式

mapreduce任务执行流程

  • RunJar:客户端
  • ResourceManager:资源管理器,老大
  • NodeManager:执行任务管理器
  • MrAppMaste:任务启动、监控、失败重试
  • yarnchild:mapper和reducer

相关内容