Hadoop集群管理--保证集群平稳地运行

文章由LinuxBoy分享于2019-03-27 04:03:35热评（42）

Hadoop集群管理--保证集群平稳地运行

本篇介绍为了保证Hadoop集群平稳地运行，需要深入掌握的知识，以及一些管理监控的手段，日常维护的工作。

HDFS

永久性数据结构

对于管理员来说，深入了解namenode，辅助namecode和datanode等HDFS组件如何在磁盘上组织永久性数据非常重要。

洞悉各文件的用法有助于进行故障诊断和故障检出。

namenode的目录结构

namenode被格式化后，将在${dfs.namenode.name.dir}/current 目录下，产生如下的目录结构：VERSION、edits、fsimage、fstime。

只有深入学习namenode的工作原理，才能理解这些文件的用途。对于Hadoop集群管理员来说，这是有必要的。

辅助namenode的目录结构

在大型集群中，辅助namenode需要运行在一台专用机器上。保持和namenode基本一致的目录结构和数据，在主namenode发生故障时，可以从辅助namenode恢复数据。

datanode的目录结构

datanode不是格式化时创建的，而是启动时自动创建的。datanode的关键文件和目录如下所示：

dfs.data.dir 是在hadoop1.X中定义的，在Hadoop2.X中是在hdfs-site.xml中定义的 fs.datanode.data.dir 。

安全模式

namenode启动时，首先将映像文件(fsimage)载入内存，并执行编辑日志(edits)中的各项操作。

一系列操作之后，如果满足“最小复本条件”，namenode会在30秒内退出安全模式。所谓的最新复本调价指的是在整个文件系统中有99.9%的块满足最小复本条件(默认值时1，由dfs.replication.min属性设置)。

在启动一个刚刚格式化的HDFS集群时，因为系统中还没有任何块，所以namenode不会进入安全模式。

安全模式的属性设置如下：

安全模式操作命令：

hadoop dfsadmin -safemode get
hadoop dfsadmin -safemode wait
hadoop dfsadmin -safemode leave
hadoop dfsadmin -safemode enter

调整日志级别

log4j.logger.org.apache.hadoop.hdfs.server.namenode.FSNamesystem.audit=WARN

调整为INFO或者其他。

工具

dfsadmin工具

fsck工具

Hadoop提供fsck工具来检查HDFS中文件的健康状况。该工具会查找那些所有datanode中均缺失的块以及过少或过多复制的块。

使用命令：

hadoop fsck /

hadoop fsck / -move

hadoop fsck / -delete

datanode块扫描器

各个datanode运行一个快扫描器，定期检测本节点上的所有块，从而在客户端读到坏块之前及时地检测和修复坏块。可以依靠DataBlockScanner所维护的块列表依次扫描块，查看是否存在校验和错误。扫描器还使用节流机制，来维持datanode的磁盘带宽(换句话说，块扫描器工作时仅占用一小部分磁盘带宽)。

默认情况下，块扫描器每隔三周（504小时）就会检测块，以应对可能的磁盘故障，这个周期由dfs.datanode.scan.period.hours属性设置。损坏的块被报给namenode，并被即时修复。

访问网页：http://datanode:50075/blockScannerReport 获取该datanode的块检测报告。加 ?Listblocks 参数会在报告中列出该datanode上所有的块及其最新验证状态。

均衡器

均衡器（balancer）程序是一个Hadoop守护进程，它将块从忙碌的datanode移到相对空闲的datanode，从而重新分配块。同时坚持块复本放置策略，将复本分散到不同机架，以降低数据损坏率。

操作一直执行，直到均衡，即每个datanode的使用率（该节点上已使用的空间和空间容量之间的比率）和集群的使用率（集群中已使用的空间与集群的空间容量之间的比率）非常接近，差距不超过给定的阀值。

启动均衡器指令：start-blancer.sh ,-threshold参数指定阀值（百分比格式），默认10%。在任何时刻，集群中都只运行一个均衡器。

在不同节点之间复制数据的带宽也是受限的，默认是1MB/s，可以通过hdfs-site.xml中的dfs.balance.bandwidthPerSec属性指定（单位是字节）。

监控

监控是系统管理的重要内容。监控的目标在于检测集群在何时未提供所期望的服务。主守护进程是最需要监控的，包括主namenode、辅助namenode和jobtracker。datanode和tasktracker经常出现故障；在大型集群中，故障率尤其高。因此，集群需要保留额外的容量，如此一来，即使有一小部分节点宕机，也不影响整个系统的运作。

管理员也可以定期运行一些测试作业，以检查集群的健康状况。

日志

所有Hadoop守护进程都会产生日志文件，这些文件非常有助于查明系统中发生的事件。

默认情况下，Hadoop生成的系统日志文件存放在$HADOOP_INSTALL/logs目录之中，也可以通过hadoop-env.sh文件中的HADOOP_LOG_DIR来进行修改。通常可以把日志文件存放在/var/log/hadoop目录中。实现的办法就是在hadoop-env.sh中加入一行：export HADOOP_LOG_DIR=/var/log/hadoop ，如果日志目录不存在，则会首先创建该目录，如果创建失败，请检查hadoop用户是否有权创建该目录。

设置日志级别

故障排查过程中，临时设置日志级别非常有益，有两种方法，网页和命令行。例如要对某台机器的JobTracker设置为DEBUG级别，可以如下：

a、访问http://jobtracker-host:50030/logLevel，将org.apache.hadoop.mapred.JobTracker属性设置为DEBUG级别

b、hadoop daemonlog -setlevel jobtracker-host:50030 org.apache.hadoop.mapred.JobTracker DEBUG

获取堆栈轨迹

Hadoop守护进程提供一个网页，对正在守护进程的JVM中运行着的线程执行线程转储（Thread-dump）。例如：http://jobtracker-host:50030/stacks获取jobtracker的线程转储。

度量

HDFS和MapReduce守护进程收集的事件和度量相关的信息，这些信息统称为度量（metric）。例如，各个datanode会收集如下度量（还有更多）：写入的字节、块的复本数、客户端发起的读操作请求数。

度量从属于特定的上下文，目前，Hadoop使用dfs、mapred、rpc、jvm 这4个上下文。

度量在conf/hadoop-metrics.properties文件中配置，默认情况下，所有上下文都被配置成不发布度量。

常用的度量类：FileContext、GangliaContext、NullContextWithUpdateThread、CompositeContext。

java管理扩展(JMX）

JMX是一个标准的JAVA API，可监控和管理应用。Hadop包括多个托管bean（MBean），可以将Hadoop度量发布给支持JMX的应用，如下：

JDK自带的JConsole工具可以浏览JVM中MBean，许多第三方的监控和报警系统（如Nagios和Hyperic）均可查询MBean，因此通过这些系统使用JMX监控一个Hadoop集群就很平常，前提是启用远程访问JMX功能和合理设置集群的安全级别，包括密码认证、SSL连接和SSL客户端认证等。

比较普遍的方案是，同时使用Ganglia和Nagios这样的警告系统来监控Hadoop系统。Ganglia擅长高效地收集大量度量，并以图形化界面呈现；Nagios和类似系统擅长在某项度量的关键阀值被突破之后及时报警。

维护和升级

关于这部分，临时先不深入学习，在工作过程中如有涉猎，再返回此处进一步记录。

推荐文章：

Hadoop集群管理--保证集群平稳地运行