HDFS High Availability Using the Quorum Journal Manager （HDFS单点故障 QJM）

文章由LinuxBoy分享于2019-03-27 02:03:46热评（35）

HDFS High Availability Using the Quorum Journal Manager （HDFS单点故障 QJM）

http://www.tuicool.com/articles/6rqYVr http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/HDFSHighAvailabilityWithQJM.html
HDFS High Availability Using the Quorum Journal Manager
HDFS HA（High Availability）问题（单点故障问题）在Hadoop2.0.0之前，HDFS集群中存在单点故障问题。由于每个集群只有一个NameNode，如果NameNode所在机器发生故障，将导致HDFS集群无法使用，除非NameNode重启或者在另一台机器上启动。这在两个方面影响了HDFS的整体可用性：（1）当一个异常情况发生时，如机器崩溃，集群将不可用除非重新启动NameNode；（2）计划性的维护工作，如软硬件升级等，将导致集群停止工作； HDFS 高可用性特性，通过主动/被动配置方式在一个集群中为NameNode启动一个热替换的NameNode备份，当一台机器崩溃时，可以迅速故障转移到另一个NameNode，或者通过管理员控制，在一台NameNode维护时，将其故障转移到另一台NameNode，从而保证集群在维护期间的可用性。
Architecture 在一个典型的HA集群中，两个NameNodes分别在两台独立的机器上。在任何一个时间点，只有一个NameNode处于active状态，另一个处于Standby状态。active节点负责所有客户端操作，standby节点维护足够状态以便在必要时快速故障转移。为保持active和standby节点的一致性，两个节点都要与一组称为JournalNodes的节点通信。当active对命名空间修改时，会将其日志保存到JournalNodes节点中的大部分。standby节点监控JournalNodes的变化，并将其改变写入edit日志。然后根据日志，standby节点将改变应用到本地命名空间中。一旦发生故障转移，standby保证在状态改变为active之前已经应用了edits中的所有改变。这保证了命名空间在故障转移时在active和standby之间是完全同步的。为保证故障转移快速进行，standby需要时刻保持最新的块信息，为此DataNodes同时向两个NameNodes发送块信息和心跳。对一个HA集群，保证任何时刻只有一个NameNode是active的至关重要。否则，命名空间会分为两部分，有数据丢失和产生其他错误的风险。为保证这个属性，防止“split-brain”问题的产生，JournalNodes在某个时刻只允许一个NameNode写入。在故障转移时，将变为active状态的NameNode获得写入JournalNodes的权限，这会有效防止其他NameNode的active状态，使得转移安全进行。
（我的理解）之所以使用多个JournalNodes，是为了降低丢失写的概率，因为相比于多个节点然后获得多个节点中大多数的节点状态，写入单个节点发生故障的概率大得多，通过这种方式可以有效降低丢失写的概率，保证两个NameNode之间状态的一致性。

推荐文章：

HDFS High Availability Using the Quorum Journal Manager （HDFS单点故障 QJM）