【甘道夫】NN HA 对于 Client 透明的实验


之前转载过一篇【伊利丹】写的NN HA实验记录,该博客描述了主备NN透明切换的过程,也就是说,当主NN挂掉后,自动将备NN切换为主NN了,Hadoop集群正常运行。

今天我继续做了一个实验,目的是实现NN的切换不会对Client端程序造成影响,即NN切换对Client透明。


首先,很重要的一点:

要保证core-site.xml中的

  1. <property>  
  2.     <name>fs.defaultFS</name>  
  3.     <value>hdfs://hadoop-cluster</value>   
  4. </property>
和hdfs-site.xml中的

  1. <property>  
  2.     <name>dfs.nameservices</name>  
  3.     <value>hadoop-cluster</value>  
  4. </property>
逻辑名称一定要一致


其次:

/etc/hosts文件中无需为hadoop-cluster指定IPhadoop-cluster只是一个逻辑名,当程序或者命令通过hadoop-cluster访问HDFS集群时,Hadoop会自动根据hdfs-site.xml的配置,去找到一个active的Namenode。

当然,hdfs-site.xml中的

  1. <property>  
  2.     <name>dfs.namenode.rpc-address.hadoop-cluster.namenode1</name>  
  3.     <value>NODE001:8020</value>  
  4. </property>  
  5. <property>  
  6.     <name>dfs.namenode.rpc-address.hadoop-cluster.namenode2</name>  
  7.     <value>NODE002:8020</value>  
  8. </property>
和/etc/hosts文件中的NODE001、NODE002是必须配置的,否则Hadoop再聪明也没法得知到底和哪个节点交互了。


最后就是Client了,

无论Namenode如何切换,都可以在任意Hadoop节点上正常执行命令  hadoop dfs -ls hdfs://hadoop-cluster/  ,或者在程序中,将HDFS目标地址指定为  hdfs://hadoop-cluster 即可正常运行程序。

关键在于,不通过IP地址或主备NN的主机名访问HDFS,而是通过HDFS的逻辑名访问。

这样的话,命令和程序的执行与当前Active的Namenode是哪个节点毫无关系,一切皆透明,感觉真爽!


相关内容