Hadoop 归档和HIVE 如何使用har 归档文件

文章由LinuxBoy分享于2019-03-27 02:03:52热评（513）

Hadoop 归档和HIVE 如何使用har 归档文件

既然有优势自然也有劣势，这里不说它的不足之处，仅介绍如果使用har 并在hadoop中更好的使用har 文件
首先看下面的命令 hadoop archive -archiveName 20131101.har /user/hadoop/login/201301/01 /user/hadoop/login/201301/01 我用上面的命令就可以将 /user/hadoop/login/201301/01 目录下的文件打包成一个 20131101.har 的归档文件，但是系统不会自动删除源文件，需要手动删除 hadoop fs -rmr /user/hadoop/login/201301/01/*.*.* 我是用正则表达式来删除的，大家根据自己的需求删除原始文件
有人说了，我删了，归档文件存在，源文件不在了，如果要恢复怎么办，这个也困惑了我，hadoop 好像确实也没有提供这样的API 可以还原成源文件功夫不负有心人，其实也很简单,直接从har 文件中 cp出来就可以了。 hadoop fs -cp /user/hadoop/login/201301/01/20130101.har/* /user/hadoop/login/201301/01/
那如何在hive 中使用呢，首先看建表： CREATE EXTERNAL TABLE login_har(

ltime string,
userid int,
name string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ' '
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://h60:9000/user/hadoop/login/201301/01'

这是正常的文件建外表从而可以不损害源文件的情况下在Hive中查看，外边有啥优点不多说。如果是har 文件呢? CREATE EXTERNAL TABLE login_har(

ltime string,
userid int,
name string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ' '
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'har://h60:9000/user/hadoop/login/201301/01/20130101.har'

这样就可以实现，但这样不好，为什么不好呢，我只能制定单一的目录，加入我的数据增加了，如何能动态的修改呢？其实也简单： CREATE EXTERNAL TABLE login_har(

ltime string,
userid int,
name string)

ym string,
d string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ' '
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://h60:9000/user/hadoop/login'

先对其父目录建表，然后对年月日进行分区PARTITIONED BY 即是进行分区再手动修改其动态分区即可： alter table login_har add partition(ym='201301',d='01') LOCATION 'har:///flume/loginlog/201301/01/20130101.har';
这样不是很好，既可以对hive 表进行分区索引，也可以动态增加har 文件到新的分区中。har包不能一旦建成不能修改，我们可以打小包，建目录的方式进行分而治之，既满足需求也不影响效率。

推荐文章：

Hadoop 归档和HIVE 如何使用har 归档文件