hive导入数据到hbase,hive导入数据hbase


  版本说明:hive-0.13.1

        hbase-0.96.0/hbase-0.98.2

 第一步:在hive客户端执行hive关联hbase建表语句

   hive中对应的表hive_user_info
   hbase中对应的表user_info

CREATE TABLE hive_user_info(
a string,b string,c string,
d string,e string,
f string,g string)
PARTITIONED BY(dt string)
STORED BY'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES
("hbase.columns.mapping"=":key,info:b,info:c,info:d,info:e,info:e,info:f ")
TBLPROPERTIES("hbase.table.name" = "user_info");   好像这个版本默认的version=1 

所以在hbase shell 端设置一下version
alter 'user_info',{NAME=>'info','VERSIONS'=>3}

第二步:通过hive已存在的表查询数据并插入到hive_user_info表里面

            insert into table hive_user_info PARTITION(dt=1) select udid,if(jailbreak=0,1,0),concat(dt,' ',hour,':',time_minute),0,device_id,'2',null from click_log; 

   

这个坑爹的问题:debug调试,还是没发现问题,hive执行计划也没问题,去查看-ext-10000日志


但是加上limit 就是没问题的:

 insert into table hive_user_info PARTITION(dt=1) select udid,if(jailbreak=0,1,0),concat(dt,' ',hour,':',time_minute),0,device_id,'2',null from click_log limit 10000; 

添加limit 查看explain sql  也就是说明hive查出来的数据是用一个reduce写入到hive和hbase关联表的,这个常识不符合分布式的hadoop理论,继续找原因:

hive -hiveconf hive.root.logger=DEBUG,console

是找不到这个类,继续编译这个类测试,发现也不是这个类的问题,原因是这个:

在解析sql就已经出错了
有reduce的sql会解析成
org.apache.hadoop.hive.ql.plan.TableScanDesc
org.apache.hadoop.hive.ql.plan.ReduceSinkDesc
org.apache.hadoop.hive.ql.plan.ExtractDesc
org.apache.hadoop.hive.ql.plan.PTFDesc
org.apache.hadoop.hive.ql.plan.SelectDesc
org.apache.hadoop.hive.ql.plan.FileSinkDesc
没有reduce的sql会解析成
org.apache.hadoop.hive.ql.plan.TableScanDesc
org.apache.hadoop.hive.ql.plan.SelectDesc
org.apache.hadoop.hive.ql.plan.FileSinkDesc

落地表信息都在org.apache.hadoop.hive.ql.plan.FileSinkDesc里面,但是没有reduce的sql解析出来之后,不会带上hbase包的信息
如果不用第三方包,是不会解析成org.apache.hadoop.hive.ql.plan.FileSinkDesc,这个主要是给第三方包用的
所以用hive是没问题得,继续找hbase的问题

经过2天2夜的奋战终于找到问题了!


这个错误居然是在info里面找到的!!!

如果map-only的任务,会触发一个合并小文件的任务,叫做conditional task,这个task会分成n个小任务,判断合并否,
在检查这个合并小文件的任务时,要去检查分区,这时候输出表换成了一个输入表,而输入表是没有带表自定义信息的
所以把输出表的class给冲掉了。。。给冲掉了!!!!
解决的方法:关掉merge。。。

set hive.merge.mapfiles=false

set hive.merge.mapfiles=false;insert into table hive_user_info PARTITION(dt='${date}') select udid,if(jailbreak=0,1,0),concat(dt,' ',hour,':',time_minute),0,device_id,'2',null from show_log where dt='${date}' and udid !='null' and udid !="";


这个问题在hive-0.13.0和hbase-0.96.0/hbase-0.98.2版本集成测试发现这个问题的

但是在hive-0.11.0和hbase-0.94.0之前版本是没问题的

经验分析:在使用hadoop组件里面的高版本的时候

    首先:要查看官方的更新文档,了解新特性,并对比低版本做了哪些改动

  其次: 在使用hadoop组件的时候一点要学会debug查看日志,如果error和warning看不出问题,那就继续看info的信息,

  最后学会编译源码包,对错误逐一排查……(待续)

拓展:编译hive jar包命令:mvn clean compile -Phadoop-2

hive集成hbase成功于否的关键配置文件hive/cong/

方法一:(hadoop启动的时候把需要的jar包加载到hdfs上)

1、先把hive-site.xml里面那个HIVE_AUX_JARS_PATH去掉
2、在hive-env.sh加上export HIVE_AUX_JARS_PATH=/home/yudaer/hbase-0.98.6.1-hadoop2/lib/   后面是hbase的lib的地址

方法二:在hive启动的时候直接读取hive/lib和这个陪着文件里面的jar包

<property>
  <name>hive.aux.jars.path</name>
 <value>file:///usr/local/hive-0.13.0/lib/hive-hbase-handler-0.13.1.jar,file:///usr/local/hive-0.13.0/lib/protobuf-java-2.5.0.jar,file:///usr/local/hive-0.13.0/lib/hbase-client-0.96.2-hadoop2.jar,file:///usr/local/hive-0.13.0/lib/hbase-common-0.96.2-hadoop2.jar,file:///usr/local/hive-0.13.0/lib/hbase-common-0.96.2-hadoop2-tests.jar,file:///usr/local/hive-0.13.0/lib/hbase-protocol-0.96.2-hadoop2,file:///usr/local/hive-0.13.0/lib/hbase-server-0.96.2-hadoop2,file:///usr/local/hive-0.13.0/lib/htrace-core-2.04,file:///usr/local/hive-0.13.0/lib/zookeeper-3.4.5.jar,file:///usr/local/hive-0.13.0/lib/guava-12.0.1.jar</value>
</property>

注意:<value>中间的值要写在一行</value>

本人感觉方法一更专业(:-D),也更方便点( 不容易出错)



有几点对于hadoop的hive数据仓库与hbase几点疑惑,希望有可以帮忙解决一下,了

首先感觉你有点乱。。。

你先明白数据仓库的作用--存储历史数据-进而对数据进行分析,只提供查询-不提供修改

1。Hive 的目标是做成数据仓库,所以它提供了SQL,提供了文件-表的映射关系,又由于Hive基于HDFS,所以不提供Update,因为HDFS本身就不支持。
2.HBase 是NoSQL数据库-所以不要跟传统混淆并谈-NoSQL 提供的是另一种思路来满足高性能的需求,而这些是传统数据库的短板,与传统数据库的理念不一样
3.load data 这个可以自己去查。Hbase要使用自己的API
4.是的。
5.这句话不对。
6.映射就是结构对应-如文件每一行的第一个字段-映射到Hive表的第一个字段
类似Hibernate的语法解析。
Hive本身实现了一套语法结构也就是操作符。如扫描文件等,最终记本都会转换成MapReduce来运行
 

Hbase与Hive在Hadoop中的功可以有什联系?他们怎分别作业的两个数据库不会有重复信息导致资源浪费?

应该是Hadoop在hbase和Hive中的作用吧。 hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。而hbase是作为分布式数据库,而hive是作为分布式数据仓库。当然hive还是借用hadoop的MapReduce来完成一些hive中的命令的执行。而hbase与hive都是单独安装的。你需要哪个安装哪个,所以不存在重复信息。
 

相关内容