hive on spark 测试，hivespark

文章由LinuxBoy分享于2019-04-04 03:04:52热评（266）

hive on spark 测试，hivespark

[size=medium]
基础环境：

Apache Hadoop2.7.1
Centos6.5
Apache Hadoop2.7.1
Apache Hbase0.98.12
Apache Hive1.2.1
Apache Tez0.7.0
Apache Pig0.15.0
Apache oozie4.2.0
Apache Spark1.6.0
Cloudrea Hue3.8.1

经测试，spark1.6.0和spark1.5.x集成hive on spark有问题，
相关链接:[url]http://apache-spark-user-list.1001560.n3.nabble.com/Issue-with-spark-on-hive-td25372.html[/url]

所以只能下载spark-1.4.1然后执行如下命令，重新编译：

dev/change-scala-version.sh 2.11
mvn -Pyarn -Phadoop-2.7.1 -Dscala-2.11 -DskipTests clean package

编译完成后，拷贝ssembly/target/scala-2.11/spark-assembly-1.4.1-hadoop2.7.1.jar 到hive的lib目录下
即可，
然后启动hive：
set hive.execution.engine=spark;
执行一个查询：
[/size]

[img]http://dl2.iteye.com/upload/attachment/0114/6244/4817d6c4-9695-3ec6-a2f9-640eccac59f6.png[/img]

[img]http://dl2.iteye.com/upload/attachment/0114/6246/02824e97-3266-38d0-a669-6fcb882305de.png[/img]

[size=medium]
可以执行没有问题，但在测试hive关联hbase表使用spark模式运行的时候，会出现一个异常，spark的kvro序列化总是找不到hbase的一个类，但明明已经启动的时候，加入到hive的class path里面了，经查资料，貌似是hive的一个bug，
但hive on tez模式是可以正常读取hbase表里面的数据的，后续在测试下，看看是否正常。
[/size]

[b][color=green][size=large]
扫码关注

推荐文章：

hive on spark 测试，hivespark