CDH5 hadoop-hive-habse单机版配置，hadoophivehbase

文章由LinuxBoy分享于2019-03-27 08:03:32热评（76）

CDH5 hadoop-hive-habse单机版配置，hadoophivehbase

CDH5 hadoop-hive-habse单机版配置

一、安装环境：

OS:CentOS6.5 64位

JDK:jdk-7u72-linux-x64

hadoop:hadoop-2.3.0-cdh5.0.0.

hbase:hbase-0.96.1.1-cdh5.0.0.

hive:hive-0.12.0-cdh5.0.0.tar

我所用的都是基于CDH5.0.0的，使用CDH的发行版不会存在各个组件间不兼容，导致启动失败等异常。

CDH的其他版本可以在这里下载http://archive-primary.cloudera.com/cdh5/cdh/5/

注意下载各个组件的时候其CDH的版本号一定都要相同。

文章中所有安装包和第三方jar包和配置文件都可以在这里下载到

http://pan.baidu.com/s/1pJDjHQN

二、基础准备

1.首先安装好linux系统，我这里的是:CentOS6.5，推荐为hadoop相关的操作再专门建立一个用户，因为root用户权限太大了

用root用户在shell下运行：

//创建一个叫hadoop的用户

>useradd hadoop

//给hadoop设置密码

>passwd hadoop

2.安装jdk，jdk就用root安装好了，linux下配置jdk的方式这里就不细说了，这里用rpm安装

>rpm -ivh jdk-7u72-linux-x64.rpm

然后配置jdk环境变量，我把我的/etc/profile文件贴出来

JAVA_HOME=/usr/java/jdk1.7.0_72

HIVE_HOME=/home/hadoop/hive-0.12.0-cdh5.0.0

HADOOP_HOME=/home/hadoop/hadoop-2.3.0-cdh5.0.0

PATH=$JAVA_HOME/bin:$PATH:$HIVE_HOME/bin:$HADOOP_HOME/bin

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$HIVE_HOME/lib

export JAVA_HOME

export HIVE_HOME

export HADOOP_HOME

export PATH

export CLASSPATH

记得source一下

>source /etc/profile

这里已经包括了后面要用到的hadoop和hive的安装目录，就用我们之前建立的hadoop用户安装hadoop、hbase、hive即可。所以它们都在/home/hadoop下。

三、安装hadoop

1.首先需要安装的是hadoop，先上传安装包再解压

用hadoop用户把hadoop、hbase、hive的tar.gz文件都上传到/home/hadoop下

2.解压hadoop-2.3.0-cdh5.0.0.tar.gz

>tar -xzvf ./hadoop-2.3.0-cdh5.0.0.tar.gz

这样hadoop就被安装到了/home/hadoop/hadoop-2.3.0-cdh5.0.0目录下，如果刚才在/etc/profile里没有配置HADOOP_HOME就加进去，别忘了source。

3.下一步就是配置hadoop了

注意所有cmd后缀的文件都是windows下的配置文件，对应Linux下的是sh文件，另外hadoop生态系统中的所有组件的配置文件都遵循一个统一的规则，就是如果是xxx-default.xml则是全局的配置，xxx-site.xml则是个性化的配置，这两种文件里的配置要素完全一样，但是如果xxx-site.xml里存在配置，则会覆盖掉xxx-default.xml中同样标签内的配置，如果site.xml中没有，则会以default.xml中的配置为准。

hadoop的主要配置文件到在hadoop-2.3.0-cdh5.0.0/etc这个目录下，我们需要配置以下几个文件

hadoop-env.sh

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

这五个文件都在hadoop-2.3.0-cdh5.0.0/etc/hadoop这个目录下

配置hadoop-env.sh，27行，因为hadoop是java开发的，运行时需要jdk，根据自己的jdk路径，加上即可，别的没有了。

export JAVA_HOME=/usr/java/jdk1.7.0_72

配置core-site.xml

<name>fs.default.name</name>

<value>hdfs://localhost:8020</value>

</property>

</configuration>

加上这一段即可，用来表明hdfs的访问地址，我没有修改hosts文件，所以这里就直接写localhost即可，端口可以自己定义，我这里用8020。

配置hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/home/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/home/hadoop/dfs/data</value>

</property>

</configuration>

dfs.replication指定数据的副本数，这里是单机的，默认是3，我们改为1即可

dfs.namenode.name.dir指定namenode的路径

dfs.datanode.data.dir指定datanode的路径

这2个路径不用预先创建，后面格式化的时候会自动创建。

配置mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

CDH5的版本是基于apache hadoop2.0的，所以引入了yarn协助hadoop进行分布式计算。

把这一段复制进去就行了。

配置yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

把这一段复制进去就行。

4.格式化hdfs文件系统

第一次使用时在启动之前要进行格式化，之后就不用了，直接启动即可。一旦格式化，会删除hdfs上的所有数据，格式化的时候只需要针对namenode即可。

进入到hadoop-2.3.0-cdh5.0.0/bin目录下，执行

>./hadoop namenode -format

如果正确，可以看到之前配置的namenode的目录/home/hadoop/dfs/name被自动创建了出来。

5.启动hadoop

以上步骤都没有问题，就可以启动hadoop了，启动命令在hadoop-2.3.0-cdh5.0.0/sbin目录下，sbin目录下包含了所有hadoop各个部分的启动和停止命令，其中start-all和stop-all命令用于启动和停止所有相关部分。可以直接通过运行start-all来启动hadoop，但我推荐各个单独启动，如果有异常也方便定位哪部分出错，便于排查。

我们先运行一下jps目录看下java线程有哪些

>jps

在sbin目录下依次启动

启动namenode： ./hadoop-daemon.sh start namenode

如图，启动日志会生成在hadoop-2.3.0-cdh5.0.0/logs目录下，如果出错，可以查看日志排查。正确启动了以后，再用jps命令查看，会看到多了一个NameNode的进程。

启动datanode： ./hadoop-daemon.sh start datanode

如果，同样会看到生成的日志，用jps查看后多了一个DataNode进程。

此时，在linux上打开浏览器，访问http://localhost:50070或者在客户机上访问

http://linuxip:50070，可以看到web页面

如果不行请关闭linux防火墙等。

启动yarn：./start-yarn.sh

因为我没有配置ssh免密码登录，所以启动的时候需要输入hadoop用户的密码，成功之后再用jps查看多了ResourceManager和NodeManager两个进程。

此时，在linux上打开浏览器，访问http://localhost:8088或者在客户机上访问

http://linuxip:8088，可以看到web页面

至此，hadoop就已经启动成功了。可以发现之前配置的datanode的目录/home/hadoop/dfs/data也已经自动创建了出来。

6.上传文件到hdfs

我们从linux本地文件系统上上传一个文件到hdfs中

cd到hadoop-2.3.0-cdh5.0.0/bin目录下

>hadoop fs -put /home/hadoop/Desktop/1.txt /

把事先准备的1.txt上传到hdfs的根目录下，然后查看

>hadoop fs -ls /

如图，可以看到上传上来的1.txt。

7.停止hadoop

cd到sbin目录下。

>./stop-all.sh

同样因为没有配置ssh免密码，在停止的时候有几次需要输入密码。

之后再运行jps，发现已经没有hadoop的线程了。

一旦停止后，浏览器中也访问不到页面了。

四、安装HBase

1.解压hbase-0.96.1.1-cdh5.0.0.tar.gz

>tar -xzvf ./hbase-0.96.1.1-cdh5.0.0.tar.gz

这样HBase就安装在了/home/hadoop/hbase-0.96.1.1-cdh5.0.0目录下。

2.配置HBase

HBase的配置文件都在hbase-0.96.1.1-cdh5.0.0/conf目录下，需要配置如下文件： hbase-site.xml

hbase-env.sh

配置hbase-site.xml

<name>hbase.rootdir</name>

<value>hdfs://localhost:8020/hbase</value>

</property>

</configuration>

注意这里的hdfs://localhost:8020/hbase是和hadoop中的core-site.xml下的fs.default.name的值hdfs://localhost:8020对应的。只需要再加一个后缀/hbase即可。

配置hbase-env.sh

第29行附近，

export JAVA_HOME=/usr/java/jdk1.7.0_72

指向JDK的目录。

第122行附近，

export HBASE_MANAGES_ZK=true

指定HBase是否自己管理zookeeper，因为我们这里是单机版，并且并没有安装zk，所以选true。

3.启动HBase

启动前先要启动hadoop，然后进入hbase-0.96.1.1-cdh5.0.0/bin

>./start-hbase.sh

成功后使用jps命令查看

发现多了HMaster，就是HBase的进程。还可以使用

>./hbase hbck

命令查看HBase的状态，如果正常会显示Status: OK。

HBase也有web接口页面，但要先启动HBase REST服务

>./hbase rest start

如果成功则可以访问linux上的HBase REST服务，地址为http://linuxip:60010/，方法和之前访问hadoop的web页面相同。

此时再运行jps，可以看到多了一个RESTServer进程。

4.创建HBase表

我们创建一张表试试，在hbase-0.96.1.1-cdh5.0.0/bin目录下执行

>./hbase shell

如果成功会进入HBase的shell操作界面，如下图

创建表

>create 'table1','col1'

注意结尾没有分号

再用list命令查看已经存在的表

>list

可以看到刚创建的表table1。

此时在web页面上也可以看到

5.停止HBase

退出shell

>quit

在shell下运行quit命令即可，如下图

停止HBase服务

在hbase-0.96.1.1-cdh5.0.0/bin目录下运行

>./stop-hbase.sh

再运行jps，发现已经没有HMaster进程了，虽然RESTServer进程还在，但因为HBase已经停止了，HBase的web页面也打不开了。

五、安装hive

1.解压hive-0.12.0-cdh5.0.0.tar.gz

>tar -xzvf ./hive-0.12.0-cdh5.0.0.tar.gz

这样hive就安装在/home/hadoop/hive-0.12.0-cdh5.0.0目录下了。

2.配置hive

hive的配置文件在hive-0.12.0-cdh5.0.0/conf和hive-0.12.0-cdh5.0.0/bin目录下，需要配置如下文件：

hive-config.sh

hive-default.xml

hive-site.xml

hive-env.sh

配置 hive-config.sh

hive-config.sh在hive-0.12.0-cdh5.0.0/bin目录下，在70行最后加上如下配置

JAVA_HOME=/usr/java/jdk1.7.0_72

HIVE_HOME=/home/hadoop/hive-0.12.0-cdh5.0.0

HADOOP_HOME=/home/hadoop/hadoop-2.3.0-cdh5.0.0

PATH=$JAVA_HOME/bin:$PATH:$HIVE_HOME/bin:$HADOOP_HOME/bin

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$HIVE_HOME/lib:/home/hadoop/hbase-0.96.1.1-cdh5.0.0/lib

export JAVA_HOME

export HIVE_HOME

export HADOOP_HOME

export PATH

export CLASSPATH

配置hive-default.xml

这个只需要把hive-default.xml.template重命名成hive-default.xml即可

>mv hive-default.xml.template hive-default.xml

配置hive-site.xml

hive-site.xml里的配置会覆盖掉hive-default.xml中的配置，这里主要有2处需要注意，一处是确定hive使用什么样的元数据库，一处是如果要想启动hive的web管理页面，需要配置hive的web端war包。

因为hive的元数据库可以用自身的derby，也可以用mysql，选择用什么数据库在130行和136行附近，默认的是derby的配置，如果想用mysql可以把

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:derby:;databaseName=metastore_db;create=true</value>

<description>JDBC connect string for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>org.apache.derby.jdbc.EmbeddedDriver</value>

<description>Driver class name for a JDBC metastore</description>

</property>

改成

<name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>

<description>JDBC connect string for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

<description>Driver class name for a JDBC metastore</description>

</property>

还有160行附近填写数据库的用户名和密码。

并且把mysql的jdbc驱动jar包放在hive-0.12.0-cdh5.0.0/lib目录下。我这里用的是mysql。因为如果用derby的话一次只能有一个用户链接使用hive，mysql则没有限制。另外注意要修改mysql的访问权限，让hive可以本地访问mysql。不然可能会报java.sql.SQLException: Access denied for user 'root'@'localhost' (using password: YES)错误。

如果要启用hive的web管理页面，在hive-site.xml的724行附近把

<value>lib/hive-hwi-@VERSION@.war</value>

<description>This sets the path to the HWI war file, relative to ${HIVE_HOME}. </description>

</property>

改成

<description>This sets the path to the HWI war file, relative to ${HIVE_HOME}. </description>

</property>

因为CDH5.0的版本中没有自带hive-hwi-0.12.0-cdh5.0.0.war（apache以前的老版本可能会自带此war包），所以需要下载hive的源代码，自己编译成war。我已经把这篇文章中所讲的对应版本的war包编译好了，下载下来后放在hive-0.12.0-cdh5.0.0/lib目录下即可。

配置hive-env.sh

>mv hive-env.sh.template hive-env.sh

先从模版文件复制出hive-env.sh，再编辑hive-env.sh，从48行开始修改如下

HADOOP_HOME=/home/hadoop/hadoop-2.3.0-cdh5.0.0

# Hive Configuration Directory can be controlled by:

export HIVE_CONF_DIR=/home/hadoop/hive-0.12.0-cdh5.0.0/conf

# Folder containing extra ibraries required for hive compilation/execution can be controlled by:

export HIVE_AUX_JARS_PATH=/home/hadoop/hive-0.12.0-cdh5.0.0/lib

3.启动hive

先启动好hadoop，再启动HBase，如果不需要通过hive使用HBase，可以不启动HBase最后启动hive。hive的启动命令在hadoop/hive-0.12.0-cdh5.0.0/bin目录下。启动hive时有几种不同的命令：

./hive 直接启动hive，进入到hive的命令行下，在命令行模式下进行hive操作

./hive -hiveconf hive.root.logger=DEBUG,console 带日志启动hive，还是在命令行模式下使用hive，但是会输出详细的信息，调试错误时非常有用

./hive --service hwi 带web接口启动hive，此时可以在浏览器打开hive的管理页面，前提是部署了hive-hwi-0.12.0-cdh5.0.0.war。

./hive --service hiveserver 如果要在java代码里调用hive，必须这样启动

我用第二种方式启动，进入命令行

>./hive -hiveconf hive.root.logger=DEBUG,console

启动成功后用jps查看，会看到一个RunJar进程。

如果启动多个hvie或者以多种方式启动hive，会看到相应数目的RunJar进程。

4.停止hive

在shell下直接输入quit命令

>quit;

注意hive的命令结尾要加分号，和hbase不同。

这个时候再用jps命令就看不到RunJar进程了。

5.创建hive表

5.1外部表

创建外部表的时候hive只保存表的元数据，可以在hbase中先创建一个表，然后在hive里创建一个外部表来关联hbase中的表。现在我们先创建一个hbase的表。

进入到hbase的shell下执行:

>create 'member','id','address'

>put 'member','r1','id:address','dabaojiao'

要用hive关联hbase的表需要把hbase/lib和hadoop/share/hadoop/common/lib下的一些jar包拷贝到hive/lib目录下。

Hbase下的

hbase-client-0.96.1.1-cdh5.0.0.jar，

hbase-server-0.96.1.1-cdh5.0.0.jar，

hbase-common-0.96.1.1-cdh5.0.0.jar，

hbase-protocol-0.96.1.1-cdh5.0.0.jar,

htrace-core-2.01.jar

Hadoop下的

hadoop-common-2.3.0-cdh5.0.0.jar

复制完后要重启hive。

进入hive的shell，关联hbase中的member表，注意此时hbase一定要启动哦。

在shell下输入

>CREATE EXTERNAL TABLE hbase_member(key string, value string)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" = "id:address")

TBLPROPERTIES("hbase.table.name" = "member");

如果不成功就用日志模式启动hive，会有详细的错误堆栈信息，关联hbase表时比较常见的异常是ClassNotFoundException和ClassNotFoundException。这是因为缺少了hadoop或者hbase的jar包，只要找到这些jar包拷贝到hive/lib目录下即可。

5.2内部表

hbase中没有创建表，直接在hive中创建内部表，间接在hbase中创建出表

>create table hbase_table_1(key int, value string)

stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

with serdeproperties ("hbase.columns.mapping" = ":key,cf1:val")

tblproperties ("hbase.table.name" = "xyz");

6.使用serde导入json到hive中：

实际使用时可能会有这样的场景，就是把json格式的文件数据导入到hive中，可以通过serde的方式，常见的有2种serde分别介绍下。

6.1通过hive-json-serde-0.2.jar（google code）导入：把hive-json-serde-0.2.jar拷贝到hive/lib下

执行建表

CREATE TABLE thxd

(

callType STRING,

callMobile STRING,

callTime STRING,

callTimeCost STRING

)

ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.JsonSerde'

STORED AS TEXTFILE;

再导入json文件

LOAD DATA LOCAL INPATH "/home/hadoop/thxd.txt" OVERWRITE INTO TABLE thxd;

注意1）thxd.txt是在linux文件系统上的，不是hdfs里，所以从local导入。也可以从hdfs里导入。

2）txhd.txt里并不是合法的json格式，如果改成合法的hive-json-serde-0.2.jar将无法工作。

7.2通过https://github.com/rcongiu/Hive-JSON-Serde 的serde

把json-serde-1.3-jar-with-dependencies.jar拷贝到hive/lib

>CREATE TABLE complex_json (

DocId string,

User struct<Id:int,

Username:string,

Name: string,

ShippingAddress:struct<Address1:string,

Address2:string,

City:string,

State:string>,

Orders:array<struct<ItemId:int,

OrderDate:string>>>

)

ROW FORMAT SERDE'org.openx.data.jsonserde.JsonSerDe';

>LOAD DATA LOCAL INPATH'/home/hadoop/test.json' OVERWRITE INTO TABLE complex_json;

>SELECT User.Orders FROM complex_json;

8.通过内置函数json_tuple和get_json_object导入json进入hive

由于get_json_object效率低下，官方推荐使用json_tuple

8.1通过json_tuple导入

8.1.1先建表：

>CREATE TABLE thxd_json ( json string );

8.1.2导入数据（这个是标准的json格式文件，后缀名没关系，但格式要对。可在http://www.bejson.com/在线检查json格式）

>LOAD DATA LOCAL INPATH '/home/hadoop/test.json' INTO TABLE json_table;

8.1.3使用json_tuple查询

>select v1.code, v1.errorDescription, v2.callMobile, v2.callTimeCost

from thxd_json jt

LATERAL VIEW json_tuple(jt.json,'code','errorDescription','dataObject') v1

as code, errorDescription, dataObject

LATERAL VIEW json_tuple(v1.dataObject,'callMobile','callTimeCost') v2

as callMobile, callTimeCost;

推荐文章：

CDH5 hadoop-hive-habse单机版配置，hadoophivehbase