Hadoop-0.20.2安装配置，hadoop0.20.2

文章由LinuxBoy分享于2019-03-27 06:03:25热评（130）

Hadoop-0.20.2安装配置，hadoop0.20.2

摘要：本文介绍了在VirtualBox下安装3台ubuntu虚拟机，并搭建Hadoop环境的基本步骤，最后运行了Hadoop自带example中的wordcount例程。

1 实验环境

VirtualBox版本：4.3.2 r90405

ubuntu虚拟机版本：ubuntu11.04

ubuntu虚拟机jdk版本：jdk-1.6.0_45

ubuntu虚拟机hadoop版本：hadoop-0.20.2

2 总体概述

要在单独的一台计算机上实现Hadoop多节点分布式计算，需要通过虚拟机建立多个主机，本文使用VirtualBox虚拟机搭建多节点平台。完成新建虚拟机、安装ssh、配置密钥实现无密码访问、安装jdk、安装hadoop并配置，并运行Hadoop中自带的wordcount程序来验证环境配置。

3 详细步骤

3.1 虚拟机安装

由于要同时运行多台虚拟机，考虑到系统负载，本次实验选择的是ubuntu的早期版本10.04，下载好系统镜像文件后，打开VirtualBox，新建一个OS，经过简单的配置后一台虚拟机便建好了，然后启动虚拟机，选择镜像文件目录，经过系统选项后，系统便建好了，然后利用相同的方法再建一台，三台虚拟机分别命名为UB01、UB02和UB03，用户名都设置为vbox，登陆密码也都为vbox，建好后用ifconfig查看三台虚拟机的ip地址，可以看出它们的ip各不相同，且相互之间可以ping通，如下图所示，到这里就完成了虚拟机安装。

能够ping通后，再配置三台机器的别名，这样就不用通过ip互访了，打开/etc/hosts，添加内容：

223.3.77.207 UB01

223.3.73.102 UB02

223.3.85.84 UB03

对于UB01按如上书写，对于UB02如下，UB03则可一并推出(这里的每一个ip地址都应该是ifconfig后看到的，因机而异）

设置完别名后，通过ping虚拟机别名便可ping通，结果如下图：

3.2 ssh安装及配置

仅仅能ping通还不够，为了完成分布式计算系统，需要三台机器相互之间可以无密码访问（或者是master可以无密码访问slave）。首先在三台虚拟机上安装ssh-openserver：

sudo apt-get install ssh rsync

完成后，在个人目录/home/vbox/下新建.ssh文件夹，在.ssh中执行：

ssh-keygen -t rsa

系统会问你一些配置，由于是初次实验，不需要这些内容，点回车继续下去即可。完成后会在.ssh/下生成id_rsa和id_rsa.pub两个文件，三台机器做同样处理。

秘钥生成好以后我们需要把三台虚拟机的密钥相互交换，如在UB01中执行

scp ~/.ssh/id_rsa.pub UB02:/home/vbox/.ssh/id_rsa.pub.UB01

scp ~/.ssh/id_rsa.pub UB03:/home/vbox/.ssh/id_rsa.pub.UB01

上述两句的作用是把本机上的id_rsa.pub文件（UB01上密钥）复制到UB02和UB03上的相同位置，并重命名为id_rsa.pub.UB01。

对UB02和UB03做同样处理，完成后每一个机器的/.ssh/中应该有3个密钥，一个是自己的，另两个是别人的，把自己的密钥连同别人的两个密钥加到授权密钥中（对UB01）

cat id_rsa.pub >> authorized_keys;

cat id_rsa.pub.UB02 >> authorized_keys;

cat id_rsa.pub.UB03 >> authorized_keys;

上述3句分别将3个密钥加到同一个授权密钥authorized_keys中。

对UB02和UB03做同样处理。这样3个机子都分别有了其它两个机子的访问权利。

接下来检验相互之间是否可以通过ssh实现无密码访问，在终端输入（对UB01）：

ssh UB02;

访问成功会显示欢迎信息，初次访问需要yes，之后就可以直接访问了，实验截图如下：

3.3 jdk安装及配置

在三台虚拟机中都要安装jdk,只需要在一台机子上安装配置，同时将jdk文件夹复制给其它两台机子，可不用各自安装。

我们选择的jdk文件是jdk-6u45-linux-i586.bin，下载完成后把.bin包移动到个人目录/home/vbox/，执行

chmod u+x jdk-6u45-linux-i586.bin;

sudo -s ./jdk-6u45-linux-i586.bin;

等待安装完成，会在当前路径生成jdk目录，接下来设置环境变量，在/etc/environment中添加JAVA_HOME、CLASSPATH和PATH的值，reboot后在Terminal输入java -version会看到版本信息，证明安装成功，安装结果如下图:

3.4 Hadoop安装及配置

也是在三台机子执行同样的操作，可以在一台机子上操作了，然后复制给其它机子。

将下载到的hadoop-0.20.2.tar.gz移动到个人目录/home/vbox/，执行安装操作：

tar -xzvf hadoop-0.20.2.tar.gz //解压文件

会在当前路径生成hadoop文件夹，接着修改文件夹所有者：

chown vbox:vbox hadoop-0.20.2

随后把hadoop的环境变量加入到/etc/environment文件中，添加完后文件如下图：

接下来需要修改hadoop/conf/目录下的配置文件，共有6个文件需要修改，分别是masters、slaves、core-site.xml、mapred-site.xml、hdfs-site.xml、hadoop-env.sh，修改如下图：

文件hadoop-env.sh中添加JAVA_HOME变量值，设置为：JAVA_HOME=/home/vbox/jdk1.6.0_45.以上配置信息对UB01、UB02和UB03完全一致。

3.5wordcount程序测试

本测试用的文件为file，大小分别为128M，测试时进入/home/vbox/hadoop/目录，格式化文件系统并启动所有服务

hadoop namenode-format;

start-all.sh

开启服务后可以通过jps命令和网页查看hadoop系统情况，如下图：

建立input输入并将文件写入input

hadoop fs -mkdir input;

hadoop fs -put fileinput; //file是文本文件的路径，上传到HDFS中

执行wordcount并察看计数结果

hadoop jarhadoop-0.20.2-examples.jar wordcount input output

实验过程及结果如下图：

myeclipse配置hadoop服务器，怎配置，教，我使用的是hadoop-0202插件

配置hadoop服务器？我是用eclipse对HADOOP程序进行开发，可以直接hadoop/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse的plugins目录下就可以了。

hadoop配置遇到问题

你看一下启动服务的拿下log日志，那几个服务都没有打开，里面应该有错误提示

推荐文章：

Hadoop-0.20.2安装配置，hadoop0.20.2