Hadoop学习之Eclipse构建Hadoop项目


    之前根据Hadoop官方文档对HDFS、MapReduce的架构、配置管理等进行了学习,但某些地方官方文档讲解的比较模糊。做过开发的人都能够体会,官方文档有些类似业务规则或者要求,而真正的细节还是需要深入研究源代码的。基于以上的原因,决定深入学习Hadoop的源代码,虽然现在已经出现Hadoop-2.x的文档版本,但还是决定学习Hadoop-1.x的源码,而要想研究源代码最好的方法还是先构建Hadoop项目,然后根据代码的执行进行跟踪调试。所以这篇文章主要介绍了如何在Eclipse下构建Hadoop项目。

    首先在Eclipse下新建Hadoop项目。具体步骤为在File菜单下选择New子菜单,然后选择Project菜单,出现下图所示的提示框,在该提示框中选择Java Project并点击Next按钮进行下一步。


    在接下来的对话框中输入项目的名字,例如hadoop-1.2.1,并选择要使用的JRE,其余的可以保持默认,点击Next按钮进入下一个对话框。


    在弹出的对话框中不做任何修改,点击Finish按钮完成新项目的建立。


    至此,已经完成了Java项目的建立,但该项目下暂时没有任何代码文件,第二步就是要拷贝Hadoop的源文件到该项目中。将Hadoop部署目录下src文件夹中的core、hdfs、mapred、tools文件拷贝到上述新建项目中的src下,然后在上述项目上右键单击,在弹出的菜单中选择Build Path,再选择Configure Build Path,弹出下图所示的对话框。


    在该对话框中点击Add Folder按钮,出现下图的对话框,在下图中选择core、hdfs、mapred和tools,然后点击OK按钮,会返回到上图的对话框,此时会报错,需要在上图中选择src,然后点击右侧的Remove按钮。


    做完上述的操作后的对话框如下所示,现在完成了添加源文件的工作,第三步则是添加Hadoop需要的jar文件。


    在上述项目上右键单击,在弹出的菜单中选择Build Path,再选择Configure Build Path,在弹出的对话框中点击Libraries标签,如下图所示:


    点击上图右侧的Add External JARs按钮,会弹出选择JAR文件的文件选择框,这时可以选择Hadoop部署根目录及lib文件夹中JAR文件,完成该操作后的对话框如下,点击OK按钮完成添加JAR文件到项目路径的工作。


    这时RccTask.java会提示下图的错误信息,这是由于项目路径中缺少ant.jar文件所致,如何添加可以参考上面讲述的添加jar文件的步骤。将ant.jar文件添加到路径中后,错误信息消失,Hadoop项目已经成功构建完毕。



相关内容