Pig安装及本地模式测试,体验


Pig是Apache的一个开源项目,用于简化MapReduce的开发。研究了一段时间,略有心得。系废话不多说,我们直接步入实际测试。

Pig的运行有两种模式,本地单击模式和集群模式。我目前只是测试学习,是为了检验Pig的运行流程以及学习语法,没必要使用分布式模式,分布式模式下也都是大同小异的。

我的环境:

1. 系统: Ubuntu 12.04 64位

2. JDK:Oracle JDK1.7.0_15

3. Pig:0.9.2

和Apache其他项目一样,安装Pig都很简单,解压到系统任意目录,设置环境变量就能使用。

export PIG_HOME=path
export PATH=$PATH:$PIG_HOME/bin

设置环境变量后注销后登录或者打开终端输入:source /etc/profile 使新加入的环境变量生效 最后在终端中输入:pig -version,正常应该出现如下字样

Warning: $Hadoop_HOME is deprecated.

Apache Pig version 0.9.2 (r1232772)
compiled Jan 18 2012, 07:57:19

到这里Pig的安装算是成功了。(当然如果不成功检查你的JDK安装及环境变量是否正确) 现在你可以输入:

pig -x local

进入一个外壳程序。

学习Hadoop一般的入门都是Oreilly的《《Hadoop权威指南》》中文版,其中测试MapReduce的第一个程序就是统计一个文本文件中单词出现的次数。Pig是为了简化MapReduce开发的,肯定也是能实现这个的。我以这个为例,写一个测试的例子。

相关链接:Hadoop权威指南(中文第2版)PDF

我准备了一个文件,文件名为:nie.txt 里边是一片普通的英文文章,比较长,大约52KB。

  • 1
  • 2
  • 下一页

相关内容