Hadoop-2.4.1学习之Streaming编程，hadoopstreaming

文章由LinuxBoy分享于2019-03-27 06:03:37热评（255）

Hadoop-2.4.1学习之Streaming编程，hadoopstreaming

在之前的文章曾提到Hadoop不仅支持用Java编写的job，也支持其它语言编写的作业，比如Hadoop Streaming（shell、python）和Hadoop Pipes（c++），本篇文章将学习Hadoop Streaming编程。Streaming是hadoop自带的工具，封装在hadoop-streaming-版本号.jar中，可以使用hadoop jar hadoop-streaming-版本号.jar命令启动，在该命令中还需要指定mapper或/和reducer，其中mapper和reducer任务既可以是java类，也可以是可执行文件（如cat）或脚本文件（如python）。该工具将创建MapReduce作业，将作业提交给集群处理并监控作业的执行进度等，下面分析一下Streaming的执行过程。

当可执行文件做为mapper或者reducer时，每个mapper任务或者reducer任务在mapper或者reducer初始化后将可执行文件做为独立的进程加载运行。当mapper任务运行时，它将输入转换为行然后把这些行传递给该进程的标准输入stdin，同时mapper收集从该进程的标准输出stdout产生的行并将每行转换为键值对，这些键值对将做为该mapper的输出。默认的情况下，一行的开始部分到第一个tab符为键，剩余的部分（不包括tab符）为值，如果某行不存在tab符，则整个行将做为键，而值为null。但可通过使用-inputformat命令行选项自定义键值分隔符。当reducer任务运行时，它将输入的键值对转换为行，然后传递给该进程的标准输入stdin，同时reducer任务收集该进程标准输出stdout的输出，并转换为键值对，这些键值对将做为reducer任务的输出。同mapper任务一样，默认使用tab符分隔键值对，用户可以使用-outputformat自定义分隔符。

通过上面的描述可知，mapper和reducer的的输出都为键值对，输入都为从相应进程的stdin输入的行，不同的是mapper是将输入数据转换为行，reducer是将mapper输出的键值对转换为行。

可以通过指定stream.non.zero.exit.is.failure的值为true或false表示streaming任务退出时状态码的含义，如果为true则非0值表示失败，若为false则非0表示成功，默认情况下，streaming任务退出时的状态码非0表示任务失败。接下来看看streaming工具的语法格式，用户可以通过在命令行输入hadoop jar hadoop-streaming-2.4.1.jar –help获取该工具的具体用法，如下表所示：

参数	可选/必选	说明
-input	必选	Map阶段输入文件的路径
-output	必选	Reduce阶段的输出目录
-mapper	可选	可执行文件或者Java类，做为mapper。默认为PipeMapper
-reducer	可选	可执行文件或者Java类，做为reducer。默认为PipeReducer
-combiner	可选	可执行文件或者Java类，做为combiner。默认为PipeCombiner
-partitioner	可选	做为partitioner的Java类
-inputformat	可选	指定输入格式的Java类，默认为TextInputFormat，还可以为SequenceFileAsTextInputFormat或者自定义输入格式的Java类
-outputformat	可选	指定输出格式的Java类，默认为TextOutputFormat，也可以为自定义输出格式的Java类
-file	可选	指定了作业使用的文件，将被拷贝到集群中。推荐使用通用选项-files选线替代该选项
-numnumReduceTasks	可选	指定reducer的数量
-inputreader	可选	指定读取记录的reader类
-cmdenv	可选	<n>=<v>，像streaming传递环境变量
-mapdebug	可选	指定了map任务失败时运行的脚本
-reducedebug	可选	指定了reduce任务失败时运行的脚本
-lazyOutput	可选	延迟创建输出，例如如果输出为TextOutputFormat，输出文件仅在第一次调用Context.write时创建
-background	可选	提交作业后立即返回，不等待作业完成
-verbose	可选	打印作业的执行情况
-info	可选	打印详细的使用方式

除了上表所述的专门用于streaming的选项外，在使用streaming工具时还可以指定通用选项，但需要确保通用选项位于streaming选项之前，否则将导致失败。通用选项如下表所示：

参数	可选/必选	说明
-conf configuration_file	可选	指定应用程序的配置文件
-D property=value	可选	为指定属性设置特定值
-fs host:port or local	可选	指定NameNode
-files	可选	指定用逗号分隔的传递到MapReduce集群的文件
-libjars	可选	指定要被包含在类路径中的用逗号分隔的jar文件
-archives	可选	指定了用逗号分隔的归档文件，这些归档文件将在计算节点上解压缩

前面曾经提到，默认使用tab符分隔键值对，并且按照第一个tab符来分隔，而在很多情况下，数据不是使用tab符分隔字段，并且希望某几个字段做为键，默认情况将不满足这样的需求，此时用户可以通过使用相应的参数来修改默认设置，这几个参数为：

参数	说明
stream.map.input.field.separator	Map输入的字段分隔符，默认为\t
stream.map.output.field.separator	Map输出的字段分隔符，默认为\t
stream.num.map.output.key.fields	第几个分隔符用于分隔键值对，默认为1
stream.reduce.input.field.separator	Reduce输入的字段分隔符，默认为\t
stream.reduce.output.field.separator	Reduce输出的字段分隔符，默认为\t
stream.num.reduce.output.key.fields	第几个分隔符用于分隔键值对，默认为1

通过一个具体的示例代码来详细描述上述参数的含义，在该段代码中使用点号（.）做为分隔符，并且第四个点号之前的字段为键，第四个点号（不包含该点号）后面的字段做为值，如果某行中的点号少于四个，则正行将做为键，值为空的Text对象。代码如下：

hadoop jar hadoop-streaming-2.4.1.jar \
    -D stream.map.output.field.separator=. \
    -D stream.num.map.output.key.fields=4 \
    -input input \
    -output output \
    -mapper /bin/cat \
    -reducer /bin/cat

最后通过下面的示例代码结束Streaming编程的学习，在该代码中通过-files通用选项将两个python脚本上传到集群中，并分别做为mapper和reducer：

hadoop jar hadoop-streaming-2.4.1.jar \
-files mapperPythonScript.py, reducerPythonScript.py
-input myInputDirs \
    -output myOutputDir \
    -mapper mapperPythonScript.py \
    -reducer reducerPythonScript.py

本篇文章学习Hadoop Streaming编程，详细介绍了作业流程和参数的使用方式，至于如何编写Streaming中的mapper和reducer，则需要根据用户使用的脚本语言（如python、shell）而定。

推荐文章：

Hadoop-2.4.1学习之Streaming编程，hadoopstreaming