Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job

文章由LinuxBoy分享于2019-03-27 03:03:19热评（461）

从Physical Plan到Map-Reduce Plan

注：因为我们重点关注的是Pig On Spark针对RDD的执行计划，所以Pig物理执行计划之后的后端参考意义不大，这些部分主要分析流程，忽略实现细节。

入口类MRCompiler，MRCompilier按照拓扑顺序遍历物理执行计划中的节点，将其转换为MROperator，每个MROperator都代表一个map-reduce job，整个完整的计划存储在MROperPlan类中。其中针对Load和Store操作会做以下特殊处理：

以下是MROperPlan示意图：

JobControlCompiler将Map-Reduce Plan编译成Hadoop Job。

入口方法是：

public JobControl compile(MROperPlan plan, String grpName) throwsJobCreationException

compile方法针对每个MROperator又会调用getJob方法，生成Hadoop Job:

private Job getJob(MROperPlan plan, MapReduceOper mro, Configuration config,PigContext pigContext) throws JobCreationException。

Pig实现的Mapper&Reducer继承结构如下：

其中：

推荐文章：