Hadoop 高级程序设计（三）---自定义Partition和Combiner，hadoopcombiner

文章由LinuxBoy分享于2019-03-27 05:03:46热评（160）

Hadoop 高级程序设计（三）---自定义Partition和Combiner，hadoopcombiner

Hadoop提供了缺省的Partition来完成map的输出向reduce分发处理。有时也需要自定义partition来将相同key值的数据分发到同一个reduce处理，为了减少map过程输出的中间结果键值对的数量，降低网络数据通信开销，用户也可以自定制combiner过程。

自定制Partition过程：

在mapreduce中，partition用于决定Map节点输出将被分到哪个Reduce节点，MapReduce提供的缺省Partition是HashPartition,他根据每条数据的主键值进行hash操作，获得一个hash码，然后对当前的分区数量进行取模计算，以此决定分发到哪个reduce节点。用户自定制的Partition，重载了getPartition()方法，对于上篇的倒排索引复合键，将<itr.nextToken()+":"+split.getPath().toString().substring(splitIndex),"1">拆开.代码：

public class NewPartition extends HashPartitioner<Text,Text>{
			String keyinfo;
			public int getPartition(Text key,Text value,int numReducerTasks){
				keyinfo = key.toString().split(":")[0];
				return super.getPartition(new Text(keyinfo), value, numReducerTasks);
			}
		}

自定制的partition使用：

job.setPartitionClass(NewPartition.class);
而用户自定制的combiner，借鉴上篇的倒排索引的部分代码：

public static class combiner extends Reducer<Text,Text,Text,Text>{
		private Text info = new Text();	//为了拆分 key值 准备存储新的value值
		public void reduce(Text key,Iterable<Text>values,Context context) throws IOException, InterruptedException{
			int sum = 0;
			for(Text val:values){
				sum += Integer.parseInt(val.toString());
			}
			int splitIndex = key.toString().indexOf(":");
			info.set(key.toString().substring(splitIndex+1)+":"+sum);	//新的value值
			key.set(key.toString().substring(0, splitIndex));
			context.write(key, info);
		}
	}

自定制的combiner用：

job.setCombinerClass(combiner.class);

在hadoop中，map->combine->partition->shuffle->reduce，五个步骤的作用分别是什？举例说明

combine和partition都是函数，中间的步骤应该只有shuffle！
combine分为map端和reduce端，作用是把同一个key的键值对合并在一起，可以自定义的。
partition是分割map每个节点的结果，按照key分别映射给不同的reduce，也是可以自定义的。
shuffle就是map和reduce之间的过程，包含了两端的combine和partition。

hadoop的combiner过程中对同一key中的value是怎排序的，比如{100：[20,18,3,30]}中

默认就是不排序的

推荐文章：

Hadoop 高级程序设计（三）---自定义Partition和Combiner，hadoopcombiner