Hadoop 使用常见问题，hadoop使用常见问题

文章由LinuxBoy分享于2019-03-27 08:03:29热评（62）

Hadoop 使用常见问题，hadoop使用常见问题

最近一个月刚开始接触Hadoop，这两天在搞排序的时候遇到了点问题，终于解决了，
所以想着可以将其记录下来，防止以后忘记，还可以为我国的社会主义建设做贡献。本篇文
章的内容主要就是在Hadoop使用中遇到的各种问题以及解决方法。

问题1： Can’t read partitions file
背景:
Hadoop进行全局排序时有一个非常高效的算法–terasort，这种方法充分利用Hadoop本身在reduce阶段shuffle过程中对key的排序，但默认的shuffle过程只能保证每个reduce任务内的key是有序的，无法保证全局有序，因为键值在partition时是通过hash来分配给不同reduce任务的，为了实现全局的排序，一种策略是根据键值大小进行partition，使得reduce任务间是有序的，但是在为reducer分配任务前是无法得知键值的分布情况容易造成分配给每个reducer的任务量不均匀，效率低下。terasort就是通过提前抽样获取键值的分布，生成一个partitions file，map会根据这个partitions file建立trie数，从而更为有效的partition。
问题:
进行terasort全局排序时出现java.lang.IllegalArgumentException: Can’t read partitions file这样的错误，但在HDFS中是可以找到partition文件的。
原因：
在指定reduce task数量时指定的过多，键值的个数小于task数量，导致partition文件中有标识不同reducer的键值相同（还是鸽巢原理呢）。
解决方法：
减少reduce task的数量到合适的数量，至少是（抽到样本键值数-1）个。

问题2：Wrong FS & 日志无法收集（不能查看）
背景：
Hadoop可以有不同的集群（集群之间性能，配置会有不同），另外Hadoop的计算和数据资源是分离的，在某些需求下，更换了集群的计算资源。
原因：
在配置中只更换了计算资源的集群，使用的确实原来集群的数据节点。
解决方法：
更改配置，使用同一集群下的计算资源和数据资源。
问题3：运行Hadoop程序使用通用配置选项不生效
背景：
在运行Hadoop程序是有一些通用性的选项的比如设置队列优先级等。
问题：
输入对应的命令但是不生效
原因：
代码有误。
解决方案：
要使用通用性的配置选项，在代码上有两个地方需呀注意，一是在类的定义时需要继承Configured类并实现Tool，例如：
public class NGramCounter extends Configured implements Tool
二是在实现run函数时对参数的解析时要这样：
public int run(String[] args) throws Exception {
// TODO Auto-generated method stub
Configuration conf = getConf();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
conf获取的时候不要直接new，而是应该使用继承自Configured的getConf方法获得，另外还需要使用GenericOptionsParser类对通用的参数进行解析。
问题4：运行Hadoop程序时类型不匹配
背景：
Hadoop 程序需要运行时需要设定mapper和reducer的input和output 的key value类型。
问题：
直接上段代码说明吧：
使用了这样的mapper：
public static class RawGramCountMapper extends Mapper<BytesWritable, BytesWritable, IntWritable, IntWritable> { public void map(BytesWritable key, BytesWritable value, Context context){ context.write(new IntWritable(1),new IntWritable(1)); } }
使用了这样的reducer：
public static class RawGramCountReducer extends Reducer<IntWritable, IntWritable, Text, IntWritable> {}
在使用启动任务的代码中出现了这样的语句：
job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class);
运行时会报出类似这样的错误：Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.IntWritable
原因：
设置有误，mapper 和 reducer的output key 和value的类型必须通过显示的设置来确定，仅仅通过泛型的类型指定是不可取的，而
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
对mapper和reducer都生效。
解决方案：
如果mapper 和 reducer 的ouput key和value的类型是相同的，那么可以通过
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
来设定。
如果mapper 和 reducer 的ouput key和value的类型是不相同的，那么需要通过
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
设定两者的kv类型。和
job.setMapOutputKeyClass(IntWritable.class);
job.setMapOutputValueClass(IntWritable.class);
单独设定mapper的output kv类型。
先发表，待续~~

推荐文章：

Hadoop 使用常见问题，hadoop使用常见问题