Hadoop DistributedCache使用案例,hadoopcache


背景

公司数据处理具有两个计算框架,单机框架和MR框架。目前我已经抽象出一套API interface, 供业务计算开发人员使用。并分别在两个计算框架下实现了API的执行调度。应用开发人员有时间需要通过上传override的配置文件,来调整业务计算参数。单机框架易于实现,但在MR框架里,需要解决override的配置文件的分发问题。

实现

1. 通过命令行传入配置文件路径;

2. MR job client端读入本地配置文件,并加入DistributedCache;并把命令行参数不加修改,附加到MR child JVM启动参数数组中。

3. MR child JVM启动后检查启动参数, 发现有配置文件,且配置文件不存在,则将配置文件路径替换为DistributedCache对应的本地路径。

4. child JVM job读入替换后的配置文件,并应用到mr job中,实现计算参数的修改。


参考

http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/


相关内容