基于Hadoop实现通用的并行任务处理

文章由LinuxBoy分享于2019-03-31 10:03:41热评（55）

基于Hadoop实现通用的并行任务处理

利用 Hadoop 云技术框架实现通用的并行任务处理功能，将原本只是单机程序改造成最终运行在 Hadoop 云平台里。

优点 :

1. 分布并行运行

基于 MapReduce 及 dfs （分布式文件系统）实现了分布并行运行，可实现一个NoSplitInputFormat 类用于支持单个 Map 任务运行。

2. 出错自动重试

Hadoop 框架具备可配置的出错任务自动重试功能，配置参数为：

mapred.map.max.attempts 。

3. 可保留原始输入重复运行以用于调试

当尝试手动再次运行或调试上一个任务时， Hadoop 提供的 IsolationRunner 可实现保留原始输入本地再次执行的功能。相应配置参数为：

keep.task.files.pattern 。

4. 网页端运行状态实时监控，比如可以实时动态显示处理进度可实现 CustomerProcess 类，通过调用 TaskReporter 的 setProgress 方法实现网页端进度条控制，可在 Map 任务的 setup 里启用一个心跳任务执行CustomerProcess 功能。

5. 方便的网页端日志查询

Hadoop 强大的网页监控功能可提供日志的实时收集。

6. Hadoop 框架其它的优点，如大数据量存储及处理利用大集群，大存储实现单机可能没法完成的任务。

缺点：

1. 只能直接处理来自 dfs 上的文件

由于任务的分布式运行特征，数据只能预先存储在 dfs 上，当然也可以利用Hadoop 的 fuse-dfs 模块实现 dfs 上的数据映射到本地文件系统。如调用 Oracle 的sqlldr 工具加载数据时，可采取这种形式，从而避免数据由 dfs 转移至本地文件系统这一过程。

注：由于 fuse-dfs 自身的的限制，有些任务可能没法这样实现，特别是牵涉到写文件功能时，如解压缩功能等。

2. 不能直接支持对文件的随机写功能

由于某些 dfs 本身的限制无法提供输出流的随机写功能（ api 上直接没有提供seek 功能），对于需要经常改写较大文件的内容时，这时就没有比较直接的处理方式了。

注意事项：

1. 要注意利用 Hadoop DistributedCache 技术实现依赖包和配置的分布由于任务的分布运行特性，为了保证产品的易维护性，可以将产品所依赖的 jar包和配置文件分发到 dfs 上。 Hadoop 框架分别提供了：

DistributedCache.addFileToClassPath ，可用于分发 jar 包DistributedCache.addArchiveToClassPath ，可用于分发配置文件。

2. 利用序列化将参数传入每一个 map 任务，由于 Map 任务是以单独的进程运行，在传入参数时应采用 Hadoop 提供的序列化功能实现有可能跨机器不同进程间的参数传入。 Hadoop 框架分别提供了：

DefaultStringifier.store ，可用于序列化

DefaultStringifier.load ，可用于反序列化

3. 利用持久化将返回参数传出

在 Map 任务返回参数时也应采用序列化的方式将参数序列化至 dfs 上存储。

4. 应仔细设计传入参数

在设计传入给每一个 Map 任务的参数时应仔细斟酌。比如设计 FTP 下载功能时，应采取如下策略：同时执行多个 Map 任务实现多个文件同时下载，而不是同时执行多个 Hadoop Job ，或是在一个 Map 任务里多线程运行。具体实现可利用 Hadoop 的 InputFormat.getSplits 自行实现可控的支持并发运行多个 Map 任务的功能。

5. 开发调试时可以让 Hadoop 以 Local 方式运行

在做开发调试时，为避免多机器分布运行带来的调试不便，可通过设置如下参数以支持 Hadoop 任务单机单进程运行：

fs.default.name 为 file:///

mapred.job.tracker 为 local

基于Hadoop实现通用的并行任务处理