Spark与Hadoop MapReduce的对比分析,hadoopmapreduce


       Spark与Hadoop MapReduce均为开源集群计算系统,但是两者适用的场景并不相同。其中,Spark基于内存计算实现,可以以内存速度进行计算,优化工作负载迭代过程,加快数据分析处理速度;Hadoop MapReduce以批处理方式处理数据,每次启动任务后,需要等待较长时间才能获得结果。在机器学习和数据库查询等数据计算过程中,Spark的处理素的可以达到Hadoop MapReduce 的100倍以上。因此,对于实时要求较高的计算处理应用,Spark更加适用;对于海量数据分析的非实时计算应用,Hadoop MapReduce更为适合。同时,相比Hadoop MapReduce,Spark代码更加精简,且其API接口能够支持Java、Scala和Python等常用编程语言,更方便用户使用。

相关内容