分析MapReduce与Storm的异同,mapreducestorm


[Author]: kwu 

分析MapReduce与Storm的异同

1、MapReduce与Storm处理数据的不同:
MapReduce  处理大数据、批处理,数据是相对不变的。

Storm:流数据、实时处理,流数据在实时变化。
对流数据进行并进处理
1) 对于单机来说,使用多进程,多线程。
2) 多机同时多进程、多线程的数据处理(分布式)

2、MapReduce 与storm都是分阶段
1)map、reduce
2)storm处理的阶段 :  spout、bolt 
3)MR运行是会结束的,storm是永不停的相当于tomcat的服务。
4)单位时间内处理的数据量,MR大于Storm
5) stream 流时计算。需要实时处理的数据,地震的数据,电商网站的实时数据,推荐,航班。
6)需要看每个月的结果,用MR来处理


3、tuple是storm数据处理的基本单位
实现上相当于MR的KV键值对

4、spout是storm对外的接口
spout是storm数据输入的来源进入了storm处理范围之内
之后的数据交给,bolt阶段处理。

spout --> bolt (处理的单元为 tuple)

通过 oo 封装成 topology
类型MR中的JOB的概念。



5、相关配置文件 
MapReduce: mapred-site.xml
storm: Storm.yaml
配置项对大小写及空格敏感

相关内容