MapReduce介绍,mapreduce


Thanks @读程序的手艺人


MapReduce对数据的有什处理要?

1、确实是有要求
2、和它们的具体过程是相关的,数据是要能打散和聚合的才行。
3、各式各样的数据其实是可以通过巧秒的设计,转换成打散和聚合的,我也是见识过牛人是如何转换的,需要经验,你可以看看如中国人民大学的陆恒老师的”Hadoop 实战”,写的是中文当中不错的。
 

MapReduce实现Apriori代码

Apriori,主体分两步走:
a. 根据 原始数据 得到1 - k项集,再根据support(支持度)得到频繁1项集,频繁2项集,频繁3项集...... 一直到频繁k项集,这一步是运算量最大的,也是hadoop集群的瓶颈。
b. 根据 置信度 confidence ,得到所有强规则。
因为 b 步骤太简单,为了省事,我没写在算法里,算法里只求出了所有频繁集。而这一步骤也分为两步:
a. 迭代得到K项集,具体迭代方法就是将上一次迭代的结果k-1项集和1项集进行组合,从而得到K项集。
b. 根据支持度,得到频繁K项集,不断迭代a,b步骤,直到K为最大为止。
 

相关内容