MapReduce介绍，mapreduce

文章由LinuxBoy分享于2019-03-27 05:03:13热评（628）

MapReduce介绍，mapreduce

Thanks @读程序的手艺人

MapReduce对数据的有什处理要?

1、确实是有要求
2、和它们的具体过程是相关的，数据是要能打散和聚合的才行。
3、各式各样的数据其实是可以通过巧秒的设计，转换成打散和聚合的，我也是见识过牛人是如何转换的，需要经验，你可以看看如中国人民大学的陆恒老师的”Hadoop 实战”，写的是中文当中不错的。

MapReduce实现Apriori代码

Apriori，主体分两步走：
a. 根据原始数据得到1 - k项集,再根据support（支持度）得到频繁1项集，频繁2项集，频繁3项集...... 一直到频繁k项集，这一步是运算量最大的，也是hadoop集群的瓶颈。
b. 根据置信度 confidence ，得到所有强规则。
因为 b 步骤太简单，为了省事，我没写在算法里，算法里只求出了所有频繁集。而这一步骤也分为两步：
a. 迭代得到K项集，具体迭代方法就是将上一次迭代的结果k-1项集和1项集进行组合，从而得到K项集。
b. 根据支持度，得到频繁K项集，不断迭代a,b步骤，直到K为最大为止。

推荐文章：

评论暂时关闭

最新云计算教程

Linux头条