开源力量公开课第四十九期-Spark:大数据时代的电光火石
开源力量公开课第四十九期-Spark:大数据时代的电光火石
开始时间: 2014-04-01 20:00
结束时间: 2014-04-01 22:00
形式: 线上公开课
详情: http://www.osforce.cn/openclass/65/show?id=fat1
课程名称:开源力量公开课第四十九期 - Spark:大数据时代的电光火石
副标题: Spark源码研究分享:整体架构和rdd计算流程
课程背景:
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。
课程大纲:
1. spark简介
推荐链接:http://www.tuicool.com/articles/2uA773
2. scala语法介绍
函数式编程
闭包
几个关键的函数:map 和flatmap
3. spark的关键组件
master
worker
sparkContext(client)
4. 4种rdd
输入rdd,转化rdd,缓存rdd
行动rdd(只有最后一种才会进行计算)
5. 一个wordcount例子
解释刚才讲过的rdd,图例解释DAG的概念
6. stage的概念
stage存在的意义,stage和依赖的关系
什么是数据的pipeline
7. 两种Task
Task的提交与执行
8 计算结果
讲师介绍:
白硕,有十余年软件开发和架构设计经验,喜欢研究各种开源框架,并积累了一些心得。目前正在研究基于scala的spark和kafka。现在在亚信联创的橘云大数据部门担任架构师.
参考我的笔记:baishuo491.iteye.com
评论暂时关闭