开源力量公开课第四十九期-Spark:大数据时代的电光火石


开始时间: 2014-04-01 20:00

结束时间: 2014-04-01 22:00

形式: 线上公开课


详情: http://www.osforce.cn/openclass/65/show?id=fat1

 

课程名称:开源力量公开课第四十九期 - Spark:大数据时代的电光火石
副标题: Spark源码研究分享:整体架构和rdd计算流程


课程背景:

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。


课程大纲:

1. spark简介
推荐链接:http://www.tuicool.com/articles/2uA773

2. scala语法介绍
函数式编程
闭包
几个关键的函数:map 和flatmap

3. spark的关键组件
master 
worker 
sparkContext(client)

4. 4种rdd
输入rdd,转化rdd,缓存rdd
行动rdd(只有最后一种才会进行计算)

5. 一个wordcount例子
解释刚才讲过的rdd,图例解释DAG的概念

6. stage的概念
stage存在的意义,stage和依赖的关系
什么是数据的pipeline

7. 两种Task
Task的提交与执行

8  计算结果



讲师介绍:

白硕,有十余年软件开发和架构设计经验,喜欢研究各种开源框架,并积累了一些心得。目前正在研究基于scala的spark和kafka。现在在亚信联创的橘云大数据部门担任架构师.

参考我的笔记:baishuo491.iteye.com


相关内容

    暂无相关文章