spark

文章由LinuxBoy分享于2019-03-27 03:03:49热评（607）

1. 比起hadoop hr在于快。。

2.spark 利用 delay schedule来解决速度。（简单的来说就是延迟很短的时间来看本机是否可以利用。而不是copy）

3.支持3种语言

scala(2.10.x)

python（推荐python2.7。。最好不要用3.0以上的）

java（请用java8）（java8以前版本的太慢了。不推荐使用）

4.有4种模式看可以运行 local（多用于测试） yran mesos standalone

这里有必要说下scala语言

基于jvm的fp+oo

与java互操作

var x: Int =7

def square(x:Int):Int =x*x

def square(x:Int):Int ={x*x} //在block中的最后一个值将被返回

def square(x:Int):Int ={print.....} //不返回

scala-fp的方式处理集合

val list=(1,2,3)

list.foreach(x=>println(x))

list.map(_+2)

。。。

自己可以去看看。

spark runtime

driver program

sparkcontext cluster manager 2个worker node （executor cache task ,task ）

核心抽象

resilient distriuted dataset

a list of partitions

a function for computing each split

a list of dependencies on other rdds

上面是必要的

还有3点，这里不介绍了

如何创建rdd

直接从集合转化

从各种(分布式)文件系统来

推荐文章：