spark


spark

1. 比起hadoop hr在于快。。


2.spark 利用 delay schedule来解决速度。(简单的来说就是延迟很短的时间来看本机是否可以利用。而不是copy)


3.支持3种语言

  scala(2.10.x)

  python(推荐python2.7。。最好不要用3.0以上的)

  java(请用java8) (java8以前版本的太慢了。不推荐使用)


4.有4种模式看可以运行  local(多用于测试) yran mesos standalone 


这里有必要说下scala语言

基于jvm的fp+oo

与java互操作

var x: Int =7

def square(x:Int):Int =x*x

def square(x:Int):Int ={x*x} //在block中的最后一个值将被返回

def square(x:Int):Int ={print.....} //不返回


scala-fp的方式处理集合

val list=(1,2,3)

list.foreach(x=>println(x))

list.map(_+2)

。。。

自己可以去看看。


spark runtime


driver program 

sparkcontext              cluster manager              2个worker node  (executor  cache  task ,task )


核心抽象

resilient distriuted dataset

a list of partitions

a function for computing each split

a list of dependencies on other rdds

上面是必要的

还有3点,这里不介绍了


如何创建rdd

直接从集合转化

从各种(分布式)文件系统来












相关内容