【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(6),spark亚太


结束historyserver的命令如下所示:

第四步:验证Hadoop分布式集群

首先在hdfs文件系统上创建两个目录,创建过程如下所示:


Hdfs中的/data/wordcount用来存放Hadoop自带的WordCount例子的数据文件,程序运行的结果输出到/output/wordcount目录中,透过Web控制可以发现我们成功创建了两个文件夹:

接下来将本地文件的数据上传到HDFS文件夹中:


透过Web控制可以发现我们成功上传了文件:


也可通过hadoop的hdfs命令在控制命令终端查看信息:


运行Hadoop自带的WordCount例子,执行如下命令:


运行过程如下:





Spark课程都在讲什内容?

《18小时内掌握Spark》课程模块
第1堂课:Spark的架构设计
第2堂课:实战使用三种语言开发Spark
第3堂课:快速掌握Scala
第4堂课:Spark集群的安装和设置
第5堂课:编写Spark程序
第6堂课:SparkContext解析和数据加载以及存储
第7堂课:深入实战RDD
第8堂课:spark的原理和使用
第9堂课:Spark程序的测试
第10堂课:Spark的优化
第11堂课:Spark的其它主题介绍
 

我想学习Spark,怎着手开始?

可以读读Spark相关的书籍,不过这类书籍确实不是很多。Spark技术相对Hadoop,资料比较少。很多都是国外的资料,中文版的少。
不知道你的基础,建议还是参加课程学习,更快速。比自己摸索强。推荐Spark亚太研究院的《18小时内掌握Spark》这个课程。这是个入门级的课程
 

相关内容