高效搭建Spark完全分布式集群,spark集群


写在前面一:

本文详细总结Spark分布式集群的安装步骤,帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。


写在前面二:

使用软件说明


约定,Spark相关软件存放目录:/usr/local/yujianxin/spark,

Hadoop相关软件存放目录: /home/yujianxin/hadoop。

Spark集群示意图


一、具体安装步骤

1、安装jdk

2、安装Hadoop集群,参考http://blog.csdn.net/aaronhadoop/article/details/24867257

3、安装 Scala

cd /usr/local/yujianxin/spark/

tar -zxvf scala-2.9.3.tgz

修改/etc/profile


4、安装Spark

4.1、修改/etc/profile

cd /usr/local/yujianxin/spark/

tar -zxvf spark-0.7.2-prebuilt-hadoop1.tgz


4.2、配置Spark

4.2.1、修改配置文件spark-env.sh

cd /usr/local/yujianxin/spark/spark-0.7.2/conf

cp spark-env.sh.template spark-env.sh

vi spark-env.sh


4.2.2、修改配置文件slaves


至此,master节点上的Spark已配置完毕。把master上Spark相关配置copy到slave1、slave2中,注意,三台机器spark所在目录必须一致,因为master会登陆到worker上执行命令,master认为worker的spark路径与自己一样。

二、安装测试

2.1、测试1——通过命令行

cd $SPARK_HOME/bin

start-all.sh





2.2、测试2——通过浏览器








mysql分布式集群的搭建方案

不是很理解,比如说你3台搭建分布式,你通过什么方式区分库表?假设每台服务器上部署一个mysql实例,那你怎么把数据分布到3个mysql里面?是每个mysql里面存不同的表么?如果这样,就还可以接受。这块问题不是很大。

第二个问题,你的HA主备,意思是说两个分布式互为主备?那怎么备份,怎么切换?

其实按照你想要达到的目标。应该是每两台互做主备,形成3对主备库,然后这3对再组建一个分布式集群。

其实和你要做的可能差不多,不过逻辑上还是有差异的。HA你准备怎么做?keepalived?

另外,咨询一下,你的分布式是通过什么来实现,不同业务访问不同的数据库,每个库存不同的表?还是相同的表分布在不同数据库?

看你服务器的配置如何,其实我觉得一般来说拿3台来做备机有点浪费,如果配置允许,可以考虑做成6套mysql主备的分布式集群。

通过交叉互备实现硬件的最大利用。下图是我们之前用4台服务器做的一套集群方案。

如果还有其他问题可以和我联系。


 

搭建hadoop完全分布式集群,启动后遇到的问题

期待楼下大神的经典回复
 

相关内容