是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架, ,拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS ,因此 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。安装步骤如下:

前提:安装 hadoop 集群

下载对应版本的 spark

http://spark.apache.org/downloads.html

上传压缩包到主机并解压(spark-1.5.1-bin-hadoop2.4.tgz)

cd $HOME
tar zxvf spark-1.5.1-bin-hadoop2.4.tgz

指定本地 hadoop 的配置目录

 "export HADOOP_CONF_DIR=/$HOME/hadoop/etc" >> $HOME/spark-1.5.1-bin-hadoop2.4/conf/spark-env.sh

启动 master

#自行补充IP
$HOME/spark-1.5.1-bin-hadoop2.4/sbin/start-master.sh -h 

打包 master 并推送到各 slave 解压

cd $HOME
tar zcvf spark-1.5.1-bin-hadoop2.4.tar.gz spark-1.5.1-bin-hadoop2.4

启动s lave

#自行补充MASTER-IP
$HOME/spark-1.5.1-bin-hadoop2.4/sbin/start-slave.sh spark://MASTER-IP:7077 -m 32g

测试

#自行补充MASTER-IP
$HOME/spark-1.5.1-bin-hadoop2.4/bin/spark-submit --master spark://MASTER-IP:7077 examples/src/main//pi.py

执行成功后,可以访问 http://MASTER-IP:8080/ 查看 spark 执行状态: