Spark 笔记|教程 —— 服务器上安装 (Standalone Ubuntu|Mac)

1.安装Java

由于Spark是基于Scala的,依赖JVM的运行环境,所以需要安装Java。

去官网下载Java8的安装包,这里需要注意的是如果在linux server上,不能用 wget 直接下载,会导致安装失败。要用本地电脑下载下来,然后在terminal session里面运行下面命令,把下载的文件上传到server中:

scp -r PATH1 serveruser@W.X.Y.Z:PATH2

把本地文件上传到服务器中,在服务器中用tar -xzvf解压缩。PATH1为本地文件路径(最后为文件名),PAHT2是你在server上要存放文件的路径。serversuser可以使root,也可以是你自己的用户,WXYZ是server IP地址。然后把解压后的文件移动到合适的路径中,便于管理( 下方代码中要换成你自己的文件夹名字,路径)。(如果在本地电脑系统中或者该系统的虚拟机中安装spark就不需要上面那一步。)

sudo mkdir /usr/local/java
sudo mv jdk1.8.0_65/ /usr/local/java

注意:如果是root用户,就不需要sudo命令,只有主动创建的用户需要使用sudo

2.配置系统默认的Java VM

打开profile文件

sudo nano /etc/profile

在空白处粘贴如下内容

JAVA_HOME=/usr/local/java/jdk1.8.0_65
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin
JRE_HOME=/usr/local/java/jdk1.8.0_65
PATH=$PATH:$HOME/bin:$JRE_HOME/bin
export JAVA_HOME
export JRE_HOME
export PATH

CTRL+O 保存,然后 CTRL+X 退出

重启系统确保/etc/profile文件被激活使用。

sudo reboot

或者也可以不重启系统,直接运行命令激活新的profile文件

source /etc/profile

安装完成之后,检验是否安装成功

java -version
echo $JAVA_HOME


2.安装Git

Git可以在服务器虚拟机上下载安装软件,或者进行版本控制,对spark安装无影响。

sudo apt-get install git

git安装完成后,用git --version查看是否安装成功。


3.搭建Spark

在官网的下载页,可以看到有很多版本的spark,我们不需要下载binary版的source code,而是pre-built版本的,这样我们就不需要进行编译。

选好要下载的版本(我这里是spark-2.1.1-bin-hadoop2.7),然后复制下载链接。在虚拟机(Linux)中或Mac系统中,可以用"wget + 下载链接"进行下载。这里用Mac举例

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz
sudo mv spark-2.1.1-bin-hadoop2.7 /usr/local/spark # moves the folder from Downloads to local

Spark的解压文件中(spark根目录下),bin文件夹包含用来和Spark交互的可执行文件,如Spark shell. Core, streaming, python等文件夹包含的是组件的源代码,examples文件夹包含的是一些单机spark job的例子用于进行研究。

在Spark根目录下,执行bin/spark-shell打开spark交互界面,使用Scala语言进行操作。如果需要运行在服务器端运行spark application,可以用spark-submit提交jar(应用代码打包文件),加上Linux的screen,就可以在服务器后台一直运行程序直到结束。

注意:如果你下载的是binary source code,可以用sbt打包工具进行编译(自行安装sbt),会比较耗时。不建议初学者使用。方法如下:

cd /usr/local/spark
build/sbt assembly


关于Spark Python API, 请看 Spark 笔记|教程 —— Python API

登录注册后参与评论