Apache Spark 是一个免费的、开源的、通用的集群计算框架。它专为提高速度而设计,用于机器学习以流式处理复杂的 SQL 查询。它支持多种用于流媒体、图形处理的 API,包括 Java、Python、Scala 和 R。Spark 主要安装在 Hadoop 集群中,但您也可以在独立模式下安装和配置 Spark。
在 Debian 11 Bullseye 上安装 Apache Spark
步骤 1. 在我们安装任何软件之前,通过apt
在终端中运行以下命令来确保您的系统是最新的很重要:
sudo apt update sudo apt upgrade
步骤 2. 安装 Java。
运行以下命令来安装 Java 和其他依赖项:
sudo apt install default-jdk scala git
使用以下命令验证 Java 安装:
java --version
步骤 3. 在 Debian 11 上安装 Apache Spark。
现在我们使用wget
命令从官方页面下载最新版本的 Apache Spark :
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
接下来,提取下载的文件:
tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz mv spark-3.1.2-bin-hadoop3.2/ /opt/spark
之后,编辑文件并添加 Spark 路径变量:~/.bashrc
nano ~/.bashrc
添加以下行:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
保存并关闭文件,然后使用以下命令激活 Spark 环境变量:
source ~/.bashrc
步骤 3. 启动 Apache Spark 主服务器。
至此,Apache spark安装完毕。现在让我们通过运行它的脚本来启动它的独立主服务器:
start-master.sh
默认情况下,Apache Spark 侦听端口 8080。您可以使用以下命令进行检查:
ss -tunelp | grep 8080
步骤 4. 访问 Apache Spark Web 界面。
成功配置后,现在使用 URL 访问 Apache Spark Web 界面。您应该在以下屏幕上看到 Apache Spark 主从服务:http://your-server-ip-address:8080
在这个单服务器、独立设置中,我们将与主服务器一起启动一个从服务器。该命令用于启动 Spark Worker Process:start-slave.sh
start-slave.sh spark://ubuntu1:7077
现在工作人员已启动并运行,如果您重新加载 Spark Master 的 Web UI,您应该会在列表中看到它:
配置完成后,启动主从服务器,测试 Spark shell 是否正常工作:
spark-shell
您将获得以下界面:
Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _ / _ / _ `/ __/ '_/ /___/ .__/_,_/_/ /_/_ version 3.1.2 /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12) Type in expressions to have them evaluated. Type :help for more information. scala>
感谢您使用本教程在 Debian 11 Bullseye 上安装最新版本的 Apache Spark。如需其他帮助或有用信息,我们建议您查看Apache Spark 官方网站。