如何在 Debian 11 上安装 Apache Spark

系统运维 2023-07-21 大白菜程序猿手机阅读

Apache Spark 是一个免费的、开源的、通用的集群计算框架。它专为提高速度而设计，用于机器学习以流式处理复杂的 SQL 查询。它支持多种用于流媒体、图形处理的 API，包括 Java、Python、Scala 和 R。Spark 主要安装在 Hadoop 集群中，但您也可以在独立模式下安装和配置 Spark。 apache-spark-logo

在 Debian 11 Bullseye 上安装 Apache Spark

步骤 1. 在我们安装任何软件之前，通过apt在终端中运行以下命令来确保您的系统是最新的很重要：

sudo apt update
sudo apt upgrade

步骤 2. 安装 Java。

运行以下命令来安装 Java 和其他依赖项：

sudo apt install default-jdk scala git

使用以下命令验证 Java 安装：

java --version

步骤 3. 在 Debian 11 上安装 Apache Spark。

现在我们使用wget命令从官方页面下载最新版本的 Apache Spark ：

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

接下来，提取下载的文件：

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz
mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

之后，编辑文件并添加 Spark 路径变量：~/.bashrc

nano ~/.bashrc

添加以下行：

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存并关闭文件，然后使用以下命令激活 Spark 环境变量：

source ~/.bashrc

步骤 3. 启动 Apache Spark 主服务器。

至此，Apache spark安装完毕。现在让我们通过运行它的脚本来启动它的独立主服务器：

start-master.sh

默认情况下，Apache Spark 侦听端口 8080。您可以使用以下命令进行检查：

ss -tunelp | grep 8080

步骤 4. 访问 Apache Spark Web 界面。

成功配置后，现在使用 URL 访问 Apache Spark Web 界面。您应该在以下屏幕上看到 Apache Spark 主从服务：http://your-server-ip-address:8080

spark-web-ui

在这个单服务器、独立设置中，我们将与主服务器一起启动一个从服务器。该命令用于启动 Spark Worker Process：start-slave.sh

start-slave.sh spark://ubuntu1:7077

现在工作人员已启动并运行，如果您重新加载 Spark Master 的 Web UI，您应该会在列表中看到它：

spark-workers-alive

配置完成后，启动主从服务器，测试 Spark shell 是否正常工作：

spark-shell

您将获得以下界面：

Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _ / _ / _ `/ __/  '_/
   /___/ .__/_,_/_/ /_/_   version 3.1.2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

感谢您使用本教程在 Debian 11 Bullseye 上安装最新版本的 Apache Spark。如需其他帮助或有用信息，我们建议您查看Apache Spark 官方网站。