- 显示数据:
要显示数据帧内容,只需键入变量名称并按 Enter 键:
data.show()
- 正在执行操作:
您可以使用 Spark 的函数式编程 API 在数据帧上执行各种转换,例如筛选、分组和聚合。
示例:让我们计算名为“price”的列的平均值:
val avgPrice = data.agg(avg("price")).collect()(0)(0) println(s"The average price is: $avgPrice")
第5步。设置 Spark 群集(可选)。
虽然Spark可以在本地运行,但它的真正功能在部署在集群上时会大放异彩。通过设置 Spark 群集,可以在多个节点之间分配数据处理任务,从而显著提高性能和可伸缩性。
cd /opt/spark/conf
将文件复制到 :spark-env.sh.template
spark-env.sh
cp spark-env.sh.template spark-env.sh
编辑文件以配置主节点和其他设置:spark-env.sh
nano spark-env.sh
添加以下行以指定主节点的 IP 地址,并为 Spark 驱动程序和工作线程分配内存:
export SPARK_MASTER_HOST= export SPARK_MASTER_PORT=7077 export SPARK_WORKER_MEMORY=2g
保存更改并退出文本编辑器。
第 6 步。启动主节点。
通过运行以下命令启动 Spark 主节点:
start-master.sh
通过打开 Web 浏览器并导航到以下内容来访问 Spark Web UI:
http://:8080
步骤 7.故障排除提示。
安装和配置 Apache Spark 可能会遇到一些挑战。以下是一些常见问题和故障排除提示:
JAVA_HOME
PATH
感谢您使用本教程在 Debian 12 Bookworm 上安装 Apache Spark。有关其他帮助或有用信息,我们建议您查看 Apache 官方网站。