AWS 和 GCP 的 Spark 技术哪家强?Tianhui Michael Li 和 Ariel M’ndange-Pfupfu 将在今年 10 月 10、12 和 14 号组织一个在线经验分享课程:Spark 分布式计算入门。该课程的内容包括创建端到端的运行应用程序和精通 Spark 关键工具。 毋庸置疑,云计算将会在未来数据科学领域扮演至关重要的角色。弹性,可扩展性和按需分配的计算能力作为云计算的重要资源,直接导致云服务提供商集体火拼。 linux中国 2024-07-19 爱可生开源社区
用 Spark SQL 进行结构化数据处理Spark SQL 是 Spark 生态系统中处理结构化格式数据的模块。它在内部使用 Spark Core API 进行处理,但对用户的使用进行了抽象。这篇文章深入浅出地告诉你 Spark SQL 3.x 的新内容。 有了 Spark SQL,用户可以编写 SQL 风格的查询。这对于精通结构化查询语言或 SQL 的广大用户群体来说,基本上是很有帮助的。用户也将能够在结构化数据上编写交互式和临时性的 linux中国 2024-07-16 大猫
从 Hive 到 OceanBase,构建高效的实时数仓系统我们的业务场景与出行息息相关,由于业务早期采用的数仓方案存在时延高、效率低等问题,我们开始寻找新的数仓解决方案。本文介绍我们的方案选型与实践经验总结,希望能给你带来参考价值。 旧方案(Hive + Spark)的三个挑战 线上业务环境主要以数据统计与查询分析为主,数据来源主要有两部分:一部分是通过前端应用采集,采集到的实时流数据先存储在消息队列中,使用Spark Streaming任务每10分钟定 数据运维 2024-05-07 醒在深海的猫
Spark SQL 抽样函数 ——TABLESAMPLE 的坑点最近需要实现一段 Spark SQL 逻辑,对数据集进行抽样指定的行数。 由于数据集较大,刚开始的逻辑是,取窗口函数随机排序后 row_number 的前 n 行。但运行速度较慢,所以想起了 TABLESAMLE 函数,支持直接取 Rows, 尝试后发现速度特别快,基本上几秒内就完成对亿级数据的采样。所以好奇就去查看文档和代码逻辑。 The TABLESAMPLE statement is use 数据运维 2024-04-22 醒在深海的猫
使用Java大数据处理框架进行日志分析问题:如何使用 java 大数据处理框架进行日志分析?解决方案:使用 hadoop:读取日志文件到 hdfs使用 mapreduce 分析日志使用 hive 查询日志使用 spark:读取日志文件到 spark rdds使用 spark rdds 处理日志使用 spark sql 查询日志 使用 Java 大数据处理框架进行日志分析 引言 日志分析在大数据时代至关重要,可帮助企业获得宝贵的见解。在 开发运维 2024-04-21 法医
Apache Spark与Hadoop之间的区别apache spark 和 hadoop 在数据处理方法上存在差异:hadoop:分布式文件系统,批处理,使用 mapreduce 计算。spark:统一数据处理引擎,实时处理和批处理兼备,提供内存计算、流处理和机器学习等功能。 Apache Spark 与 Hadoop:概念和区别 Apache Spark 和 Hadoop 是两个广泛用于大数据处理的框架,但在方法和功能上存在显著差异。 概念 开发运维 2024-04-20 三掌柜
Java大数据处理框架的案例研究java 大数据处理框架在实际应用中的案例研究包含以下两点:apache spark 用于实时流式数据处理,可检测并预测设备故障。hadoop mapreduce 用于批量数据处理,可从日志文件中提取有价值信息。 Java 大数据处理框架的案例研究 随着数据的爆发式增长,大数据处理已成为现代企业不可或缺的一部分。Apache Spark 和 Hadoop 等 Java 大数据处理框架,提供了处理和 开发运维 2024-04-19 张二河
Spark Streaming与Flink之间的对比spark streaming 和 flink 都是流处理框架,具有不同的特性:编程模型:spark streaming 基于 spark rdd 模型,而 flink 拥有自己的流式处理 api。状态管理:flink 内置状态管理,而 spark streaming 需要外部解决方案。容错性:flink 基于快照,而 spark streaming 基于检查点。扩展性:flink 基于流操作符链 开发运维 2024-04-19 宇宙之一粟
字节跳动 MapReduce Spark 平滑迁移实践摘要:本文整理自字节跳动基础架构工程师魏中佳在本次 CommunityOverCode Asia 2023 中的《字节跳动 MapReduce - Spark 平滑迁移实践》主题演讲。 随着字节业务的发展,公司内部每天线上约运行 100万+ Spark 作业,与之相对比的是,线上每天依然约有两万到三万个 MapReduce 任务,从大数据研发和用户角度来看,MapReduce 引擎的运维和使用也都 云运维 2023-12-28 醒在深海的猫
米哈游大数据云原生实践作者:米哈游大数据开发 近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,在云上运行 Spark 可以充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少 Spark on Kubernetes 的优秀实践。 在刚刚结束的 2023 云栖大会上, 云运维 2023-12-26 醒在深海的猫
PySpark常见类库及名词解释哈喽大家好,我是了不起。 PySpark是一个非常复杂的系统,我们初次接触就会感觉有很多的名词或者简称,今天就带大家看一下常见的类库和名词的解释,也是方便大家统一收藏,方便后续查找,先了解单一名词的解释,有利于快速的理解整个PySpark的运行机制。 PySpark核心类 pyspark.SparkContext: Spark 库的主要入口点,它表示与Spark集群的一个连接,其他重要的对象都要依 开发运维 2023-12-22 法医
字节跳动 Spark Shuffle 大规模云原生化演进实践背景 Spark 是字节跳动内部使用广泛的计算引擎,已广泛应用于各种大规模数据处理、机器学习和大数据场景。目前中国区域内每天的任务数已经超过 150 万,每天的 Shuffle 读写数据量超过 500 PB。同时某些单个任务的 Shuffle 数据能够达到数百 TB 级别。 与此同时作业量与 Shuffle 的数据量还在增长,相比去年,今年的天任务数增加了 50 万,总体数据量的增长超过了 200 云运维 2023-12-21 法医
在Linux系统中实现容器化的大规模数据分析平台:Hadoop和Spark在Linux系统中实现容器化的大规模数据分析平台,我们可以利用Hadoop和Spark这两个强大的开源工具。 Hadoop是一个分布式计算框架,适用于处理大规模数据集。它提供了分布式文件系统(HDFS)和分布式计算模型(MapReduce),可以将任务划分为多个子任务,并运行在多个节点上,充分利用集群资源进行并行计算。 Spark是一个快速且通用的分布式计算引擎,比Hadoop MapReduce 开发运维 2023-12-15 三掌柜
理解 Spark 写入 API 的数据处理能力这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用,支持的格式包括 CSV、JSON 或 Parquet。流程根据选择的保存模式(追加、覆盖、忽略或报错)而分岔。每种模式执行必要的检查和操作,例如分区和数据写入处理。流程以数据的最终写入或错误结束,取决于这些检查和操作的结果。 Apache Spark 是一个开源的分布式计算系统,提供 系统运维 2023-12-13 竹子爱熊猫
基于PySpark SQL的媒体浏览日志ETL作业pyspark除了官方的文档,网上的教程资料一直很少,但基于调度平台下,使用pyspark编写代码非常高效,程序本身是提交到spark集群中,性能上也是毫无问题的,在本文中,我们将深入探讨基于Spark的媒体浏览日志ETL(提取、转换、加载)流水线的详细实现,在展示如何使用PySpark SQL处理大规模的媒体浏览日志数据,包括IP地址转换、数据清洗、时间维度补充、码表关联等关键步骤。 一、环境配 数据运维 2023-11-27 捡田螺的小男孩
字节跳动 Spark 支持万卡模型推理实践摘要:本文整理自字节跳动基础架构工程师刘畅和字节跳动机器学习系统工程师张永强在本次 CommunityOverCode Asia 2023 中的《字节跳动 Spark 支持万卡模型推理实践》主题演讲。 演讲视频:字节跳动 Spark 支持万卡模型推理实践 背景介绍 随着云原生的发展,Kubernetes 由于其强大的生态构建能力和影响力,使得包括大数据、AI 在内越来越多类型的负载应用开始向 Ku 云运维 2023-11-17 向阳逐梦
怎么用spark分析mysql里面的数据Apache Spark是一个流行的大数据处理框架,它能够轻松地处理多种数据源的数据。在本文中,我们将学习如何使用Spark来分析MySQL数据库中的数据。 首先,您需要将Spark安装在您的本地计算机或集群上。随后,您需要从MySQL数据库中导出您想要分析的数据。此外,您还需要使用适当的JDBC连接器使Spark能够连接到MySQL数据库。 接下来,您可以使用Spark SQL来查询MySQL数 数据运维 2023-10-30 法医
Mac及Linux环境下配置Spark准备Spark 下载Spark 💡这里以Spark 3.3.3为例。 前往Apache Spark官网下载spark-3.3.3-bin-hadoop3.tgz。 解压Spark 将下载的包解压至安装目录,这里以/usr/local为例: sudo tar -zxvf spark-3.3.3-bin-hadoop3.tgz -C /usr/local/ 修改spark目录的权限: sudo chm 系统运维 2023-10-16 向阳逐梦
Mac及Linux配置Spark准备Spark 下载Spark 💡这里以Spark 3.3.3为例。 前往Apache Spark官网下载spark-3.3.3-bin-hadoop3.tgz。 解压Spark 将下载的包解压至安装目录,这里以/usr/local为例: sudo tar -zxvf spark-3.3.3-bin-hadoop3.tgz -C /usr/local/ 修改spark目录的权限: sudo chm 系统运维 2023-10-16 穿过生命散发芬芳
Shell脚本在Spark日常工作中的应用在Spark日常工作中,Shell脚本可以大大提高工作效率,简化常见任务的执行。本文将介绍Shell脚本在Spark日常工作中的应用,包括查看YARN作业日志、执行Spark任务日志等,帮助更有效地管理和监控Spark应用。 一、目录结构设计 在生产环境中,一个良好的目录结构设计可以帮助更好地组织和管理Spark应用及其相关文件。下面是一个示例的目录结构,可以使用Shell脚本自动创建: /dat 开发运维 2023-10-12 贤蛋大眼萌