flink-每日运维

FlinkSQL开发经验分享

最近做了几个实时数据开发需求，也不可避免地在使用Flink的过程中遇到了一些问题，比如数据倾斜导致的反压、interval join、开窗导致的水位线失效等问题，通过思考并解决这些问题，加深了我对Flink原理与机制的理解，因此将这些开发经验分享出来，希望可以帮助到有需要的同学。下文会介绍3个case案例，每个case都会划分为背景、原因分析和解决方法三部分来进行介绍。 Case1: 数据倾斜

运维资讯 2024-06-28 醒在深海的猫

大数据实时分析：Flink 连接 Kafka 和 Flink SQL

Flink 连接 Kafka 前的准备在使用 Apache Flink 连接 Apache Kafka 之前，需要完成以下准备工作。具体步骤如下：从 Maven 官方库获取相关的 jar 选择合适的 Kafka 连接器版本根据我们使用的 Flink 版本选择合适的 Kafka 连接器版本。官方建议的版本可以在 Flink 的官方文档中找到。添加 Maven 依赖打开我们的项目的 pom.

数据运维 2024-06-03 爱可生开源社区

详解 Flink CDC+OceanBase 全增量一体化数据集成方案

前言：一般情况下，CDC 技术主要面向数据库的变更，用于捕获数据库中数据变更的技术。而 Flink CDC+ OceanBase 全增量一体化数据集成方案是将传统的数据库 CDC 技术跟 Flink 优秀的管道能力和丰富的上下游生态结合，将 CDC 数据通过加工后同步到下游，最终生成一个 OceanBase 解决方案，实现全量和增量的一体化同步。该方案的优势有两点：一是它可以通过一个组件、一条

数据运维 2024-05-07 捡田螺的小男孩

新型实时数仓方案探索：链路简化、数据一致、排查高效

作者：伍翀，阿里云Flink SQL负责人，Apache Flink PMC Member & Committer 许多数据领域的从业者对Apache Flink并不陌生，其作为流批一体的流式计算引擎，核心是分布式流数据流引擎，同时具备流计算和批计算的能力，是许多公司做流式计算业务的首选。那么本文要讲的Flink CDC和Apache Flink是什么关系？又如何将Flink CDC与O

数据运维 2024-05-07 大白菜程序猿

Flink CDC同步TiDB数据到OceanBase

测试背景应公司要求，需要将TiDB数据库替换成OceanBase数据库，替换过程需要业务影响比较小，这就要求TiDB的数据可以实时同步到OceanBase数据库。经过对各类数据同步工具的调研，目前感觉Flink CDC相对来说更容易实现我们的需求。因此，在这里先对Flink CDC做个简单测试，实现下TiDB到OceanBase的同步。测试环境 TiDB环境 TiDB版本：v6.5.5 TiD

数据运维 2024-05-07 大白菜程序猿

实时计算Flink集成开源连接器TiDB CDC Connector案例实践

TIDB部署（阿里云ECS） 1、系统配置 TIDB官方建议使用CentOS7.3及以上版本： Linux 操作系统版本 Red Hat Enterprise Linux 7.3 及以上 CentOS 7.3 及以上本次实验我们选择CentOS 7.6 64位，考虑网络连通，需将TIDB ECS实例与Flink集群部署在相同VPC网络。 2、TIDB部署 a、下载并安装 TiUP curl -

数据运维 2024-05-07 LOVEHL^ˇ^

spark streaming 和 flink 都是流处理框架，具有不同的特性：编程模型：spark streaming 基于 spark rdd 模型，而 flink 拥有自己的流式处理 api。状态管理：flink 内置状态管理，而 spark streaming 需要外部解决方案。容错性：flink 基于快照，而 spark streaming 基于检查点。扩展性：flink 基于流操作符链

开发运维 2024-04-19 宇宙之一粟

使用 SPL 高效实现 Flink SLS Connector 下推

作者：潘伟龙（豁朗）背景日志服务 SLS 是云原生观测与分析平台，为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务，基于日志服务的便捷的数据接入能力，可以将系统日志、业务日志等接入 SLS 进行存储、分析；阿里云 Flink 是阿里云基于 Apache Flink 构建的大数据分析平台，在实时数据分析、风控检测等场景应用广泛。阿里云 Flink 原生支持阿里云日

云运维 2024-03-07 大树

聊聊Flink：Flink的分区机制

一、前言 flink任务在执行过程中，一个流（stream）包含一个或多个分区（Stream partition）。TaskManager中的一个slot的subtask就是一个stream partition（流分区），一个Job的流（stream）分布在多个不同的Slot上执行。每一个算子可以包含一个或多个子任务（subtask），这些subtask执行在不同的分区中，本质是在不同的线程、不同

开发运维 2024-02-27 爱可生开源社区

Flink CDC 引起的 MySQL 元数据锁

记一次Flink CDC引起的MySQL元数据锁事故，总结经验教训。后续在编写Flink CDC任务时，要处理好异常，避免产生长时间的元数据锁。同时出现生产问题时要及时排查，不能抱有侥幸心理。一、事件经过某天上午，收到系统的告警信息，告警提示：同步MySQL的某张表数据到Elasticsearch异常，提示连不上Mysql，当时没有太上心，以为可能是偶尔网络异常。然后立马大量用户开始投诉系统

数据运维 2024-02-01 贤蛋大眼萌

Flink CDC引起的Mysql元数据锁

记一次Flink CDC引起的Mysql元数据锁事故，总结经验教训。后续在编写Flink CDC任务时，要处理好异常，避免产生长时间的元数据锁。同时出现生产问题时要及时排查，不能抱有侥幸心理。 1、事件经过某天上午，收到系统的告警信息，告警提示：同步Mysql的某张表数据到Elasticsearch异常，提示连不上Mysql，当时没有太上心，以为可能是偶尔网络异常。然后立马大量用户开始投诉系统

数据运维 2024-02-01 泡泡

聊聊Flink：Flink的运行时架构

一、运行时架构上一篇我们可以看到Flink的核心组件的Deploy层，该层主要涉及了Flink的部署模式，Flink支持多种部署模式：本地、集群（Standalone/YARN）、云（GCE/EC2）。图片 Local（本地）：单机模式，一般本地开发调试使用，像我们程序写的WordCountStream那个例子，直接运行main方法启动。 Cluster（集群） Standalone（独立模式

开发运维 2024-01-29 贤蛋大眼萌

基于 Flink 构建实时数据湖的实践

本文整理自火山引擎云原生计算研发工程师王正和闵中元在本次 CommunityOverCode Asia 2023 数据湖专场中的《基于 Flink 构建实时数据湖的实践》主题演讲。实时数据湖是现代数据架构的核心组成部分，随着数据湖技术的发展，用户对其也有了更高的需求：需要从多种数据源中导入数据、数据湖与数据源保持实时与一致、在发生变更时能够及时同步，同时也需要高性能查询，秒级返回数据等。所以我们

云运维 2023-12-14 捡田螺的小男孩

大数据实战：基于Flink+ODPS历史累计计算项目分析与优化

1.前置知识 ODPS（Open Data Platform and Service）是阿里云自研的一体化大数据计算平台和数据仓库产品，在集团内部离线作为离线数据处理和存储的产品。离线计算任务节点叫做Odps节点，存储的离线表叫做Odps表； Flink: 实时计算引擎，本文代码开发和测试均基于集团内部实时计算平台，代码细节可能会和Flink 官方社区文档有些许不同，假如用于生产环境测试，参考Ap

开发运维 2023-11-30 向阳逐梦

怎么提高flink写入mysql的并行度

Apache Flink 是一个开源的流处理框架，它提供高效、准确、容错的数据流处理机制。在 Flink 中，可以通过将数据流写入 MySQL 数据库来进行数据存储和分析。但是，Flink 写入 MySQL 数据库时的并行度可能会受到一些限制，从而影响程序的性能。因此，本文将介绍如何提高 Flink 写入 MySQL 的并行度。 1. 配置 MySQL 的最大连接数 mysql>set gl

数据运维 2023-11-13 穿过生命散发芬芳

Flink 替换 Logstash 解决日志收集丢失问题

在某客户日志数据迁移到火山引擎使用 ELK 生态的案例中，由于客户反馈之前 Logstash 经常发生数据丢失和收集性能较差的使用痛点，我们尝试使用 Flink 替代了传统的 Logstash 来作为日志数据解析、转换以及写入 ElasticSearch 的组件，得到了该客户的认可，并且已经成功协助用户迁移到火山。目前，Flink 已经支持该业务高峰期 1000+k/s 的数据写入。本文主要介绍

云运维 2023-11-09 剑圣无痕

官宣｜Apache Flink 1.18 发布公告

Apache Flink PMC 已正式发布 Apache Flink 1.18.0 版本。与往常一样，这是一个充实的版本，包含了广泛的改进和新功能。总共有 174 人为此版本做出了贡献，完成了 18 个 FLIPs 和 700 多个问题。感谢各位贡献者的支持！迈向 Streaming Lakehouse Flink SQL 提升 Flink SQL Gateway 的 JDBC Driver

运维资讯 2023-10-30 Escape

Flink之源算子Data Source

概述 Flink中的DataSource（数据源）用于定义数据输入的来源。数据源是Flink作业的起点，它可以从各种数据来源获取数据，例如文件系统、消息队列、数据库等。将数据源添加到Flink执行环境中，从而创建一个数据流。然后可以对该数据流应用一系列转换和操作，例如过滤、转换、聚合、计算等。最后将结果写入其他系统，例如文件系统、数据库、消息队列等。数据源是Flink作业中非常重要的组件，它确

开发运维 2023-10-15 醒在深海的猫

Flink on k8s容器日志生成原理及与Yarn部署时的日志生成模式对比

Flink on k8s容器日志生成原理及与Yarn部署时的日志生成模式对比最近需要将flink由原先部署到Yarn集群切换到kubernetes集群，在切换之后需要熟悉flink on k8s的运行模式。在使用过程中针对日志模块发现，在k8s的容器中，flink的系统日志只有jobmanager.log/taskmanager.log 两个，而当时在使用Yarn集群部署时，flink的日志会有

开发运维 2023-10-13 爱可生开源社区

基于云原生的集群自愈系统 Flink Cluster Inspector

摘要：本文整理自阿里云计算平台事业部，实时计算&托管生态 SRE 团队的许雷力（阿里云技术专家）和张韦杰（阿里云开发工程师），在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为三个部分：业务背景与挑战成本优化 - 热点处理整体规划和未来方向点击查看原文视频 & 演讲PPT 一、业务背景与挑战 1.1 实时计算集群现状关于热点机器处理一

系统运维 2023-09-29 剑圣无痕

1 2 3 下一页