实时数据处理技术的新功能和特性
导读:实时数据处理技术正在发生变化。让我们一起了解实时数据处理的细节以及明年情况将如何发生变化。
数据分析技术正在发生变化。数据批量处理已经落伍,实时时代已然到来。随着这种转变,数据工程师必须掌握新的思维方式、新的工具与新的术语。
我们已经跨过了 2023 年的“驼峰”,随着下半年的临近,实时数据处理的重要性和采用率都在不断增长。它的价值不容低估,数据工程和数据平台团队正在转向可以帮助他们实现这一目标的技术和工具。
在这篇文章中,我将解释什么是实时数据处理,为什么它不是你想象的那样,并提供一些有用的参考架构来帮助你规划、管理和构建实时数据处理引擎。
了解实时数据处理
实时数据处理只是实时数据和实时分析机制中的一个齿轮。
实时数据处理正好位于实时数据摄取和实时可视化(或实时数据自动化!)之间,将实时数据列车的引擎和车厢连接起来。
抛开混合的比喻不谈,在实时流数据架构中实现实时数据处理的系统和工具很快就会成为瓶颈。他们的任务是在处理越来越大的“大数据”时保持传入数据的新鲜度、超低查询延迟与高用户并发性。
如果你正在构建一个实时分析仪表板,需要为数千个并发用户显示毫秒级的数据和毫秒级的查询延迟,那么你的数据处理基础设施就能够更好地进行扩展。
什么是实时数据?
实时数据具有以下 3 个特质:
很新鲜。实时数据应在创建后几秒(如果不是毫秒)内提供给下游用例和消费者。这有时也称为“端到端延迟”。
它非常快。实时数据查询必须具有以毫秒为单位的“查询响应延迟”,无论其复杂程度如何。当你构建实时分析时,过滤器、聚合和联接都在表中,复杂的查询不会减慢速度。为什么?因为实时分析通常与面向用户的产品集成,而需要几秒钟或更长时间的查询将极大地降低用户体验。
它的并发性很高。实时数据几乎总是会被许多用户同时访问。我们不会为少数浏览 Looker 仪表板的高管构建数据管道。我们正在构建产品内分析、实时个性化、实时欺诈检测以及更多面向用户的功能。实时数据面向大众,因此需要扩展。
什么是实时数据处理?
实时数据处理是对流数据进行过滤、聚合、丰富和以其他方式转换,并在摄取后将其快速发送给下游消费者的实践。
如果实时数据处理系统一端连接到每秒产生数百万个事件的流数据平台,另一端连接到包含数千个活跃用户的庞大用户群,那么它必须能够处理其间的所有转换没有错过任何一个节拍。
实时与批量数据处理有何不同?
实时数据处理和批处理数据属于根本的不同方式。实时数据处理尽快处理数据,一旦产生新的数据事件就摄取、转换和公开数据产品。
相比之下,批处理按一定的周期计划处理数据,使用 ETL/ELT 工作流程偶尔从源系统中提取数据,对其进行转换,然后将其加载到云数据仓库等内容中。