LakeSoul 作为国产自研开源湖仓框架,具备湖仓一体、流批一体、BI/AI 一体等核心设计理念和实现,在并发读写和 IO 性能等方面有着显著的优势。近期,LakeSoul 项目又有了多项重要的新进展:LakeSoul 开源项目正式捐赠进入 Linux 基金会孵化,成功通过了国产信创认证,并发布了 2.3.0 全新版本。这也标志着 LakeSoul 项目的发展进入了一个新的阶段,本文将为您一一解读。
LakeSoul 项目进入 Linux 基金会孵化
LakeSoul 项目从开源之初就受到了国内外的广泛关注。我们认为,一个成功的开源项目,离不开一个活跃的开源社区。因此在今年 5 月份,我们决定将 LakeSoul 开源项目捐赠给 Linux 基金会。
在 5 月份的 Linux Foundation AI & Data 基金会技术委员会答辩会议上,我们介绍了 LakeSoul 开源项目,得到了在场技术委员们的一致高度评价,成功通过投票,正式成为 Linux 基金会的孵化项目。
LakeSoul 项目也迁移到新的 Github 代码库:
github.com/lakesoul-io…
未来 LakeSoul 项目将在 Linux 基金会的指引下,秉承开源、开放、协作的理念,全面建设发展 LakeSoul 开源社区。数元灵公司也将一如既往地全力支持 LakeSoul 开源项目和社区,持续贡献核心功能和特性。在这里,我们也真诚邀请广大开发者和用户参与到社区中来,共同打造新一代湖仓一体开源框架。
LakeSoul 项目成功通过国家信创认证
近日,LakeSoul 国产湖仓一体框架也成功通过了国家信创认证,荣获国家权威机构中国软件测评中心(工业和信息化部软件与集成电路促进中心)颁发的“信息技术产品适配测试“报告及证书。
在本次信创认证测试中,LakeSoul 成功通过多项核心湖仓功能和性能测试,包括流批一体的多并发读写能力,以及领先于业内其他框架的性能,包括:
1. 功能性。
LakeSoul 流批一体表存储系统 V1.0 由 Spark 湖仓表、Flink 湖仓表、Schema自动演进、计算与存储弹性扩容、并发写入更新等功能模块组成。其中 Spark湖仓表模块实现了使用 Spark SQL 语句创建湖仓表、向表中插入数据、更新表中已有数据、读取湖仓中的表、读取表的历史快照、回滚到表的历史版本等功能;Flink湖仓表模块实现了使用 Flink SQL 语句创建湖仓表、向表中插入数据、批量读取湖仓表、流式全量读取湖仓表、流式增量读取湖仓表等功能;Schema 自动演进模块实现了 Schema变更时自动兼容读取表的旧数据等功能;被测系统支持计算与存储能力的弹性扩容;支持对同一个表的同一个分区进行并发写入更新。
2. 性能效率。
S3 云对象存储数据读取:读取 1000 万行数据,执行三次,平均读取时间 17.770秒,读性能相比Hadoop 3.3.2 提升 1.722 倍;
S3 云对象存储数据写入:写入 1000 万行数据,执行三次,平均写入时间 43.194 秒,写性能相比 Hadoop 3.3.2 提升 1.800倍;
Merge on Read 场景下数据读取:读取 2000 万行数据,执行三次,平均读取时间 25.811 秒,读性能相比 Iceberg 1.1.0提升 1.420倍,相比 Hudi 0.12.2 提升 2.541倍;
Merge on Read 场景下数据写入:写入 2000 万行数据,执行三次,平均写入时间 266.628 秒,写性能相比 Iceberg 1.1.0提升 5.832 倍,相比 Hudi 0.12.2 提升 12.209 倍。
信创报告详情可以参考如下报告内容:
作为信创产业及国产技术的推动者和践行者,数元灵以国家信创产业政策为指导,积极布局国产技术空白领域,大力研发高效、可信的国产湖仓一体数据中台,深化与国内企业、学校的产学合作、产品适配,旨为国内大中小企业提供先进的大数据技术架构及解决方案,让更多企业享受到国产数据技术的红利,为丰富信创生态贡献重要力量。
LakeSoul 框架发布 2.3.0 新版本,轻松构建大规模实时湖仓
LakeSoul 开源湖仓框架近期发布了 2.3.0 新版本。在新版本中包含了几个重要特性:
全面支持了 Flink 流、批两种模式对 LakeSoul 的读写,对于 Upsert 或者 Append 的增量读写均完整支持 Flink Changelog 语义,实现全链路实时增量计算。使用 LakeSoul 结合 Flink SQL,即可轻松构建大规模、低成本、高性能的实时湖仓。
提供 Flink DataStream API,支持多种数据库、消息队列的整库实时入湖。LakeSoul 会通过 DML 消息内容,自动判断并创建新表或执行 Schema 变更,而无需解析上游数据库的 DDL 事件,极大地降低了整库入湖的适配难度。LakeSoul 默认提供了 Debezium DML 格式消息流的入湖实现,可以通过 Flink CDC Connector 或者 Kafka,对接 MySQL、Oracle 等多种数据源的 CDC 事件进行实时整库入湖。
新增全局自动小文件合并服务。LakeSoul 已经为 Merge on Read 情形下做了大量性能优化。为进一步提升读性能,LakeSoul 也提供了小文件合并的功能(Compaction)。原先 Compaction 是一个 Spark 的接口,需要为每一个湖仓中的表调用,使用起来较为不便。LakeSoul 2.3 版本,提供了全局合并服务,能够全自动监听元数据变化并执行合并,并支持自动弹性伸缩,在提升读性能的同时也极大地降低了湖仓的维护成本。
未来展望
随着 LakeSoul 新版本发布,进入 Linux 基金会孵化和通过国产信创认证,LakeSoul 项目的发展揭开了新的篇章。LakeSoul 近期还将陆续推出一系列更新:在功能方面,将会增加内置角色权限控制、数据质量校验等功能点,进一步完善数仓能力;在生态方面,将会推出原生 Python 读取接口并与多种 AI 框架对接,成为 AI 大模型的新一代数据底座。
【关于数元灵】
数元灵科技成立于2021年,专注于一站式的大数据智能平台新基建,在研项目包括云原生湖仓一体框架LakeSoul,一站式机器学习框架MetaSpore, 以及云原生一站式AI开发生产平台AlphaIDE。公司力争打造以数据驱动为中心的标准化pipeline,推动国家数字化经济发展,致力于为帮助企业充分释放业务价值,服务新基建,让更多的行业和技术从业者享受到更普惠的大数据人工智能红利。
- 数元灵科技是北京中关村高新技术企业;
- 数元灵获国家信创认证、ISO27001信息安全管理认证等资质认证;
- 数元灵产品拥有软件著作12项,核心专利4项;
- 入选最具潜力创业企业TOP10榜单
GitHub:
github.com/lakesoul-io
github.com/meta-soul/M…
AlphaIDE:
registry-alphaide.dmetasoul.com/#/login
官网:
www.dmetasoul.com
官方交流群:
微信群:关注公众号,点击“了解我们-用户交流”