LakeSoul 国产湖仓框架新篇章:开源基金会孵化,国产信创认证,新版本重磅发布

2023年 9月 7日 34.7k 0

LakeSoul 作为国产自研开源湖仓框架,具备湖仓一体、流批一体、BI/AI 一体等核心设计理念和实现,在并发读写和 IO 性能等方面有着显著的优势。近期,LakeSoul 项目又有了多项重要的新进展:LakeSoul 开源项目正式捐赠进入 Linux 基金会孵化,成功通过了国产信创认证,并发布了 2.3.0 全新版本。这也标志着 LakeSoul 项目的发展进入了一个新的阶段,本文将为您一一解读。

LakeSoul 项目进入 Linux 基金会孵化

LakeSoul 项目从开源之初就受到了国内外的广泛关注。我们认为,一个成功的开源项目,离不开一个活跃的开源社区。因此在今年 5 月份,我们决定将 LakeSoul 开源项目捐赠给 Linux 基金会。

在 5 月份的 Linux Foundation AI & Data 基金会技术委员会答辩会议上,我们介绍了 LakeSoul 开源项目,得到了在场技术委员们的一致高度评价,成功通过投票,正式成为 Linux 基金会的孵化项目。

图片

LakeSoul 项目也迁移到新的 Github 代码库:

github.com/lakesoul-io…

未来 LakeSoul 项目将在 Linux 基金会的指引下,秉承开源、开放、协作的理念,全面建设发展 LakeSoul 开源社区。数元灵公司也将一如既往地全力支持 LakeSoul 开源项目和社区,持续贡献核心功能和特性。在这里,我们也真诚邀请广大开发者和用户参与到社区中来,共同打造新一代湖仓一体开源框架。

LakeSoul 项目成功通过国家信创认证

近日,LakeSoul 国产湖仓一体框架也成功通过了国家信创认证,荣获国家权威机构中国软件测评中心(工业和信息化部软件与集成电路促进中心)颁发的“信息技术产品适配测试“报告及证书。

在本次信创认证测试中,LakeSoul 成功通过多项核心湖仓功能和性能测试,包括流批一体的多并发读写能力,以及领先于业内其他框架的性能,包括:

1. 功能性。

LakeSoul 流批一体表存储系统 V1.0 由 Spark 湖仓表、Flink 湖仓表、Schema自动演进、计算与存储弹性扩容、并发写入更新等功能模块组成。其中 Spark湖仓表模块实现了使用 Spark SQL 语句创建湖仓表、向表中插入数据、更新表中已有数据、读取湖仓中的表、读取表的历史快照、回滚到表的历史版本等功能;Flink湖仓表模块实现了使用 Flink SQL 语句创建湖仓表、向表中插入数据、批量读取湖仓表、流式全量读取湖仓表、流式增量读取湖仓表等功能;Schema 自动演进模块实现了 Schema变更时自动兼容读取表的旧数据等功能;被测系统支持计算与存储能力的弹性扩容;支持对同一个表的同一个分区进行并发写入更新。

2. 性能效率。

S3 云对象存储数据读取:读取 1000 万行数据,执行三次,平均读取时间 17.770秒,读性能相比Hadoop 3.3.2 提升 1.722 倍;

S3 云对象存储数据写入:写入 1000 万行数据,执行三次,平均写入时间 43.194 秒,写性能相比 Hadoop 3.3.2 提升 1.800倍;

Merge on Read 场景下数据读取:读取 2000 万行数据,执行三次,平均读取时间 25.811 秒,读性能相比 Iceberg 1.1.0提升 1.420倍,相比 Hudi 0.12.2 提升 2.541倍;

Merge on Read 场景下数据写入:写入 2000 万行数据,执行三次,平均写入时间 266.628 秒,写性能相比 Iceberg 1.1.0提升 5.832 倍,相比 Hudi 0.12.2 提升 12.209 倍。

信创报告详情可以参考如下报告内容:

图片作为信创产业及国产技术的推动者和践行者,数元灵以国家信创产业政策为指导,积极布局国产技术空白领域,大力研发高效、可信的国产湖仓一体数据中台,深化与国内企业、学校的产学合作、产品适配,旨为国内大中小企业提供先进的大数据技术架构及解决方案,让更多企业享受到国产数据技术的红利,为丰富信创生态贡献重要力量。

LakeSoul 框架发布 2.3.0 新版本,轻松构建大规模实时湖仓

LakeSoul 开源湖仓框架近期发布了 2.3.0 新版本。在新版本中包含了几个重要特性:

  • 全面支持了 Flink 流、批两种模式对 LakeSoul 的读写,对于 Upsert 或者 Append 的增量读写均完整支持 Flink Changelog 语义,实现全链路实时增量计算。使用 LakeSoul 结合 Flink SQL,即可轻松构建大规模、低成本、高性能的实时湖仓。

  • 提供 Flink DataStream API,支持多种数据库、消息队列的整库实时入湖。LakeSoul 会通过 DML 消息内容,自动判断并创建新表或执行 Schema 变更,而无需解析上游数据库的 DDL 事件,极大地降低了整库入湖的适配难度。LakeSoul 默认提供了 Debezium DML 格式消息流的入湖实现,可以通过 Flink CDC Connector 或者 Kafka,对接 MySQL、Oracle 等多种数据源的 CDC 事件进行实时整库入湖。

  • 新增全局自动小文件合并服务。LakeSoul 已经为 Merge on Read 情形下做了大量性能优化。为进一步提升读性能,LakeSoul 也提供了小文件合并的功能(Compaction)。原先 Compaction 是一个 Spark 的接口,需要为每一个湖仓中的表调用,使用起来较为不便。LakeSoul 2.3 版本,提供了全局合并服务,能够全自动监听元数据变化并执行合并,并支持自动弹性伸缩,在提升读性能的同时也极大地降低了湖仓的维护成本。

  • 未来展望

    随着 LakeSoul 新版本发布,进入 Linux 基金会孵化和通过国产信创认证,LakeSoul 项目的发展揭开了新的篇章。LakeSoul 近期还将陆续推出一系列更新:在功能方面,将会增加内置角色权限控制、数据质量校验等功能点,进一步完善数仓能力;在生态方面,将会推出原生 Python 读取接口并与多种 AI 框架对接,成为 AI 大模型的新一代数据底座。

    【关于数元灵】

    数元灵科技成立于2021年,专注于一站式的大数据智能平台新基建,在研项目包括云原生湖仓一体框架LakeSoul,一站式机器学习框架MetaSpore, 以及云原生一站式AI开发生产平台AlphaIDE。公司力争打造以数据驱动为中心的标准化pipeline,推动国家数字化经济发展,致力于为帮助企业充分释放业务价值,服务新基建,让更多的行业和技术从业者享受到更普惠的大数据人工智能红利。

    • 数元灵科技是北京中关村高新技术企业;
    • 数元灵获国家信创认证、ISO27001信息安全管理认证等资质认证;
    • 数元灵产品拥有软件著作12项,核心专利4项;
    • 入选最具潜力创业企业TOP10榜单

    GitHub:

    github.com/lakesoul-io

    github.com/meta-soul/M…

    AlphaIDE:

    registry-alphaide.dmetasoul.com/#/login

    官网:

    www.dmetasoul.com

    官方交流群:

    微信群:关注公众号,点击“了解我们-用户交流”

    相关文章

    服务器端口转发,带你了解服务器端口转发
    服务器开放端口,服务器开放端口的步骤
    产品推荐:7月受欢迎AI容器镜像来了,有Qwen系列大模型镜像
    如何使用 WinGet 下载 Microsoft Store 应用
    百度搜索:蓝易云 – 熟悉ubuntu apt-get命令详解
    百度搜索:蓝易云 – 域名解析成功但ping不通解决方案

    发布评论