4 月 15 日,OceanBase 在跨越速运总部,围绕“如何构建高效的物流行业实时数仓数据系统”开展技术交流,吸引了诸多对开源、数据库、大数据感兴趣的专家学者,并在现场就高可用&高性能实时计算解决方案展开了激烈讨论,精彩观点频出。
面向海量数据场景,助力物流数字化浪潮
跨越速运集团是一家主营限时速运服务的大型现代化综合速运企业,是航空运输领域崛起的限时速运服务商,设立华南、华东、华北三大机场操作中心,业务已覆盖全国航空线路,实现天网、地网、人网的互联。
本次交流活动在跨越集团总部举办,在跨越集团讲解员的带领下,与会嘉宾一起参观了跨越速运大数据中心实时计算平台——赤兔。其作为跨越星河大数据平台的核心技术,担任大数据底座的角色,为数据仓库、数据湖提供统一的全链路大数据研发治理能力,面向海量数据场景,助力物流数字化浪潮。
跨越速运大数据技术高监商渭清表示,“跨越星河大数据平台面向海量数据场景,秉承开放、分享、创新的理念,助力物流数字化浪潮,拥抱时代 新机遇,绽放跨越无限未来,与 OceanBase 这样优秀的开源软件一起共同推进物流行业的数字化进程。”
跨越速运大数据技术高监商渭清
OceanBase 秉持开源开放,生态共赢的理念,也希望与跨越速运紧密合作,为物流行业的数字化贡献绵薄之力。据 OceanBase 开源生态资深技术总监封仲淹介绍,OceanBase 具有稳定可信赖、高可用、高性价比等特点,多年支撑蚂蚁核心业务 100% 负载,并在数百家金融或非金融用户中得到实践, 在 TPC-C 测试中两次打破世界纪录,在 TPC-H 30,000 GB 的测试中打破世界纪录,是目前唯一的双料世界冠军,也充分证明其 HTAP 能力。自 OceanBase 4.0 发布后,OLAP 能力得到大幅提升,相对过去 3.x 版本,性能提升至少 3~4 倍,并计划在后续版本中持续进行增强。
OceanBase 开源生态资深技术总监封仲淹
简单而言,OceanBase 作为原生的分布式的数据库,天然具备 MPP 数据库中分布式计算引擎的能力,在行列混存的存储引擎的基础上支持算子下推,并且保证用户在一套系统中处理 HTAP 业务而无需担心资源隔离问题。
现场,OceanBase 技术专家郑晓锋介绍了携程对于 OceanBase 读写分离方案的探索实践以及另一位用户基于出行业务场景,用 OceanBase 替换原有 Spark + Hive 的 HTAP 案例。
OceanBase 技术专家郑晓锋
携程在设计读写方案时,充分调研了 OceanBase 原生支持的三种读写分离策略:备优先读、LDC 只读型副本、LDC 全功能型副本,并基于他们读写较均衡的业务场景,综合三类方案的优劣,最终采用了 LDC 全功能型副本方案,将 Leader 均衡打散在 2 个 zone 中,单独使用一个 zone 的 follwer 副本提供只读服务,平衡了成本及性能。另外,携程在做读写分离方案改造时,为降低业务改造成本,自己修改了OBProxy 层的源码,增加 enable_weak_read 和 weak_read_user_list 参数,实现业务通过 OBProxy 访问自动开启弱一致性读,该部分源码也贡献在了 github 上:https://github.com/oceanbase/obproxy/pull/22。
另一个用户在出行业务场景原先使用了 Spark + Hive 的架构,存在三个问题:同步数据延时高、查询耗时长、大数据集群资源消耗高。引入 OceanBase + Flink CDC 构建实时数仓后,最终达成如下效果:
- 端到端链路时延由原来的 10min 下降到 3s 以内
- 查询效率提升,开启 SQL 分布式执行的并行 Hint,6000 万左右的数据查询统计在 15s 内完成,而之前需要 3 分钟
- 硬件成本收益明显,大数据集群资源原来是 140 核 280G,迁移到 OceanBase 集群后租户资源仅需使用 23 核 46G,硬件资源下降 84%
OceanBase 也会持续加强生态建设和技术链接,未来将支持更多功能,如外表,更好地与大数据领域结合,让大家的使用体验更便捷、更安心。
跨越速运 & OceanBase 实时性能提升实践
跨越速运大数据架构师张杰在题为《跨越速运基于 OceanBase 性能优化实践》 的演讲中强调物流行业分析之痛,除了 AP 分析场景,还有绩效工资查询 、运单成本分摊 、运单时效跟踪等关键数据查询。随着业务发展,数据库场景越来越复杂,如何选择合适的数据库来助力业务持续发展成为关键。
在数据库选型和对比中,主要考虑了以下几个因素:HTAP 能力、兼容性(MySQL)、易用性、稳定性、可维护性。经过初步的筛选,选择了市面上较为流行的五款查询引擎进行测试对比,分别是: TiDB、OceanBase、StarRocks、Doris、Trino。通过跨越自建的 Benchmark 测试和常用功能对比后发现 OceanBase 综合表现最佳,因此基于 OceanBase 继续做了数据集成链路验证,和运单分析架构的升级探索。最终获得如下收益:架构简化(成本下降 50%),数据处理更实时( 5s 变为 2s),方案可复制性高。
跨越速运大数据架构师张杰
实时业务开发过程中, 如果有一个存储引擎, 能支持大数据量场景下表的部分列更新、高性能的多表关联查询、CDC 等能力,在部分场景下能够作为赤兔实时计算平台实时数仓的 DWD/DWS 层,将极大的提升实时业务开发效率。因此,基于赤兔实时计算平台构建 OceanBase OLAP 应用便是最佳选择之一。
未来,OceanBase 会持续打磨产品适用性和易用性,持续降低使用门槛,让数据库技术走进更多企业,助力企业探索新的商业可能,创造数字时代的新未来。
OceanBase 社区技术沙龙
OceanBase 社区技术沙龙一个定期在线上、线下举办技术交流活动的组织,为数据库技术和开源技术爱好者的提供一个自由学习和交流的链接平台。无论你对分布式数据库或对数据库相关技术感兴趣,又或者是开源爱好者,都欢迎你加入的社区。
持续招募:
欢迎对数据库及开源技术感兴趣的朋友加入,为社区持续注入新鲜血液,举办更具各城市特色及口味儿的活动。欢迎您加入我们,成为社区讲师或志愿者,一起共建。
加入方式:添加OB社区小助手(微信:OBCE666)回复【讲师】、【志愿者】或【承办活动】。
5 月线下技术沙龙预告:
5 月 13 日 OceanBase 社区技术沙龙 上海站
5 月 20 日 OceanBase 社区技术沙龙 北京站
具体活动详情,欢迎持续关注,欢迎愿意加入共建的朋友联系我们,与 OceanBase 一起链接更多数据库及开源爱好者。
OceanBase 开源项目地址:https://github.com/oceanbase/oceanbase
欢迎大家加入社区共建,提交问题和建议。Building connectly first!Learning as belonging!