此前,智能产业媒体《智东西》对 OceanBase CTO 杨传辉进行了专访。在与智东西交流的过程中,杨传辉向大家深入解读分享了 HTAP 的核心技术、研发难点、落地挑战,并为企业如何做出适合业务的数据库架构选择提供了一些参考建议。
除此之外,作为深耕数据库逾十年的专家,他也分享了对国产数据库发展机遇和核心瓶颈的观察。(*本文转载自微信公众号“智东西”<ID:zhidxcom>)
以下为专访原文分享:
国产数据库正在蓬勃发展,借势分布式技术优势,冲进了国际巨头的地盘。
作为管理数据的基础软件,数据库掌握着企业的命脉,牵一发而动全身,尤其是在核心业务中,稍有差错便可能造成无可挽回的损失。随着自研呼声渐涨,这门长期被海外巨头垄断的关键生意,已成为本土企业势必收复的“失地”。
就在近日,全球权威 IT 咨询机构 Forrester 发布的 2022 年度 Translytical 方向的数据平台厂商选型报告,国产自研原生分布式数据库 OceanBase 赫然在列。它也是全球唯三具备实现 Forrester 定义的分布式数据库细分功能(单云、混合云、多云)全覆盖能力的厂商。
OceanBase 钻研了长达 12 年的混合事务和分析处理领域,如今正在数据库行业热度高涨。
凭借能承载高并发事务实时处理与大规模数据实时业务决策的能力,HTAP 有望为企业更高效地挖掘数据价值,大幅降低总成本。随着国内相应需求蓬勃而生,投入 HTAP 方向的数据库从星星之火渐成燎原之势。
作为创始成员之一,OceanBase CTO 杨传辉主导了历代数据库架构设计和技术研发,使其挺过支付宝交易系统、“双 11”等极致并发量场景的考验,服务超过400家金融、能源、交通等行业客户,并主导 OceanBase 成为唯一一家在国际数据库基准测试 TPC-C 和 TPC-H 上都打破世界记录的国产原生分布式数据库。
在与我们交流的过程中,杨传辉对 HTAP 数据库如数家珍,深入解读了 HTAP 的核心技术、研发难点、落地挑战,并为企业如何做出适合业务的数据库架构选择提供了一些参考建议。除此之外,作为深耕数据库逾十年的专家,他也分享了对国产数据库发展机遇和核心瓶颈的观察。
什么是真正的HTAP?
HTAP≠OLTP+OLAP
天下大势,合久必分,分久必合,数据库的发展亦是如此。
早期数据库大包大揽,到上世纪末,因应用场景日趋丰富,逐渐分化成 OLTP 和 OLAP 两大类型,前者主管交易,后者专攻分析。如今,这两大功能又走向融合。
随着大数据浪潮奔涌而至,数据量急剧膨胀,许多业务场景需应对不断增长的实时事务处理和分析需求。统一支持两类功能的 HTAP 数据库横空出世,在企业级市场风头渐盛。
HTAP 有两大显著的优势:低成本、低延时。这不难理解,一套同时能做两件事的系统,相比两套系统拥有更高的性价比;而且省去了繁琐费时的ETL过程,降低延时,更好支持实时分析。
一时间,各路数据库都开始贴上“HTAP”的标签,云计算大厂也纷纷摩拳擦掌。
但对于企业来说,给数据库上新,不免要付出试错成本,因此弄清楚 HTAP 到底怎么用、怎么选型、重点考量哪些因素至为关键。这就涉及一个数据库热门话题——什么是真正的 HTAP?
杨传辉的答案是:在高性能 OLTP 数据库的基础上扩展 OLAP 的能力,能很好支持实时分析。
国际数据库巨头 Oracle、微软 SQL Server 以及国产分布式数据库龙头 OceanBase 都采用这种做法,与前两者不同的是,OceanBase 底层是原生分布式架构,可扩展性强,因而能处理更大的数据量。
也有不少创企走的路线是在 OLAP 基础上引入实时写入,形成一个实时数据仓库。走这种路线,如果不具备 OLTP 核心业务经验,可能很难做到支持完整的事务处理能力。杨传辉解释说,业界有些“HTAP 产品”的事务处理性能较差,不是 HTAP 的问题,而是其产品设计实现的问题。
无论走哪种 HTAP 路线,都应保证一个前提——一套系统,一份数据。
首先,将两套系统简单叠加、缝合的方案,不仅会导致成本上升、存在固有延时,而且两套系统语法会有差别,很难精细控制数据流转和数据一致性问题,到后续升级更会暴露出各种问题,限制企业级应用的发展。
其次,一些采用两份数据的方案,通过 ETL 机制将 OLTP 的数据拉到 OLAP 系统中。这会存在天然的设计缺陷,因为避不开数据搬运,无论是性价比还是延迟都无法做到最优。
这也是为什么从一开始,OceanBase 团队就决定做基于“一个系统,一份数据”的 HTAP 数据库,以将性价比做到极致。
杨传辉说,“一份数据”是从用户角度看的,实际执行中,只要能在满足 HTAP 处理需求数据的前提下最大程度降低冗余,多个副本或者多种形态都可以被认为是“一份数据”。
为了让 OLTP 具备大数据量 OLAP 的能力,HTAP 需引入原生分布式架构和低成本存储引擎,支持 OLTP 与 OLAP 间的资源隔离、复杂查询和大数据量查询,以及 OLAP 的数据开发和建模能力。
须注意的是,鱼和熊掌不可兼得,真正的 HTAP 系统也不是万能的。
理论上,它不会牺牲分析能力。但由于工程复杂度和产品成熟度问题,基于 OLTP 研发的 HTAP 数据库,其 OLAP 能力会弱于专门的 OLAP 系统,因此更适合 OLTP、OLTP 与实时 OLAP 混合负载处理场景,不适合离线数据仓库或大数据无结构化数据处理场景。
杨传辉建议,企业开始做新业务,或是已有业务遇到一些传统数据库方案难以解决的痛点时,也许正是切入 HTAP 的好时机。
那么企业选择 HTAP 时,怎么判断这个数据库方案,值不值得投入试错成本,能不能未来长期用下去,为业务带来价值?
他给出了一些参考维度:首先是看落地经验,在标杆客户核心业务场景中实现规模应用的 HTAP 方案,说明足够成熟稳定;还要关注核心能力,比如在公开基准测试 benchmark 中的性能表现如何,生态工具是否完备好用。如果未来业务将发展至较大规模,那么企业还需考虑 HTAP 采用的技术架构是否存在缺陷、稳定性和容灾能力怎么样、能否实现业务的最佳性价比等。
从这两个角度来看,OceanBase 俨然是不可多得的选择。一方面,它是金融场景中最受欢迎的国产分布式数据库,如今已积累涵盖银行、能源、电力、社保等行业的 400 多个外部企业客户,其金融级容灾、成熟稳定性已经得到充分验证;另一方面,它在过去三年接连打破国际在线事务处理基准测试 TPC-C 和数据分析型基准测试 TPC-H 的世界纪录,证明了自身的技术领先性。
取得这些成就的背后,作为分布式 HTAP 数据库的先行者,自 2010 年诞生以来,OceanBase 一直在摸着石头过河。
12年磨一剑
明年炼出HTAP成熟体
在 HTAP 这条路上,国产自研原生分布式数据库 OceanBase 已经努力了 12 年。
杨传辉认为,坚持自研与落地核心业务场景,是 OceanBase 能将同行甩在身后的“杀手锏”。
只有自主研发,才能完全掌握数据库的内核,真正做出“一套系统,一份数据”的方案。因此 OceanBase 的每一行代码都由其团队自主编写。其经年累月在各种核心业务场景中持续沉淀的 know-how 能力,也为 OceanBase 构筑了愈发坚固的技术及市场竞争壁垒。
在杨传辉看来,其他企业要想仿照 OceanBase 的路线并追平其能力,会存在一个时间差。
但对于许多国产数据库来说,它们甚至连“模仿”的条件都不具备——有多少像支付宝交易、双 11 这样关键又拥有超高并发挑战的业务,敢让初出茅庐、未经大量实践检验的新型数据库试练?
回想 OceanBase 过去 12 年的历练,用杨传辉的话来说,几乎是“步步难关”。
OceanBase 研发分布式 HTAP 数据库,是一个从 0 到 1 的过程,一开始根本没有业务。就在团队焦思苦虑之际,2011 年,淘宝收藏夹率先发起落地邀请——数百万、数千万用户同时读取商品信息,导致原有数据库动不动就崩盘,他们需要新的数据库取而代之。于是,OceanBase 团队立即为其量身定制了一个特殊架构,第一次证明了其数据库的落地价值。
此时 OceanBase 团队仍顶着巨大的压力。淘宝收藏夹毕竟不算核心业务,对数据库的要求没那么高,要想长远走下去,OceanBase 必须进入核心业务场景,并经受住最严苛的考验。
直到 2012 年 11 月,OceanBase 获得了一个新的机会——拥有庞大业务数据量、高并发量并对故障几乎零容忍的支付宝打算“去 O”了。只要 OceanBase 能接过这个重担,此后它的金融业务之路,将是可预见的畅通。
经过两年的历练,OceanBase 在 2014 年终于迎来核心业务场景的大考——替换支付宝交易系统,扛住全国最大规模流量洪峰“双 11”的压力,做到整个系统的“丝般顺滑”。
结果,OceanBase 一战成名。
此后便是坦途一片:从蚂蚁集团内部核心业务全面应用,到第一次被外部客户采用,从支撑银行、保险、证券等金融业务,到进入政府、公共事业、国家电网等更多非金融业务的核心偏交易业务场景,OceanBase 的落地之路越走越宽。
“做数据库是要靠积累的。”杨传辉说,“这是所有其他国产数据库都拿不到的、无价的经历,对 OceanBase 今天能够成为分布式数据库领域的引领者,起到了最重要的作用。”
从 0 起步到服务 400 多个外部客户,这些经历起到了滚雪球般的正向循环,有了越来越多的客户背书后,OceanBase 获得了更多实战历练的土壤,其经验融入到数据库产品的迭代中,使其进一步拉大与同行在性能、稳定性方面的差距。
杨传辉告诉智东西,过去半年,OceanBase 又取得一些新的进展,在研发新版本方面进一步优化了分析、资源隔离等能力,在落地方面也收获更多新的行业关键客户。“到明年年底,差不多我们就能有 HTAP 的成熟体了。”
国产数据库当打之年
奔赴“分布式”星辰大海
作为关键基础软件赛道,国产数据库的兴起已是必然。在杨传辉看来,分布式数据库正承载着其中最大的“弯道超车”机会。
在集中式数据库赛道,微软、Oracle 等数据库巨头宝刀未老,开源数据库亦气势如虹,留给国产数据库玩家的市场空间所剩无几。但在分布式数据库赛道,国内外企业起点差距相近,甚至国内面对的业务场景要求比海外更为苛刻,而越是具有挑战的事,也往往能带来倍速的成长。
“以前集中式做得很好,成熟稳定,但这有时候也会成为他们做下一代技术的包袱。”杨传辉说,当分布式成为下一代数据库的主流方向,那么国产数据库厂商的优势就会体现出来。
他谈道,包括 OceanBase 在内,国产分布式数据库已经由外围场地迈入核心业务场景,其中 OceanBase 是在核心交易场景应用最多的。在解决一些小数据量问题中,OceanBase 也已经能做到跟 MySQL、Oracle 差不多的性价比。
以前企业可能更多将分布式数据库用在边缘场景作为补充,但近年来,OceanBase 已经做到将分布式 HTAP 用在不同行业的关键客户核心业务场景中,并稳定上线、持续运行。杨传辉相信:“分布式数据库未来市场会特别大,几乎所有的客户都会优先选择分布式。”
随着更多企业走向数字化转型、对实时性产生更高要求,在云原生与分布式叠加趋势的推动下,杨传辉对分布式 HTAP 的未来预期非常乐观。
他观察到这两年分布式数据库的用户认可度越来越高,但与 Oracle、MySQL 显然还有很大差距。“比如 MySQL Oracle 的用户数可能是百万级、千万级,分布式可能是几百级、几千级,这不是一个量级的。”
因此,当前分布式数据库的受认可程度还有待提升,HTAP 仍处于发展初期,核心挑战便是生态问题。这毕竟是个新兴技术路线,很多企业或开发者可能对此感到陌生,需要通过开源、社区运营、高校合作等方式来持续培养更多的用户习惯。国产分布式数据库产品,还需解决语言、文档等问题。
也正因此,OceanBase 在去年 6 月宣布开源,一次性将包含 300 万行代码的全部核心能力开放出来,让更多人成为分布式 HTAP 数据库的开发者。他们还将持续在公众号上发表解读 HTAP 技术的系列文章,分享其已经实现的 HTAP 技术方案和场景价值(*详情可点击本文底部往期推荐板块)。“我们有自信 OceanBase 在分布式行业里的技术遥遥领先,我们需要的是这个行业变得更好。”杨传辉说。
他相信,随着分布式数据库被越来越多的人采用,它又能解决单机问题,未来分布式数据库会在绝大部分场景中取代集中式数据库,他希望未来企业“选数据库就选分布式数据库,选分布式数据库就优先选 OceanBase”。
做国产数据库,是一件需要情怀,也需要敬畏之心的事。OceanBase 能游刃有余地支撑更多行业客户的核心交易业务,绝不是仅靠技术优势拉开差距,锚定分布式 HTAP 赛道、借势移动互联网时代浪潮、持续积累行业 know-how 等多重因素叠加,才造就了它今日的阶段性成功。
现阶段,国产数据库正步入快车道,在大数据及人工智能时代大展拳脚。据中国信通院测算,2020 年中国数据库市场规模约为 241 亿元,到 2025 年预计将增至 688 亿元,市场空间巨大。
但风口之中,难免泥沙俱下,这既需要真正有核心技术的企业在混战中保持定力、坚持自主研发与创新,也需要业界制定更严格的把关标准,为真正有实力的国产数据库厂商保驾护航。
“我觉得所有国产数据库厂商应追求的,是去做一些替代核心系统的事情,”在杨传辉眼中,这可能是最难的、最有社会意义的事,但其商业价值不一定高,因为替代核心技术的投入特别大,与替代一个外围系统不是一个量级。
”但是这件事情不能说等成熟了再去做,永远都不会有成熟的那天,”杨传辉的语调骤然抬高,“就应该跟一些有情怀的企业合在一起,赶紧把这个事情给干出来。”