编者按
近年来,在基础软件领域,“三驾马车”之一的数据库是无可争议的热门赛道之一。回顾2022年,用“花团锦簇”来形容数据库产业的发展也并不为过。各大厂商不止力求在重点技术领域取得突破,也在积极推动其数据库产品和相关解决方案的行业落地,其中以国产化、云为代表的厂商表现尤为突出。
从政策方面来看,随着信创建设的逐步深化,国产数据库发展迎来多方利好。在顶层战略和行业发展的双轮驱动下,信创成果目前已逐步进入全面推广以及核心系统适配改造阶段,其发展态势也由点及面,从传统强耦合的架构形式,转变为分布式多活的云计算架构。
借助分布式架构和公有云的崛起,还有国产化的驱动,国产数据库在过去数年间发展迅速。从需求的角度看,数字化转型的驱动和原有数据库的替代是数据库市场的两大增量。在此背景下,国产数据库厂商也渴望加速产品迭代,从而满足各大行业企业信息基础设施升级的关键需求。
与此同时,我们发现,细数国产数据库厂商的发展历程,可以看到其中的大多数最早都基于开源数据库构建底层代码,加之近年来主流数据库产品纷纷拥抱开源,数据库厂商通过开源社区快速获得正向反馈有效加快了产品开发和质量提升,构建了多方共赢的数据库生态。
不过也需要意识到,尽管国产化会带来数据库升级换代的机遇,但出于长期发展的考虑,主流的数据库用户在进行数据库选型时,还是会更加注重数据库的技术领先性,技术开放性,在云端演进的速度,开源模式。分布式与云原生依然是国产数据库保持领先的最主要方向,在2023年也将成为推动国产数据库技术发展的主要动力。
整体态势:以分布式、云原生、HTAP为发展重点
从数据结构来看,关系型数据库仍旧占据主体,但近年来随着数据量激增以及数据类型不断丰富的影响,关系型数据库的流行程度呈下降趋势。非关系型数据库的市场份额有所提升,在NoSQL领域,以图、时序为代表的产品成为热点,一批初创企业和产品引起关注。此外,NewSQL 是整合了关系型数据库和非关系型数据库的新型数据库。企业采用 NewSQL 数据库需要较高的硬件和学习成本,且需要承担产品不成熟带来的未知风险。
从技术架构来看,采用集中式数据库的企业出现了向分布式架构过渡的趋势。随着云计算、人工智能、物联网等技术的普及,产生了海量非结构化数据,业务场景中应对高并发、异构数据处理等需求不断涌现,分布式数据库因此迎来了发展的契机。当然分布式和集中式架构各有其适用场景,并不是简单的非此即彼,替代与被替代的关系。
从部署模式来看,本地和云数据库混合部署成为主流,而在云数据库中,云原生数据库成为焦点。现阶段有一定IT基础的企业会根据自身发展需求,采取本地与云数据混合部署的模式,从而在数据库读取与存储安全性和易用性上达成平衡。而在数据库厂商之间出现了更多的自有云原生数据库产品的较量,承载规模、弹性能力均成为了竞争要点,而Serverless方向有极大潜力成为后续发展重点。
从处理场景来看,HTAP作为新晋崛起的细分领域成为业内新宠。以往大家比较耳熟能详的是OLTP(在线事务处理)和OLAP(在线数据分析)。过去一般认为这两大场景不能同时兼顾,工作负载隔离和数据新鲜度就是鱼和熊掌不可兼得的问题。HTAP的出现却提供了一种新解。基于创新的计算存储框架,HTAP数据库能够在一份数据上保证事务的同时支持实时分析,避免在传统架构中在线与离线数据库之间大量的数据交互。这对于用户体验的改善来说至关重要。可以预见,HTAP将是数据库厂商竞争的重点领域之一。
从商业模式来看,开源数据库依托社区发展,开发人员可以根据开源许可协议在原始基础上修改或使用,避免了授权和服务费用。开源数据库的商业模式主要包括三种:其一,完全开源式。借助基金会完全托管;其二,开源版本和商业版本分别运营。通过运营开源版本积累人才、打造品牌,再售卖商业版本获取利润;其三,先开源后闭源。运作前期通过开源社区进行持续优化,之后停止社区的维护将产品闭源商业化。
背景:起步晚,但国际影响力逐步提升
相较Oracle、Microsoft、IBM这些海外厂商,国内数据库行业起步较晚。因此很长一段时间内,国内很多企业高度依赖海外厂商研发的数据库系统。直到20世纪末,中国首个数据库“人大金仓 KingbaseES 数据库系统”诞生,随后武汉达梦数据库、神通数据库系统等国产数据库系统相继面世,才打破这种格局。
2009 年,阿里巴巴成立阿里云,开始研发自己的数据库产品 AliSQL。之后,华为、腾讯等企业相继加入自主研发队伍,推出自有数据库产品。随着云计算时代的到来,以及开源社区的兴起,国产数据库开始进入蓬勃发展期。
2013年,棱镜门事件的爆发促使信息安全的自主可控上升为国家需求。国产数据库作为国产化替代的重要环节,在信创产业的指引下走上了发展的快车道。
2019年,国产数据库在国际上迎来高光时刻。OceanBase 数据库打破数据库基准性能测试(TPC-C)世界纪录,成功登顶世界权威数据库评测机构 TPC(国际事务处理性能委员会)排行榜。
2021年,开源首次写入《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》。这为加速国产自研数据库技术迭代和生态构建提供了战略指引。国产开源数据库迎来了又一个百花竞逐、姹紫嫣红的春天。
可以说,国产数据库虽无先发优势,但近年来却充分表现出了其独有的发展潜力,在国际影响力上实现了快速提升,其中云数据库表现尤为出色。
在Gartner 于日前发布的“2022 云数据库管理系统魔力象限”中,被反复提及的中国云厂商有阿里云、腾讯云和华为云。
来源:互联网
- 阿里云连续第三年蝉联领导者象限。其突出点是经过验证的高性能能力。PolarDB以其处理极高的并发性和弹性能力而闻名。
- 腾讯云则进入到特定领域象限,其在金融行业的拓展赢得了关注,报告评价TDSQL正在迅速抓住中国金融行业数字化转型的需求。
- 华为云在去年入选特定领域象限,今年则未能入选,不过报告中也提及,华为云公有云上的DBaaS部署在中国快速增长,但地缘政治问题仍是华为在北美和欧洲进行业务探索的主要挑战。此外,IDC也于近期发布了 “2022年上半年中国关系型数据库软件市场跟踪报告”。报告指出,2022上半年,中国关系型数据库市场规模同比增长了30.4%,其中本地部署关系型数据库规模6.0亿美元,同比增长15.6%。在本地部署模式中,华为云以16.59%的份额排名国内厂商第一。
现状:机遇明朗,国产品牌快速成长。
在非结构化数据激增和高并发计算需求的推动下,数据库行业正在进入以云数据库、分布式数据库为代表的新阶段。在此背景下,国产数据库也迎来了整体发展的黄金期。具体表现在:
1、市场占有率快速提升
受益于高人口基数与应用软件繁荣带来场景红利,国产数据库阵营日益强大。根据中国信通院数据,2021年中国数据库市场规模为 309 亿元,占全球 5.4%。预计 2025 年中国数据库市场总规模将达到 688 亿元,2021-2025 年营收规模年复合增长率为 23.4%。
2、各路厂商纷纷入局
除了达梦、人大金仓等传统数据库厂商之外,云厂商、初创企业、跨界厂商也在发力国产数据库赛道。如前文提到的,像阿里、腾讯这样的云厂商占据云生态优势,借力互联网业务的快速发展,搭建自研云数据库平台抢占市场;再有,初创企业如PingCAP、巨杉等依托于新兴数据库需求和新技术架构实现蓬勃发展;最后像中兴、浪潮这样的厂商虽然并非数据库专精,也在尝试跨界布局企业级数据库市场。
3、信创落地加速发展
国产数据库作为信创的关键环节,随国产化替代深入推进必将受到更多关注。尤其是随着信创成果逐步进入核心系统适配改造阶段,国产数据库市场的大幅提升是必然结果。另外,十四五系列规划中提及数据库的相关政策共计19件,覆盖金融科技、智能制造等各行业领域,为国产数据库应用创新提供了政策依据。
4、资本青睐成新蓝海
进入发展快车道的国产数据库成为投资新沃土,整体发展前景被资本市场看好。根据观研报告网发布的《中国数据库行业发展趋势研究与未来投资分析报告(2022-2029年)》显示,2021年我国数据库行业共发生投资85起,投资金额最高的为12月,当月发生投资事件9起,已披露投资金额达86.57亿元。
5、细分市场各有千秋
国产数据库较为典型的两大细分市场是集中式和分布式。集中式数据库的市场参与者主要为传统数据库厂商,分布式数据库的玩家主要为云厂商和新兴厂商。两者的市场格局目前均呈诸侯割据、部落林立的局面,但随着行业发展的深入,市场份额必将走向集中。另外,值得关注的是,虽然关系型数据库依旧占据市场主体,但在非关系型数据库领域,有一批初创企业深耕图数据库、时序数据库等新赛道,旗下产品在场景验证上扩展了原有的使用空间,在各自的细分领域做出了亮眼表现。
国产开源数据库盘点
在过去的一年中,国产数据库行业发生了诸多变化。随着信创成果持续落地,投融资此起彼伏,开源日趋成为数据库生态构建的重要力量,国产数据库行业也呈现出欣欣向荣的姿态。在新旧交替的时间节点,我们一起回顾一下近一年来表现抢眼的若干国产开源数据库。
TiDB
【项目简介】
TiDB 是由PingCAP 公司自主设计研发的、兼容 MySQL 协议的开源分布式 HTAP 数据库,支持本地和云部署两种方式。
【项目地址】
https://gitee.com/pingcap/tidb
【开源许可证】
Apache-2.0
【发展历程】
成立于2015年的PingCAP 公司借鉴 Google Spanner 及 F1 论文的实现,TiDB 在 Github 上开源,从仅有 SQL 层及 KV 层 的 beta 版本到今年正式发布的 6.0 版本,始终围绕着为用户提供一栈式 OLTP、 OLAP、HTAP 解决方案的目标演进。2022 年,TiDB不仅在产品建设上有多项突破,也获得了国际认可。
【年度事件】
- 4 月,TiDB 分析引擎 TiFlash 正式开源。
- 4月, TiDB 6.0 重磅发布。
- 5月,TiDB Cloud 在全球范围正式商用。
- 6 月,TiDB Cloud 正式上线 Google Cloud Marketplace,Google Cloud 全球用户能够通过 Google Cloud Marketplace 搜索、发现和订阅 TiDB Cloud 服务。
- 6 月,PingCAP 宣布与阿里云达成合作,融合双方技术优势的云数据库 TiDB 正式上线 阿里云心选商城。
- 11月1日,PingCAP 推出 TiDB Cloud Serverless Tier BETA 版。
- 12月,根据「Forrester Wave™: Translytical Data Platforms, Q4 2022 」报告,PingCAP 首次入围就跻身“Strong Performers”行列。
OceanBase
【项目简介】
OceanBase是由蚂蚁金服、阿里巴巴自主研发的金融级分布式关系型数据库,于2021 年6月正式开源。
【项目地址】
https://gitee.com/oceanbase/oceanbase
【开源许可证】
MulanPubL-2.0
【发展历程】
OceanBase 发端于 2010 年,应用于支付宝全部核心业务以及阿里巴巴淘宝业务。从 2017 年开始面向外部客户服务。2020 年 6 月 8日,蚂蚁集团将自研数据库产品 OceanBase 独立进行公司化运作。2021 年 6 月,OceanBase3.0 版本发布并正式开源。2022 年,OceanBase在产品打磨、市场拓展和生态构建中均取得了不俗成绩。
【年度事件】
- 3月15日消息,OceanBase 官网上线 OceanBase 在线体验环境。
- 5月20日,OceanBase 成为首批获得信通院可信开源社区、可信开源项目两项评估认证的数据库。
- 8月10日,“2022年 OceanBase 年度发布会”发布会上重磅发布了 OceanBase 4.0 ——业内首个单机分布式一体化数据库,RTO 从 30 秒迈入 8 秒。
- 11月9日,蚂蚁集团自主研发的原生分布式关系数据库 OceanBase 入选“2022 世界互联网领先科技成果”。
PolarDB
【项目简介】
PolarDB是阿里云自研的云原生关系型数据库,采用的是分布式共享存储架构。
【项目地址】
https://gitee.com/mirrors_alibaba/PolarDB-for-PostgreSQL
【开源许可证】
Apache-2.0
【发展历程】
2009年,阿里集团根据自身业务发展需求提出去IOE,并推出新产品TDDL(Taobao Distributed Data Layer);之后,阿里云将TDDL集成为DRDS(Distributed Relational Database Service)服务,并在2017年将其商业化,成为国内最早的分布式服务的商业化产品;2020年,阿里云将DRDS演进成一体云原生分布式数据库PolarDB-X 2.0;发展至今,PolarDB-X历经10余次阿里巴巴天猫“双十一”考验,支持8.7千万TPS峰值,拥有线下用户700多家,部署规模超过10000台。
【年度事件】
- 5月,2022年度阿里云数据库团队共有15篇论文被数据库三大国际顶级会议 SIGMOD、VLDB、ICDE 收录。
- 8月,IDC发布《2021年下半年中国关系型数据库软件市场跟踪报告》,阿里云市场份额(传统部署+公有云模式)位居第一。
- 9月,阿里云 PolarDB-X 数据库通过分布式数据库金融标准验证。
- 10月 阿里云 PolarDB、RDS 获评信通院数据库 Serverless 认证最高「先进级」,AnalyticDB 获评「增强级」。
openGauss
【项目简介】
openGauss 是由华为自主开发的一款开源关系型数据库管理系统,具有多核高性能、全链路安全性、智能运维等企业级特性。
【项目地址】
https://gitee.com/opengauss/openGauss-server
【开源许可证】
MulanPSL-2.0
【发展历程】
华为在2019年9月宣布将对其数据库产品开源,开源数据库的名称即openGauss。2020年6月,openGauss数据库源代码正式对外开放,为企业提供了更多的开源的数据库选择。openGauss以开源社区为中心为开发者提供学习交流的平台,不断提升openGauss的行业影响力和知名度。时至今日,其生态建设成绩有目共睹。
【年度事件】
- 1月,openGauss 社区正式成立 “openGauss 社区分委会”,以期加速社区人才培养和技术创新。
- 4月1日,openGauss 3.0.0 版本正式发布。该版本是 openGauss 社区继2.0.0之后发布的又一个 Release 版本,版本维护生命周期为3.5年。
- 5月20日,2022 OSCAR 开源先锋日在北京开幕。openGauss 社区首批通过可信开源社区分级评估,在社区治理能力、社区运营能力、社区开发能力模块均被评为“先进级”。
- 8月16日,在2022第十届中国电子信息博览 ( 简称“CITE”)期间,openGauss 企业级开源数据库一举摘得本届中国电子信息博览会最高奖项金奖 (CITE 2022“金奖”)。
TDengine
【项目简介】
TDengine 是涛思数据专为物联网、车联网、工业互联网、 IT 运维等设计和优化的一款分布式、支持 SQL 的时序数据库,其核心代码包括集群功能全部开源。
【项目地址】
https://gitee.com/taosdata/TDengine
【开源许可证】
AGPL-3.0
【发展历程】
2017年,涛思数据开始研发TDengine;2018年8月,TDengine首款产品真正交付用户使用;2019年7月12日,涛思数据正式宣布将TDengine的内核(存储和计算引擎)以及社区版100%开源;2020年
,三个月内完成两轮千万美元融资;2022年,达成“三面开花”:用户数量翻了一番、三款新产品发布、并在 GitHub 上点亮 20,000 Star。
【年度事件】
- 8 月,TDengine 3.0 版本在首届 “TDengine 开发者大会”上正式发布,升级成为一款真正的云原生时序数据库。
- 9月,TDengine Cloud 上线海外市场并同步支持 Microsoft Azure、AWS、Google Cloud 三大公有云平台。
- 11月,涛思数据入选“2022 信创产业独角兽 Top100 榜单”。
gStore
【项目简介】
gStore 是一种原生基于图数据模型( Native Graph Model)的 RDF 数据管理系统,由邹磊教授领导的北京大学王选计算机所数据管理实验室( PKUMOD )研发。
【项目地址】
https://gitee.com/PKUMOD/gStore
【开源许可证】
BSD-3-Clause
【发展历程】
gStore 系统源于2011年北京大学邹磊教授在VLDB发表的论文:“gStore: Answering SPARQL Queries via Subgraph Matching”。其团队在坚持图数据管理领域不断原始学术创新的同时深耕图数据库系统,坚持开源gStore图数据库系统的持续更新。gStore目前提供一键安装的可下载版本、拆箱即用的云端系统和与多个国产自主可控的计算平台(鲲鹏、飞腾、海光、兆芯)兼容。
【年度事件】
10月1日,面向大规模知识图谱应用的原生图数据库系统gStore 1.0版本正式上线发布。
OpenMLDB
【项目简介】
OpenMLDB 是由第四范式自主研发的开源机器学习数据库,提供生产级数据及特征开发全栈 FeatureOps 解决方案。
【项目地址】
https://gitee.com/paradigm4/OpenMLDB
【开源许可证】
Apache-2.0
【发展历程】
2021 年,OpenMLDB 的核心开发团队将第四范式闭源商业产品中的数据治理和特征工程的核心模块进行了抽象、增强、以及添加了诸多社区友好化特性,进行了二次开发,发布形成了今天的开源项目 OpenMLDB。OpenMLDB 脱胎于经过长达五年实践检验的商业化产品,并且在该领域具有大量的经验沉淀和独特理解。如今,OpenMLDB 立足于开源开放的社区进行发展,期望帮助更多的企业低成本高质量完成人工智能转型。
【年度事件】
- 5 月,v0.5.0 发布,引入预聚合技术和基于外存的存储引擎,支持 UDF 开发。
- 8 月,v0.6.0 版本发布,运维功能增强,引入智能诊断工具。
- 10 月,基于 OpenMLDB 的联邦学习方案被国际数据挖掘学术会议 CIKM 录取。
- 11 月,OpenMLDB 首次构建云上生态。
未来趋势
对于2023年国产数据库的发展趋势,PingCAP副总裁刘松进行了预测。
“从全球范围看,Serverless ,HTAP 已经成为越来越热门的关键技术,主要数据库领先者都已经提供了Serverless 的创新版本,主要的云数据库厂商也都在提供HTAP能力,Serverless 因为提供了极致的扩张性和极低的门槛,会变成云数据库未来3-5年风向标。拥有全球业务的TiDB和国产云数据库大厂,都在加速全球扩展,都在投资Serverless,HTAP 等技术获得竞争优势。”
以构建 HTAP 系统为例,关键需要应对如下挑战:其一,如何做成一个有扩展性的HTAP,能够应对准PB 级别的数据量;其二,如何解决TP和AP互不干扰这个问题,以避免AP 分析影响到在线交易系统;其三,如何保证数据新鲜度,并做到数据访问接近零延迟;其四,如何让用户的使用成本较普通数据库更低;其五,如何通过智能优化器降低门槛;其六,如何解决HTAP数据库与用户现有数据库技术体系的集成问题。
关于国产数据库的发展前景,刘松谈到,“从中国市场看,2023年是中国经济加速发展的一年,数字化和国产化两个驱动力会放大它们的杠杆效应,从技术角度看,云数据库会加速发展,HTAP 也会变成更多企业用户的创新选择,开源的影响力会继续扩大,数据库与AI的结合会非常有想象力。从行业角度看,互联网行业的复苏会推动数据库在新经济领域的业务增长,金融,保险,新零售,制造业,公共服务都会有持续增长的国产数据库需求,中国数字原生企业的出海趋势也会加速,这也会带动国产数据库出海的速度和采用。”
结语
据 DB-Engines 数据显示,自2021年1月起,开源数据库的全球部署首次超过了商业数据库。放眼如今的国产数据库市场,我们可以看到众多优质的开源数据库项目。随着数字经济的发展,相关技术应用不断走向深化,加之信创的行业覆盖面越来越广,如何在新一轮产业革命中拔得头筹,谁都没有定论。不过可以明确的是:如果能够持之以恒为国产数据库生态创造一个开放的健康的市场环境,那么在这个风云迭起的时代一定可以书写属于我们自己的华彩篇章。
参考资料:
国产开源数据库,战斗在云原生时代 - 知乎 (zhihu.com)
2022年数据库行业研究报告 国产数据库厂商百花齐放 - 报告精读 - 未来智库 (vzkoo.com)
2022年中国数据库排行榜年终盘点 - 墨天轮 (modb.pro)