2023 年中国数据库十大发展总结

数据运维 2024-03-01 泡泡手机阅读

2023 年：信心跌至冰点

2022 年中，红衫的一篇《适应与忍耐》的报告，对公司经营提出了预警，让各个公司保持现金流，重整团队，想办法增加盈利。这篇报告的推出的时间点应该是各个整个行业的拐点，大家不再期待 V 型复苏拐点，信心开始逐步跌落，2023 年初跌倒谷底和冰点。2023 年整个一年都是在艰难的慢慢恢复，各行各业普遍艰难，公司裁员加剧，就业率创新低。数据库行业2021 年的资本盛宴开始，众多创业者刚想闯进来分一杯羹，22 年底23 年初就结束了，应该说让从业者深刻体会到了什么是大起大落。站在 2024 年起点往回看，还是非常感慨和唏嘘。作为大起大落的亲历者，今天这篇我们一起来总结数据库行业在 2023 年的一些情况，我会尽量涉及到产品技术，厂商发展，市场环境等多个方面，受限于时间和水平不足，肯定有不少错漏之处，也欢迎大家一起探讨。接下来就正式进入正题：

发展一：HTAP 成为主流数据库的一项基础能力

数据库技术起源于美国，中国在这个行业里面不管是市场容量，技术方面总体来说还是全面落后于美国的。所以产品技术这块国内和国外还是有很大的区别，有些方面国内非常火热，但是在国外缺完全不一样，反过来也是一样的。首先这个特别明显的就是 HTAP 和 Serverless 两项技术，HTAP 在国内比国外热，Serverless 则更是成为海外产品的 default 选项。

HTAP 概念能在国内火爆，TiDB 功不可没，甚至一度大家觉得这可能是一个细分赛道，不过经过几年下来，行业还是逐渐形成了一个共识，HTAP 是数据库的一项基础能力，而不是一个细分赛道，或者反过来说 HTAP 不足于支撑一个单独的数据库细分门类。2023 年一个重要的趋势就是各个主流数据库都把 HTAP 支持作为一项基础能力。典型的有：

23 年 10 月腾讯的 TDSQL-C 也列存索引，并把列存索引和并行查询整体包装成 HTAP 能力。

23 年 12 月百度发布 GaiaDB 4.0，重要升级就是推出列存索引和列存引擎，提升不同规模数据的查询速度，其中列存引擎最大可支持 PB 级数据的复杂分析，并且与事务处理业务严格复杂隔离。

海外这个概念提的比较少，Google AlloyDB 算是正式提过这个概念，AWS 重点宣传的是 Zero-ETL，本质上也是 HTAP 的能力，但总的来说海外对这个概念并不是特别感冒。

发展二：Serveless成为头部厂商的共识

Serverless 在美国经过 AWS 长达十余年不遗余力的宣传，早就深入人心，国内因为不同的市场环境，企业普遍还是喜欢预付费为主，所以这种弹性动态的优势就不明显，因此导致 Serverless 在国内发展缓慢。

数据库 Serverless 这块阿里发力最早，21 年就开始布局，23 年把 Serverless作为主推方向，基本TP，AP，NoSQL各个方向都支持了 Serverless，甚至传统的 RDS 产品线，以及工具的 DTS 产品也开始支持 Serverless。

23 年 8 月份，腾讯的 TDSQL-C 也宣传支持 Serverless，并把主打的差异化点是可以完全释放存储，数据变成归档。业内的 Serverless 无法完全做到不使用不付费，一般实例暂停后仍然会收取高昂的存储费用，可释放存储将彻底解决这一问题。当实例暂停后，数据会进行归档存储。用户无需再为高额的分布式存储进行付费，可在原实例暂停后的存储费用上降低成本80%。

年底的时候华为 GuassDB for MySQL 也全面商用，号称相比固定规格，Serverless实例平均可降低使用成本超30%，特定情况甚至有 80%+ 的成本降低。

所以从 2023 年开始，Serverless 可以说成为头部厂商的共识了，相信在接下来数据库 Serverless 会有一个长足的发展。

发展三：国内在产品形态上部分开始领先海外

相比 HTAP，分布式产品在国内发展更充分，竞争对手很多，所以更值得说一说。分布式数据库国内 OceanBase，TiDB，PolarDB-X 都是比较有特色和竞争力的产品，其中阿里的 PolarDB-X 很早就开始布局和支持存储分离+分布式的技术，走一条存算分离，分布式一体化的技术路线。下图是阿里宣传的融合架构图：

2023 年AWS re:Invent 上宣布推出Aurora Limitless Database，本质上是存算分离的 Aurora 的基础上加了一层 proxy 做分布式。下图就是 AWS 的架构：

看到 AWS 这个新的发布，国内数据库圈子好一阵沸腾，觉得国内的数据库一些方面也可以领先美国厂商了。其实这个趋势并不是发生在2023 年某一天，而是一个逐步积累的过程。早在 2020 年的时候，国内的阿里云 RDS 产品能力就比 AWS 要强，提供了三节点，双节点，单节点，拖管，半拖管等多种形态，除了 AWS 形态，产品性能，规格丰富等都比 AWS 要强。

所以这个趋势并不能说是 2023 年的新趋势，这个趋势一直在发生；但是还是非常值得放到 2023 年重大趋势中拿出来说，这个还是非常明显标志着：随着国内的工程技术能力的逐步增强，会有越来越多的产品领先美国厂商。

发展四：AI4DB and DB4AI 成功翻红

AI4DB，DB4AI 喊了很多年，谈不上新概念，不过在2023 年大模型的带动下，数据库和 AI 结合又有了新的想象力，大模型的巨大威力，让厂商纷纷研究数据库和大模型的结合。

首先是 23 年 8 月份，腾讯云向量数据库（Tencent Cloud Vector DB）正式上线公测。作为一款全托管的自研企业级分布式数据库服务，腾讯云向量数据库专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法，单索引支持10亿级向量规模，可支持百万级QPS及毫秒级查询延迟，不过半年后，直到笔者写这篇文章的时候，腾讯的向量数据库还是没有商用。

百度也赶在年底发布了单独的自研向量数据库，百度向量数据库 VectorDB 是一款纯自研高性能、高性价比、生态丰富且即开即用的向量数据库服务。支持多种索引类型和相似度算法，百亿级向量规模，毫秒级查询延迟。百度向量数据库不仅能配合大模型打造专业知识库，还可以应用于图片搜索，音乐推荐，文本分类等领域。

23 年 12 月份，百度还发布 DBSC（数据库智能驾驶舱），这个是利用 AI 的技术，为用户提供安全审计、智能诊断与数据库管理的数据库自治服务。DBSC 利用 AI 大模型能力和专家经验实现数据库的智能化洞察、评估和优化。有效保证数据库服务的安全、稳定及高效。这块的探索应该说阿里最早，阿里的 DAS 产品在 20 年就看准了数据库安全自治工具一体化成主流趋势。百度的 DBSC 比较有特色的是提供问答诊断、工单处理、知识查找等能力的智能手，这个能力其实是非常考验产品知识的积累的。

NoSQL 这块阿里的 Lindorm 直接简单粗暴的将大模型内置到系统里面，支持以图搜图功能，应该说是一种探索，不过总体觉得还是比较难做出特色和实用价值的。

美国的 AWS 利用 AI 增强 ETL 能力，Google 利用大模型实现代码改写能力，也是在这个方向发力，国内的也有创业公司跟进，不过目前离成熟还需要一些时间。

发展五：云厂商开始发挥软硬件垂直整合优势

应该说云厂商本质上先革 IDC 的名，再革各种基础软件的命，要相比客户自建有明显的优势，推出自研，走垂直整合是必选道路。前一个非常成功的 2C厂商是苹果，2B AWS 也是复制这条道路。国内总体差距比较大，云厂商里面华为，阿里跟进的比较快，都推出了 ARM 系列芯片，国内目前最强的应该是华为的鲲鹏系列。

2023 年开始阿里的全线主力产品都进行了适配，阿里发布的 RDS 经济版本就是适配 ARM 系列，基于倚天/ARM芯片服务器上持续优化，提高性能，定价则是只有 X86 实力的 60%～70% 的价格，通过性价比吸引用户尝鲜和试用。应该说短期内 ARM 的能力还不够，所以是经济版本，长期看，ARM 应该要能能力迭代更快，长期发挥比 X86 更好的能力。如果走向这一天，云厂商的相比自建客户的优势将进一步拉大。

华为、阿里的动作标志着云厂商2023 年也开始发挥垂直整合的优势，不过总体来说国内的发展水平相对美国还是差距比较大。

发展六：RDS 还是常青大盘产品，NoSQL 创新相对较少

2023 年我们观察到，NoSQL 是随着互联网场景诞生的，随着十多年的发展，开始碰到一定的创新瓶颈了。反过来关系型数据库都纷纷一定程度上吸收了 NoSQL 在性能，分布式，高可用的优势，关系型数据库反倒有不少进展。

阿里云栖大会，集中展示了阿里 RDS 的进展，包括解决通用云盘 IOPS 和容量解耦的问题，通过冷温热数据分层，读写性能提高102%，存储成本降低90%。内核层面也有创新，通过binlog并行解析，缩短crash/recovery时间，改进 RTO 事件，支持表级别、行级别压缩；冷温热数据分层，降低客户使用成本等等。应该说从产品形态，计费，内核全方面进行了改进。

整个行业在 NoSQL 这块相对而言就乏善可陈了。

另外中立厂商NineData 进行了第三方公开 RDS sysbench 测试，华为云，百度云分列第一二位，反而不是大家理解的阿里、腾讯。说明在这个领域国内云厂商竞争还是非常激烈的，阿里腾讯保持优势也还是非常困难的。也说明这个领域发展还是比较快的。应该说 RDS 仍能是常青大盘型产品。NoSQL 主要是向量数据库有一些发展，期待传统的缓存，文档数据库以及一些细分时序，图等领域有更多的创新点。

发展七：国产数据库纷纷演进 RAC 架构，企图突破集中式架构

RAC 架构是 Oracle 经典架构，在 Oracle 10/11就已经推出。

互联网厂商因为数据量特别大，Oracle license又特别贵，所以纷纷用 MySQL，叠加各种分布式技术来实现 Oracle 的替代，这就是轰轰烈烈的去 IOE。所以在过去的一段时间，有认为 RAC 就是落后的代表，但是随着时间的发展，大家还是纷纷发现，一般的企业不一定需要那么大的数据量，在这种场景下 RAC 优势就比较明显了。

所以 2023 年在私有化场景上有一个非常明显的趋势，就是国产数据库厂商纷纷发布了类似RAC技术的产品。典型的有达梦 DSC 已经在部分用户那边商用了，优璇再次发布了SuperRAC，人大金仓也很快会推出共享存储多读多写的产品，高斯的RAC版本已经在路上了，虚谷伟业的RAC也在开发中。

但同时有意思的是，国内纷纷支持 RAC， 2023 年 oracle 原厂开始宣布支持分布式能力。所以说技术关键还是看场景，适合的场景选择适合的技术，未来大概率通用数据库会走的道路是分布式存算分离一体化的道路，给客户丰富的选择。

发展八：国内融资环境异常艰难

前面讲的都是技术方面的，除了技术外，市场环境，厂商发展在 2023 年也是精彩纷呈，值得一看，接下来说几个关键点。

首先就是 2023 年国内的融资环境异常艰难，相对于 2021 年的高歌猛进，2023 年异常冰冷，市场上绝大部份公司都很难融资，只有少数的公司获得融资，而且金额也不是很高。

所以我们会看到国内很多大佬纷纷下场，预言2027 年国内数据库厂商十家，二十家左右。应该说国内数据库厂商现在是有点多了，近 300 个数据库，200 家厂商，而数据库又是一个非常通用的产品，所以是非常难容得下这么多的厂商的，至于是十家，还是二十家不关键；关键是怎么在这个残酷的市场竞争力活下来是非常考验的。

总的来说，我相信最有创新能力，客户服务能力强的厂商会活下来。

发展九：信创提速

信创从 2019 年大力推行以来，金融行业走的最快，金融行业基本完成了大行，股份制的划分，推进到了中小行。国家在推动信创目录上也是动作频频。12 月刚公布的新一轮信创目录：http://www.itsec.gov.cn/aqkkcp/ywjs/。

另外除了金融行业，明显看到其他关键行业如电信、电力都加快了信创的速度。现在信创最大的问题还是竞争太激烈，导致没有一个实际赚到钱的厂商。大概估计数据库研发人均收入还不足 50 万，离健康的 500 万差 10 倍以上。

信创就是个双刃剑，给了数据库厂商希望，估计未来大量倒闭的也是出在这个领域。

发展十：头部独立厂商商业化能力越来越强

最后一个趋势，留给在数据库行业挣扎的企业。

应该说宏观环境很不好，但是头部厂商还是持之以恒的突破。像 OB 加大了公有云投入，获得了一些标杆客户，像包括新零售行业的海底捞、二维火和客如云，制造业的理想汽车，互联网行业的高德、携程、快手、作业帮、翼鸥教育、GCash，以及跨境行业的洋葱集团、纵腾集团、递四方等。

TiDB还在持续拓展海外客户，包括尝试 Serverless 等，和 AWS合作在客户上也有不错的进展。

国内深圳计算所推出的崖山数据库，是今年的异军突起，有一些标杆客户，主打 Oracle 兼容，包括推出个人版已向所有用户和开发者全面开放下载，大家可以去尝试使用一下。

展望 2024 年：柳暗花明又一村

2023 艰难的一年过去，迎来了有希望的 2024 年。展望 2024，我们判断未来会有这么几个大的趋势：

AI 代码改写会越来越成熟，oracle 转 MySQL，PG 预计会变得很简单。
向量数据库会走向更务实的实用阶段，预计在智能问答，助手等领域会有更多实际应用。
存算分离和分库分表分布式技术会走向融合。
1~2年之内，Serverless在国内会变得很普及，各个云厂商都预计会推出serveless数据库产品。
数据仓库领域，湖仓一体化，会成为数据仓库的主要形态，形成共识。
2024 年应该会是数据库的转折点，有一些数据库厂商会被淘汰。
当能以上的判断纯基于个人的经验，就不详细论证了，我们在 2025 来看看有哪些能应验，哪些判断错了。

预祝大家在新的一年柳暗花明。