随着数据成为第五大生产要素,新兴软硬件技术快速发展,各行各业的数据呈指数式增长,传统集中式数据库面对海量数据存储、高并发等场景的局限性愈发凸显。分布式数据库凭借高可用、高可扩展性、高性价比等优势,已经被对数据库要求最严苛的金融行业所认可,并逐渐被应用在更广阔的领域。
近日,国家工业信息安全发展研究中心、中国电子学会、北京国家金融科技认证中心等共同编制的《分布式数据库发展趋势研究报告》(以下简称“报告”)发布。该报告由“分布式数据库的定义及分类”、“分布式数据库发展现状”、“分布式数据库发展面临的机遇和挑战”、“分布式数据库的发展趋势”、“分布式数据库的发展建议”组成。
下载报告:分布式数据库发展趋势研究报告 >>
其中,“分布式数据库的发展趋势”综合梳理了我国分布式数据库技术路线和产业现状,结合各参编单位以及产学研专家全方位、多维度的分析,共指出九大发展趋势,对行业发展颇具前瞻性指导意义。不仅是为分布式数据库厂商指明未来的发展方向,亦是为企业选型数据库提供标准参考。
分布式数据库走向原生设计
随着数据处理规模指数级增长,众多系统面临着性能和成本的双重压力。为应对新的业务需要,数据库领域亟需革命性产品开启未来。分布式数据库的核心理念是让多台服务器协同作业,完成单台服务器无法处理的任务,尤其是高并发或者大数据量的任务。
而原生分布式高可用设计能够在普通服务器上实现无限水平扩展,通过添加低成本服务器即可扩展算力,提升数据库集群的整体性能。所有节点均支持读写,对外提供统一的数据库服务,支持全局索引、全局一致性事务。特别是对客户来说,用法与传统集中式数据库没有区别,从而省去了定制改造的步骤,减少大量人工成本。
除此之外,在高可用方面,容灾能力是关键业务系统的重要衡量指标。原生分布式在设计之初就假定硬件是不可靠的,它可以支持多个数据副本分散存储在不同地域,实现跨机架、跨数据中心、跨地域的容灾部署,能够最大程度提高业务系统的容灾能力。在强一致事务的保护下,变更操作在多个地域保证成功提交,因此当灾难发生时,数据不会丢失,达到高级别的容灾标准。
原生分布式架构是一个全新的设计,具备集群的扩展和收缩对应用透明,并可以按需扩展,没有数量和规模限制;原生的多副本机制支持跨地域的访问和容灾;多活架构,硬件利用率高等优势。可以预见的是,未来更多的产品会走向原生分布式的技术路线,原生分布式数据库也将迎来更好的发展机遇。
分布式数据库架构的设计走向一体化
目前国内数据库主要分为存量替换和增量市场两个部分。其中,增量市场主要以开源语法兼容为主,绝大部分业务逻辑在应用中实现,对数据库能力要求相对较低,很多开源产品也能满足。而对厂商来说,增量市场研发投入相对较少,因此大部分新兴分布式数据库厂商都在追逐这个市场。而存量替换则是多数国内企业真正遇到的难题,绝大部分企业的核心业务系统运行在功能强大的集中式商业数据库上,目前面临着原有数据库系统无法升级的困境,存在 License 过期的风险,而业务系统重构又存在成本高、风险大的问题。
商业数据库功能灵活、语法支持多等对分布式数据库的兼容能力设计提出极大的挑战。厂商要用一体化设计的思路,将传统商业数据库的强大的单机能力与分布式融合,将多种负载能力在一套数据库上融合,甚至将多种兼容能力体现在同一套数据库中,这些是国内各重点行业的企业迫切需要的,能够为企业节省大量的迁移适配成本。
此外,未来分布式数据库应提供数据迁移过程的全生命周期管理,在管控界面上完成数据迁移的创建、配置和监控,交互简便。同时提供多种方式的数据校检和保护,全面高效的保证数据正确性,展示差异数据,提供快速修复能力。因此,未来分布式数据库产品将具备全方位、高标准、高可靠性的平滑迁移能力。
分布式数据库的能力将向混合负载发展
企业级应用的业务场景通常可以分为联机交易和实时分析两种,通常称为 OLTP 和 OLAP 的业务应用,由于是不同的应用场景,大型企业往往会选择多款数据库产品分别支持。这种组合式的解决方案要求数据在不同产品间进行流转,数据的同步过程就带来了时间延迟和数据不一致的风险,而且还会产生冗余数据,成本开销被迫提高,这在一定程度上限制了企业的发展。
HTAP(混合事务/分析处理),是近年来提出的一种新兴的应用框架,旨在打破事务处理和分析之间“壁垒”。未来分布式数据库应具备混合负载能力,即在支持高并发、事务性请求的同时,也对分析型的复杂查询提供了良好的支持,实现计算、I/O 资源互不干扰的 OLTP/OLAP 混合负载管理,提供高性能并行执行计算,充分释放资源,进一步提升系统稳定性。并且可以灵活配置两种负载的资源占比,使得在线交易和分析互不影响,一站式地解决企业级应用的各种需求,从而大幅度降低成本,同时提高了企业决策的效率。
HTAP 能力能够帮助企业提高诸多特定场景的分析决策的实时性,比如:金融防欺诈、证券交易决策、信用风险评级等。一个对数据多种查询和计算的 HTAP 系统于用户而言更加友好,性价比更高,省去了数据抽取转化加载的过程并保证了查询结果的实时性,将成为更多用户的选择。
分布式数据库的场景将向云化发展
全球知名咨询公司 Gartner 指出,“到 2022 年,75% 的数据库将被部署或迁移到云平台,只有 5% 的数据库会考虑本地部署。”云化无疑代表了未来,当前,云已经成为中小型企业和互联网公司进行数字化转型的首选IT架构,在传统行业,云的使用度也在逐步攀升。
在此趋势下,数据库也加速了与云环境融合。分布式数据库可以将传统部署和公有云资源有机结合,有效解决私有部署灵活度低,成本过高的问题。多云支持具备快速部署、快速销毁、前期投入低等特点。利用公有云资源能够低成本实现容灾和算力扩展。另外,部署灵活特性意味着不被特定硬件和服务绑定,能够做到机房部署,任意公有云部署,甚至集群内跨多基础设施的混合云,多云部署。
因此,在数据库产品设计层面要充分适配云环境、兼容更多云技术,从而添加更多资源管控、灵活购买、多部署形态等云化方面的能力。面对未来越来越多的用户选择业务上云,企业如何在云原生架构下使用数据库以及提升自己跨云数据管理的能力,就成为必须要思考的问题。
分布式数据库的高可用能力不断在提升
提高分布式数据库的可用性包括了容灾能力建设及可靠性建设。在容灾方面,传统的高可用容灾方案依赖操作系统、存储、数据库等多组件整合分级实现,与业务自身应用配合度低,容灾切换要求高、难度大,风险难以估计,亟需变革升级。在可靠性方面,由于各行业迅猛发展和信息量爆发式增长的现状对数据库的高可用能力要求更高,7×24 小时的服务不中断和数据零丢失往往超出了传统数据库可以承受的能力,同时应对的成本也十分高昂。因此,未来分布式数据库应采取更好的方案来提升其高可用能力。
分布式数据库对数据一致性的支持将日臻完善
研究表明,在可靠数据库管理系统中,事务应该具有四个特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。以往在处理单一事务时,事务的原子性和持久性可以确保在一个事务内,操作多条数据要么都成功,要么都失败。这样在一个系统内部,可以使用数据库事务来保证数据一致性。但是在微服务日益广泛的今天,一项操作会涉及到跨多个系统、多个数据库的时候,用单一的数据库事务就没办法解决了。
并且,数据一致性不仅指在事务发生时的数据一致性,还需要考虑到主备副本之间、集群之间的数据一致性,以及是否有类似区块链似的校验,具备防篡改的能力和应对磁盘静默错误的能力。目前,从数据库行业看,不论是 Oracle、MySQL 还是其他大多数数据库都没有校验主备副本之间的数据一致性。传统数据库技术面临巨大挑战,无法有效保障数据一致性。
因而,在数据服务场景越发多样化的趋势下,对分布式数据库所具备的数据一致性级别要求将会越来越高。当前支持跨区域的数据一致性只是基本,随着微服务的广泛应用,还需要分布式数据库能够支持跨集群、跨表分区、跨数据块的数据一致性。
分布式数据库的生态建设亟需推动
数据库作为基础软件,需要与整个上下游软硬件厂商适配,需要很好的产业建设和人才培养,才能为用户提供更完整、更便利的服务。分布式数据库作为数据库产业的下一步发展趋势,要积极推动生态建设,与国产芯片厂商、硬件厂商、操作系统厂商、中间件厂商等相互认证,与上游 ISV 共建行业解决方案,为用户提供一整套的产品服务体系。先行的分布式数据库厂商要积极参与国家行业标准制定,推动整个行业发展。另一方面,要积极参与制定人才培养体系,与高校深入合作,为国家培养更多的基础软件人才,助力行业基业长青。
而分布式数据库生态建设的核心,便是开源的思想。开源是做基础软件的必经之路,也是社会组织分工的一种新形式和新趋势,开源社区本身就是基础软件商业化当中重要的一环。分布式数据库之所以需要开源,是因为需要更多人去理解和使用,使用和为其贡献代码的人越多,才能越有助于构建出一个完整和健康的生态。
因此,开源生态建设既是企业商业布局的利器,也是促进技术发展和推广的重要手段。当更多的分布式数据库厂商通过开源方式将技术共享给开发者、社区、合作伙伴进而推进共建生态环境时,分布式数据库将会步入快速高品质迭代的大道,提升产品质量,扩大品牌力,吸引更多、更广的用户群体,为分布式数据库的推广与发展,起到跨越式的推动作用。
分布式数据库需要支持异构芯片的混合部署
异构计算时代已经到来。所谓异构,即将 CPU、DSP、GPU、ASIC、FPGA 等不同制程架构、不同指令集、不同功能的计算单元,组合起来形成一个混合的计算系统。所谓异构芯片的混合部署,就是在允许异构内核以分离模式运行的同时,集成内核的共享集群逻辑以锁定模式运行。这就在不同的层级上既提供了锁定模式的安全机制,又提供了分离模式的性能。
未来,数据库要为操作系统、芯片的灰度替换提供支持,而在关键行业及软件领域,数据库还需要提供对异构芯片的支持,从而提升数字化解决方案的严谨性,降低应用风险,分布式数据库也不例外。而对于企业,从成本角度上看,如 A 芯片涨价,企业可选择采购 B 芯片,提升采购自由度的同时,可降低芯片成本;从安全层面上看,如果 A 芯片爆出安全漏洞,企业可随时替换 B 芯片,尤其在核心系统,可以选择安全性更高的芯片,从而保障业务的连续性。
分布式数据库应支持数据透明加密
2021 年 11 月 1 日《中华人民共和国个人信息保护法》正式施行之后,监管部门已在金融等行业中推广数据加密,要求敏感数据采用加密的方式进行存储。而数据库、存储产品等作为数据的承载媒介,有义务为此提供坚实的数据安全保障。
目前,敏感数据加密业界普遍的做法是通过代码直接调用加密机进行加密,这在实际的应用中带来了负担,因为每次应用代码的迭代都要考虑是否完成了对敏感数据的加密。同时,应用开发人员需要与安全、审计人员协作完成这块工作,一旦出现遗漏,就易造成信息的泄露。
因而在分布式数据库的发展中,亟需实现更加简易的数据加密机制,而数据透明加密的出现不失为一种有益思路。其通过数据库层配置即可完成,开发人员无需修改代码,因而能够使应用完全无感。目前,数据透明加密的实现在透明传输加密及透明存储加密两个层面都取得了突破。
具体而言,透明传输加密使得即使网络包被拷贝走以后,网络包中传输的数据也无法解密,其需要实现 SQL 代理到数据库服务器之间的通信加密。而透明存储加密使得即使数据库的文件被拷贝拿走,也无法解密其中的数据。透明存储加密采用两级密钥管理,第一级密钥为根密钥,在国家认证的加密机里,而第二级密钥即数据密钥的密文需在分布式数据库的内部表里管理。
写在最后
针对当下分布式数据库发展现状,报告还从技术、生态、测评体系及国家政策的角度对分布式数据库提出了几大发展建议:
在核心技术研发上,充分调动产学研用多方力量,协同攻关,解决技术瓶颈问题,持续加强关键核心技术突破,建立面向我国分布式数据库自主技术路线的标准体系。
在打造自主技术体系生态方面,我国正在构建以内循环为主,国内国际双循环相互促进的新格局。我们应当抓住这次以外力促进提升内功的机会,转变思维,从“模仿跟随”走向“创新创造”。
在建立专有测评体系上,从单一评价转向综合评估,以性能评价转向多维度能力评估体系。既包括数据库的性能指标,同时也包括数据库与应用系统的适配能力评价,数据库的安全性等。要加大国内外开源发展趋势研究,探索建立我国自主开源社区和开源治理模式。
在政策与顶层设计引导上,建议加强适当的政策引导,充分利用好数据库以及基础软件领域的创新中心、适配基地及重点实验室等机构,加强供需双方的产用协同,形成良性的问题反馈机制,共同解决一些共性的技术和产品问题,逐步打磨优秀的分布式数据库产品。
最后,在开源生态建设方面,围绕开源社区去做增值工具组件或者增值服务,是其围绕开源社区的一种商业模式。与国内外开源组织建立良好合作,有序推动项目、开发者、社区联动,提高开源组织影响力。