分布式向量数据库:赋能大模型长期记忆与精准检索

2024年 1月 10日 53.2k 0

2023年初,ChatGPT爆火,越来越多的企业决策者和技术人员对生成式人工智能产生了浓厚兴趣。他们开始探索如何利用这种技术改善企业的运营效率,优化决策过程。乘着AIGC火热的浪潮,向量数据库作为处理非结构化数据的重要工具受到越来越多的关注,甚至晋升为明星数据库。

尽管向量数据库收到的欢呼声不断,但它们也面临着不小的争议。有人认为,向量的存储与检索是真实需求,而且会随着AI发展水涨船高,前途光明。但这和专用的向量数据库并没有关系——加装向量扩展的经典数据库会成为绝对主流,而专用的向量数据库是一个伪需求。向量数据库真的是一个伪需求吗?向量数据库是否可以助力企业发掘数据价值,创造新商机?带着这些问题,51CTO采访了星环科技基础架构部副总经理刘熙。

专才专用,向量数据库助力企业高性能读取语义特征

相比于向量数据库,很多传统数据库也具备向量存储与检索功能,在部分企业的实践中也表现出不错的性能。那么,当一个传统数据库具备了向量检索和存储功能时,是否就能被认为是向量数据库?它们是否可以被当做专门的向量数据库来进行实践应用?

刘熙表示,基于星环科技服务企业的实践经验来看,如果企业的数据量相对较小,在访问、并发、延迟要求不⾼的情况下,从原有数据库中封装向量计算的方法具有一定的可行性。但是,如果企业数据规模增大、访问并发指标提升,考虑到性能、扩展性和资源弹性等多方面因素,企业就需要专业的向量数据库进行业务处理。“就像将自行车加上发动机,再改装成四个轮子,也能在路上跑一跑,三四十迈的速度也不在话下,但它真的能被当作汽车来使用吗?答案当然是不能,因为在对性能、安全性等方面有一定要求的公路上,这个仅有一个框架的四轮车显然是捉襟见肘的。”

此外,刘熙还认为,向量数据库最鲜明的特征是通过AI技术提取图像、音视频数据背后的语义特征,再将这些语义特征映射到高维向量空间中,使语义问题转化成向量检索问题,从而能够读取图像、音视频数据背后的含义。而语义问题的向量转化恰恰是传统数据库不能胜任的。

当然,向量数据库也并不是万能的,在特定的业务场景下,通过合理结合向量数据库与其他传统数据库的优势,因地制宜施策,才能事半功倍,高效完成工作。刘熙举例说,针对文本搜索场景,向量搜索和全文搜索擅长解决的问题并不完全相同,全文搜索更适合做关键字匹配,而向量搜索能找出文字不同但语义相近的内容。根据刘熙团队的实践经验,在文本搜索场景中,相比单独使用向量或搜索者全文搜索,使用向量加全文的联合召回,可以实现更高的精度。

锦上添花,分布式部署提高向量数据库水平扩展能力

刘熙在采访中表示,分布式向量数据库具备三方面的关键能力:首先,作为一个数据库产品,它需要具备安全、运维等关键能力;其次,它需要具有分布式特性,包含分布式存储、分布式计算、分布式事务和分布式资源管理等四个方面的分布式技术能力;最后,与传统数据库不同,向量数据库需要具备AI能力。因此,分布式向量数据库涉及多个领域的知识,并且需要多方的人才来共同实施完成。据介绍,刘熙团队的成员就来自不同的技术部门,包括存储、计算、安全、AI等。

而由于向量索引大部分情况下是内存索引,对内存容量要求较大。但有些业务场景如新闻类,即便是清洗过的数据,日增量也是巨大的,这无疑是对向量数据库厂商的考验。对此,刘熙团队一方面对向量数据库进行分布式部署,提高其水平扩展能力,另一方面,通过闪存的向量索引方式来提升性能。刘熙举例说,在其公司大模型外挂的向量数据库场景中,单是一年某一品类的金融新闻数据就有近1T的内存开销,可见数据量之庞大。由此,除了选择内存较大的设备,分布式的部署方式也在很大程度上可以提高向量数据库的数据存储量。分布式部署使向量数据库具有更加灵活的水平扩展能力,从而助力大模型提高数据收集、处理和分析的能力。

为虎添翼,向量数据库助力大模型检索精确度不断提升

ChatGPT爆火,“百模大战”打响。随着非结构化数据应用的发展,大模型对语言、音视频、图像的向量检索需求飞速增长,专业的向量数据库凭借巨大的性能优势与独有的特征优势助力大模型缓解“人工智能幻想”,提高“长期记忆能力”,从而提升检索精确度。

刘熙团队从两方面施策助力大语言模型改善“人工智能幻觉”现象。

一方面,企业需要在数据链路上进行工程化处理,从而增强检索技术。另一方面,在文本检索场景中引入稀疏向量,通过稀疏、稠密向量的混合检索提升向量数据库的召回精度。

此外,大模型的“长期记忆能力”的欠缺也是一个不足之处。刘熙认为,解决这个问题,本质上依赖外部存储来存取当下的或者私域的各类数据,而存储的首选肯定是向量数据库,毕竟向量召回从语义上更符合用户的需求。

刘熙团队利用向量数据库为大模型提供三种辅助能力:

首先,将向量数据库作为新知识的载体。刘熙团队通过向量数据库Hippo内置的向量转化工具将实时的知识转化成向量数据存储在Hippo中,从而让大模型能够及时感知前沿知识和信息,降低大模型二次训练的时间和成本。

其次,借助向量数据库存储单次上传的超大文本、对话内容等信息,为大模型提供理论上没有上限的长期记忆,使企业不必因存储超长token而耗费大量资源。

最后,语义缓存能力。企业在建立自己的知识库时,可以将问答知识存储在向量数据库中,存储方式为数据含义,这意味着如果有相似问题,用户就可以基于语义内容命中缓存给出结果,减少对大模型的访问,从而降低成本并提升检索的效率。

刘熙认为,向量数据库作为一种基础的AI设施,可以有效地解决AI技术在实际应用中的问题。它源自AI,同时又为解决AI技术应用问题提供了有效的解决方案。

未来展望:一站式、公有云托管或成向量数据库发展趋势

在信息价值越来越受到重视的今天,企业也急切希望通过对已有数据的分析获得新的突破口,实现业务增长。

那么,企业该如何选择向量数据库?刘熙表示,在数据不断膨胀、计算需求指数级增长、需求快速变化的情况下,企业应该选择专业的向量数据库。同时,企业还需要关注向量数据库是否具有高扩展性、高准确性、高性能以及易用性等特性,即企业在简易的操作下,可以实现大规模向量数据的存储和检索,通过支持多类型索引、检索优化等方式实现高准确性检索,能够使软硬件深度优化,充分发挥CPU多核、高内存带宽等优势,拥有强劲算力。此外,刘熙还认为,由于厂商(或与合作伙伴共研)推出的大模型已经与向量数据库经过充分地磨合,因此使用效果会更佳,同时也帮助企业节省了单独选型与适配的成本。因此,一站式,即整体采购领域大模型+向量数据库的模式,可能是向量数据库市场的发展趋势之一。

谈到向量数据库的未来发展方向,刘熙认为主要有以下四点:

第一,向量数据库与传统数据库会进行直接竞争。大体而言,目前向量数据库有2条技术路线,一种是基于传统关系型数据库封装向量计算功能,另一种是专业的向量数据库。

第二,向量数据库与大模型的生态兼容性至关重要。随着大模型和向量数据库的组合方案更加成熟,未来用户可能会选择整体方案,以此来避免分别采购成本高、兼容性认证复杂等问题。

第三,除语言模型外,对于图片、音视频等非结构化数据在大模型中应用时,向量数据库的价值会更加凸显。

第四,以基于公有云的全托管方式来为用户提供服务,可能会成为向量数据库的主流形式。在保障数据安全的情况下,用户不需要独立部署和管理向量数据库,可以将主要精力放在大模型方面,从而提高管理效率。

结语

向量数据库自AIGC爆火以来收获了众多期待,也经受了不小的非议,而从星环科技服务企业的实践经验来看,专用的向量数据库有它存在的价值,而向量数据库与AI大模型的组合,也值得更多期待。

相关文章

Oracle如何使用授予和撤销权限的语法和示例
Awesome Project: 探索 MatrixOrigin 云原生分布式数据库
下载丨66页PDF,云和恩墨技术通讯(2024年7月刊)
社区版oceanbase安装
Oracle 导出CSV工具-sqluldr2
ETL数据集成丨快速将MySQL数据迁移至Doris数据库

发布评论