谷歌已将向量搜索引入其 MySQL 数据库服务,这一步领先了 MySQL 的所属公司 Oracle,迄今为止,Oracle 尚未给 MySQL 添加任何大型语言模型(LLM)方面的功能。
谷歌云数据库副总裁安迪·古特曼斯 (Andi Gutmans) 表示,在过去 12 年里,谷歌在向量方面的创新速度相当快。目前,在多个 Google Cloud 数据库中提供向量搜索预览版,包括 Cloud SQL for MySQL、Memorystore for Redis 以及 Google 的分布式数据库管理和存储服务 Spanner。
向量是 LLM 的基本元素,自 2022 年 ChatGPT 推出以来,LLM 已成为大型科技公司、政府和媒体的关注焦点。LLM 依赖于单词或语言的其他组成部分,根据其与其他语言的统计相似性将其表示为向量嵌入。Google 支持 Word2Vec,这是一种 2013 年推出的自然语言处理技术,尽管它已被法学硕士采用的转换器架构所取代。
开源数据库服务公司 Percona 的技术传播者 Dave Stokes 表示,Oracle 工程部门近期没有计划向 MySQL 支持向量类的功能。
“可悲的是,Oracle 似乎将所有资源投入到 HeatWave 中,同时为社区版做了绝对最低限度的资源,”他说。“这将使得 MySQL 进一步落后于 PostgreSQL 和新的向量数据库等。社区版普遍缺乏新特性和功能,而将 JavaScript 和向量嵌入到商业版本中,这将使社区客户寻求其他替代方案,例如 Google 提供的产品”。
不过,谷歌并不是唯一一家将向量搜索添加到 MySQL 服务的供应商。PlanetScale 是基于 MySQL/Vitesse 的分布式事务系统,于去年 10 月宣布了这一新功能。
Redis 是一种流行的内存数据库,通常用作缓存和系统代理,也已经在发布的版本中支持向量搜索。
分布式文档数据库 Couchbase 在 DBaaS Capella 和 Couchbase Enterprise Edition 中引入了向量搜索作为新功能。Couchbase 产品管理和业务运营高级副总裁 Scott Anderson 表示,向平台添加向量搜索是“使我们的客户能够构建新一波自适应应用程序”的下一步。
去年,Oracle数据库、Cassandra、MongoDB、PostgreSQL 和 SingleStore 在其数据库系统中增加了对向量搜索的支持,而像 Pinecone 这样的专业向量数据库也如雨后春笋般涌现,以支持计算趋势。
Forrester Research 副总裁兼首席分析师 Noel Yuhanna 表示,向量搜索现在或多或少已经成为任何专业企业数据库的标准。
“那些没有它的企业可能会看到对其增长的影响。根据我们的研究,大约 35% 的企业正在考虑向量数据库,预计在未来 18 个月内将增长到 50%,”他说。
他表示,向量搜索对于生成式人工智能应用程序变得至关重要,可以帮助寻找类似的数据、图像和文档,以及客户智能、欺诈检测、聊天机器人和内容个性化等新兴应用程序。
Yuhanna 说,虽然专业向量数据库有其优势,但集成数据库为组织提供了更多背景和更丰富的数据体验。“没有哪家供应商能脱颖而出,因为向量功能仍在不断发展,而且许多供应商尚未展现出高端规模。”
然而,目前只有约 22% 的组织正在为其数据库考虑 LLM/GenAI 战略,尽管 Forrester 预计这一数字在未来两到三年内会翻一番。Yuhanna 表示:“我们看到的大部分需求是希望利用向量进行新部署的新 GenAI 应用程序;要使现有数据库转向向量,我们至少需要几年时间。”
谷歌还试图让自己的 GenAI 模型更接近其分析环境。谷歌表示,它正在通过 Vertex AI 为 BigQuery(其数据仓库系统)的用户提供 Gemini。与 AI 和 ML 平台的新集成旨在帮助数据工程师和分析师使用 Gemini 模型为其 BigQuery 数据提供多模式和高级推理功能。
Yuhanna 表示,将 Vertex AI、BigQuery 和 BigLake 更紧密地结合在一起不仅可以帮助组织避免数据移动,还可以帮助提供见解、改善数据治理和安全性、删除冗余数据,并通过最大限度地减少管理要求来降低成本。
他表示,企业将非结构化数据与结构化 BI 风格数据合并为所谓的 Lakehouse 概念是趋势的一部分,目前约有四分之一的企业采用这种概念,以降低成本并运行 BI、数据科学、AI/ML、运营单一平台上的见解和 SQL 分析。