加入我们的微信群,你将获得不仅仅是知识,还能享受免费最新GPT-4o模型微信机器人+Oracle MOS免费查询+职业发展规划咨询+数据库大佬交流,很多志同道合的小伙伴,欢迎加群一起探讨、学习、进步!“选择”比“努力”更重要。扫描下方二维码添加作者微信,回复“DBA理想”即可开启你的数据库学习之旅。
今天,带大家浅浅得了解一下 Oracle Database 23AI 的革命性新特性:向量搜索(Vector Search)。这种技术有望彻底改变您在企业数据中搜索信息的方式。
理解向量的语义
想象一下,通过意义而不是关键词来搜索数据。这就是向量搜索的力量所在。向量搜索利用机器学习嵌入模型(如图像的 ResNet 和文本的 Bert)将您的数据转换为向量,这些向量代表了信息的语义本质。相似的实体在这个多维空间中的向量会靠得很近。
结合传统搜索和 AI 驱动的搜索的力量
Oracle Database 23AI 的美妙之处在于它无缝集成了传统搜索和 AI 驱动的向量相似搜索。这消除了需要设置单独的向量数据库的必要,避免了数据陈旧、复杂性增加、难以维护一致性和安全风险等问题。
23AI:企业级的优势
这是 Oracle 的优势所在。Oracle Database 23AI 是一个融合的平台,消除了管理独立系统的复杂性。它还解决了大型语言模型(LLMs)的一个主要挑战:hallucination。通过结合 LLM 知识和向量搜索的相关搜索结果,23AI 确保了准确和可靠的响应。
LLM + AI 向量搜索:一个强大的知识库
想象一下,您拥有一个将实时企业数据与互联网的广泛信息相结合的庞大知识库。这就是 LLM 和 AI 向量搜索一起工作的魔力。用户提交查询,这些查询被编码为向量并在数据库中搜索。最接近的匹配项会被提供给 LLM,使其能够提供全面和信息丰富的响应。
向量搜索的新 SQL 功能
23AI 引入了一系列新 SQL 功能,以释放向量搜索的力量:
-
新 SQL 向量生成:轻松从您的数据生成向量。
-
新向量数据类型:使用新的 VECTOR 数据类型有效地存储向量嵌入。
-
新向量搜索语法:使用 VECTOR_DISTANCE 函数和可选的距离度量执行高效的相似性搜索。
-
新近似搜索索引:通过近似搜索索引实现大数据集的高性能搜索。
-
新 PL/SQL 包和集成:通过 PL/SQL 包扩展功能并与第三方框架集成以构建强大的 AI 管道。
构建强大的向量搜索查询
下面是一个展示向量搜索强大功能的示例查询:
SELECT ...
FROM JOB_Postings
WHERE city IN (SELECT PREFERRED_ CITIES FROM Applications...)
ORDER BY vector_distance(job_desc_vectors, :resume_vector)
FETCH APPROXIMATE FIRST 10 ROWS ONLY WITH TARGET ACCURACY 90;
此查询在工作描述与提供的简历向量最相似的职位发布中搜索,确保候选人与职位的完美匹配。
选择正确的向量索引
23AI 提供了两种类型的向量索引以优化性能:
-
图向量索引:内存中的索引,用于小数据集的快速和高精度搜索。
-
邻居分区向量索引:用于无法装入内存的大型数据集的可扩展索引。它以高机会找到相关匹配项的方式提供快速结果。
创建索引示例
CREATE VECTOR INDEX photo_idx ON Customer(photo_vector)
ORGANIZATION [INMEMORY_ NEIGHBOR GRAPH | NEIGHBOR PARTITIONS]
DISTANCE COSINE | EUCLIDEAN | MANHATTAN | ... WITH TARGET ACCURACY 90;
请注意,我们使用 APPROXIMATE 关键字来指示优化器使用相关索引。但是,即使我们指定了这一点,如果 Oracle 的基于成本的优化器认为索引访问成本较高,它仍然可以执行精确搜索。例如:FETCH APPROXIMATE FIRST 5 ROWS ONLY。
企业级 CBO 的重要性
优化向量搜索查询,尤其是与标准化企业数据结合时,需要企业级的基于成本的优化器(CBO)。23AI 在这一方面表现出色,与缺乏这种关键功能的专用向量数据库不同。
超越单一向量:多向量查询
23AI 允许您执行多向量查询,使您能够基于不同向量的组合进行搜索。
关键差异点:为什么选择 Oracle Database 23AI
-
事务一致性:邻居分区向量索引保证了事务一致性,使其成为高速一致操作的理想选择。
-
扩展架构:在 RAC 节点之间分配向量搜索工作负载,以实现卓越的可扩展性。
-
Exadata 卸载:将向量搜索任务卸载到 Exadata 存储,以实现更高的性能。
-
无缝集成:Oracle 分片、并行执行、分区、安全性等所有功能都与 AI 向量搜索无缝配合。
AI 向量搜索:GEN AI 管道的引擎
23AI 超越了搜索。它作为强大 GEN AI 管道的基础。这些管道在稳健的 Oracle Database 23AI 平台内无缝集成了文档加载、转换、嵌入模型、向量搜索和 LLM 推理。
总结
Oracle Database 23AI 的新特性 "向量搜索" 将彻底改变我们搜索企业数据的方式。通过使用机器学习嵌入模型将数据转换为代表语义本质的向量,它可以通过意义而非关键词来搜索数据。23AI无缝集成了传统搜索和AI驱动的向量相似搜索,消除了设置单独的向量数据库的需要。除此之外,23AI 还引入了一系列新的 SQL 功能,使得生成、存储和搜索向量更加容易。23AI 的优点还包括事务一致性、扩展架构、Exadata卸载和无缝集成等。这些特性和优点使得 Oracle Database 23AI 在企业搜索领域中处于领先地位。
往期推荐
为什么中国还没有创造出像PostgreSQL和MySQL这样的开源数据库?
从Oracle迁移到PostgreSQL的可行性研究
Oracle数据库中的动态行转列操作--Pivot函数
Oracle数据库架构选择指南
Oracle 11.2.0.4 RAC环境节点重新添加