Weaviate 是一个开源向量数据库,具有强大、可扩展、云原生且快速的特点。可存储对象和向量,允许将向量搜索与结构化过滤与云原生数据库的容错性和可扩展性相结合,所有这些都可以通过 GraphQL、REST 和各种语言客户端进行访问。
允许你存储来自你最喜欢的 ML 模型的数据对象和向量嵌入,并无缝扩展到数十亿个数据对象。
简而言之:
- Weaviate 是一个开源向量数据库。
- Weaviate 允许你通过使用向量索引来根据数据对象的语义属性来存储和检索数据对象。
- Weaviate 可以独立使用 (aka bring your vectors) ,也可以与各种可以为您进行向量化并扩展核心功能的模块一起使用。
- Weaviate 具有GraphQL-API,可轻松访问你的数据。
- Weaviate 速度很快(查看开源基准测试)。
Weaviate 是一个低延迟向量数据库,对不同媒体类型(文本、图像等)提供开箱即用的支持。它提供语义搜索、问答提取、分类、可定制模型 (PyTorch/TensorFlow/Keras) 等。Weaviate 以 Go 语言从头开始构建,同时存储对象和向量,从而将向量搜索与结构化过滤和云原生数据库的容错性结合起来。所有这些都可以通过 GraphQL、REST 和各种客户端编程语言进行访问。
Weaviate 可以轻松使用最先进的 AI 模型,同时提供专用向量数据库的可扩展性、易用性、安全性和成本效益。最为显着地:
-
快速查询
Weaviate 通常在不到 100 毫秒的时间内对数百万个对象执行最近邻 (NN) 搜索。可以在我们的基准页面上找到更多信息。 -
使用 Weaviate 模块摄取任何媒体类型
使用最先进的 AI 模型推理(例如 Transformer)在搜索和查询时访问数据(文本、图像等),让 Weaviate 管理数据矢量化过程为你 - 或提供你自己的向量。 -
组合向量和标量搜索
Weaviate 可以进行高效的组合向量和标量搜索。例如,“过去 7 天内发表的与 COVID-19 大流行相关的文章”。Weaviate 存储对象和向量,并确保两者的检索始终高效。不需要第三方对象存储。 -
实时且持久的
Weaviate 让你可以搜索数据,即使当前正在导入或更新数据。此外,每次写入都会写入预写日志 (WAL),以便立即持久写入 - 即使发生崩溃也是如此。 -
水平可扩展性
Scale Weaviate满足你的确切需求,例如最大摄取量、最大可能的数据集大小、每秒最大查询数等。 -
高可用性
已列入路线图,并计划于今年晚些时候发布。 -
成本效益
非常大的数据集不需要完全保存在 Weaviate 的内存中。同时,可以利用可用内存来提高查询速度。这样可以有意识地进行速度/成本权衡,以适应每个用例。 -
对象之间的类似图形的连接
以类似图形的方式在对象之间建立任意连接,以类似于数据点之间的真实连接。使用 GraphQL 遍历这些连接。