1. 应用场景
你可以使用 Milvus 搭建符合自己场景需求的向量相似度检索系统。Milvus 的使用场景如下所示:
2. 概念简介
Milvus 是一款云原生向量数据库,它具备高可用、高性能、易拓展的特点,用于海量向量数据的实时召回。
非结构化数据
非结构化数据指的是数据结构不规则,没有统一的预定义数据模型,不方便用数据库二维逻辑表来表现的数据。
非结构化数据包括图片、视频、音频、自然语言等,占所有数据总量的 80%。
非结构化数据的处理可以通过各种人工智能(AI)或机器学习(ML)模型转化为向量数据后进行处理。
特征向量
向量又称为 embedding vector,是指由 embedding 技术从离散变量(如图片、视频、音频、自然语言等各种非结构化数据)转变而来的连续向量。
在数学表示上,向量是一个由浮点数或者二值型数据组成的 n 维数组。
通过现代的向量转化技术,比如各种人工智能(AI)或者机器学习(ML)模型,可以将非结构化数据抽象为 n 维特征向量空间的向量。这样就可以采用最近邻算法(ANN)计算非结构化数据之间的相似度。
向量相似度检索
相似度检索是指将目标对象与数据库中数据进行比对,并召回最相似的结果。同理,向量相似度检索返回的是最相似的向量数据。
近似最近邻搜索(ANN)算法能够计算向量之间的距离,从而提升向量相似度检索的速度。如果两条向量十分相似,这就意味着他们所代表的源数据也十分相似。
Collection
包含一组 entity,可以等价于关系型数据库系统(RDBMS)中的表。
Entity
包含一组 field。field 与实际对象相对应。field 可以是代表对象属性的结构化数据,也可以是代表对象特征的向量。primary key 是用于指代一个 entity 的唯一值。
注意: 你可以自定义 primary key,否则 Milvus 将会自动生成 primary key。请注意,目前 Milvus 不支持 primary key 去重,因此有可能在一个 collection 内出现 primary key 相同的 entity。
Field
Entity 的组成部分。Field 可以是结构化数据,例如数字和字符串,也可以是向量。
注意:
Milvus 2.0 后已支持标量字段过滤。并且,Milvus 2.0在一个集合中只支持一个主键字段。
Milvus与关系型数据库的对应关系如下:
Milvus向量数据库 | 关系型数据库 |
---|---|
Collection | 表 |
Entity | 行 |
Field | 表字段 |
Partition
分区是集合(Collection)的一个分区。Milvus 支持将收集数据划分为物理存储上的多个部分。这个过程称为分区,每个分区可以包含多个段。
Segment
Milvus 在数据插入时,通过合并数据自动创建的数据文件。一个 collection 可以包含多个 segment。一个 segment 可以包含多个 entity。在搜索中,Milvus 会搜索每个 segment,并返回合并后的结果。
Sharding
Shard 是指将数据写入操作分散到不同节点上,使 Milvus 能充分利用集群的并行计算能力进行写入。默认情况下,单个 Collection 包含 2 个分片(Shard)。目前 Milvus 采用基于主键哈希的分片方式,未来将支持随机分片、自定义分片等更加灵活的分片方式。
注意: 分区的意义在于通过划定分区减少数据读取,而分片的意义在于多台机器上并行写入操作。
Index
索引基于原始数据构建,可以提高对 collection 数据搜索的速度。Milvus 支持多种索引类型。为提高查询性能,你可以为每个向量字段指定一种索引类型。目前,一个向量字段仅支持一种索引类型。切换索引类型时,Milvus 自动删除之前的索引。
相似性搜索引擎的工作原理是将输入的对象与数据库中的对象进行比较,找出与输入最相似的对象。索引是有效组织数据的过程,极大地加速了对大型数据集的查询,在相似性搜索的实现中起着重要作用。对一个大规模向量数据集创建索引后,查询可以被路由到最有可能包含与输入查询相似的向量的集群或数据子集。在实践中,这意味着要牺牲一定程度的准确性来加快对真正的大规模向量数据集的查询。
3. 安装部署
单机版 Milvus
安装docker( Ubuntu版 )
sudo apt-get remove docker docker-engine docker.io containerd runc
sudo apt-get update
sudo apt-get install \
apt-transport-https \
ca-certificates \
curl \
software-properties-common
curl -fsSL download.docker.com/linux/ubunt… | sudo apt-key add -
sudo apt-key fingerprint 0EBFCD88
sudo add-apt-repository \
"deb [arch=amd64] download.docker.com/linux/ubunt… \
$(lsb_release -cs) \
stable"
sudo apt-get update
sudo apt-get install docker-ce
systemctl status docker
如果没有运行,运行以下命令运行 Docker 服务
sudo systemctl start docker
sudo systemctl enable docker
sudo docker version
安装DockerCompose
sudo curl -L "github.com/docker/comp… compose-(uname−s)−(uname -s)-(uname−s)−(uname -m)" -o /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose
docker-compose version(Docker Compose 建议使用 1.25.1 或以上版本)
安装单机版milvus
wget github.com/milvus-io/m… compose.yml -O docker-compose.yml
或可以直接用下面的yml,需要新建/data/volumes目录
📎docker-compose.yml
sudo docker-compose up -d
sudo docker-compose ps
docker update --restart=always 容器id 或 容器名称
分布式版 Milvus
安装k8s集群(Ubuntu版)
设置主机名
以192.168.77.60,192.168.3.151,192.168.77.172三台主机搭建k8s集群
主机192.168.77.60
hostnamectl --static set-hostname k8s-master
主机192.168.3.151
hostnamectl --static set-hostname k8s-node01
主机192.168.77.172
hostnamectl --static set-hostname k8s-node002
执行完毕后重启或执行下面的命令即可生效
hostname $hostname
每台机器都做域名解析,绑定hosts
sudo vi /etc/hosts
添加内容
192.168.77.60 k8s-master
192.168.3.151 k8s-node01
192.168.77.172 k8s-node02
确保各个主机间ping的通(ping k8s-master, ping k8s-node01,ping k8s-node02)
禁止swap分区
K8s的要求,确保禁止掉swap分区,不禁止,初始化会报错。
在每个宿主机上执行:
sudo swapoff -a
修改/etc/fstab,注释掉swap那行,持久化生效
sudo vi /etc/fstab
确保时区和时间正确(最好给每个主机定时做时间同步),这里直接使用chronyd服务
systemctl start chronyd
systemctl enable chronyd
date
关闭防火墙和selinux
ufw status
ufw disable
vi /etc/selinux/config
修改SELINUX=disabled
各主机安装 docker-ce(可参考单机版milvus中的docker安装)
配置 docker-hub 源,国内网络拉取国外源时可能会失败
vim /etc/docker/daemon.json
{
"registry-mirrors": [
"hub-mirror.c.163.com",
"ustc-edu-cn.mirror.aliyuncs.com",
"ghcr.io",
"mirror.baidubce.com"
]
}
更改docker默认驱动为systemd(kubectl默认驱动为systemd,所以需要更改docker驱动)
可查看自己docker驱动命令:
sudo docker info|grep Driver
更改docker驱动,编辑 /etc/docker/daemon.json (没有就新建一个)
sudo vim /etc/docker/daemon.json
添加内容
{
"exec-opts": ["native.cgroupdriver=systemd"]
}
重启 docker
systemctl daemon-reload && systemctl restart docker
使用阿里云镜像仓库
apt-get update && apt-get install -y apt-transport-https
curl mirrors.aliyun.com/kubernetes/… | apt-key add -
cat