Nebula Graph 是一款开源的、分布式的、易扩展的原生图数据库,能够承载数千亿个点和数万亿条边的超大规模数据集,并且提供毫秒级查询。
一、图数据库简介图数据库是以点、边为基础存储单元,以高效存储、查询图数据为设计原理的数据管理系统。
图数据库的概念:图:一组点和边的集合,”点“表示实体,”边“表示实体间的关系。
在图数据库中,数据间的关系和数据同样重要,他们被作为数据的一部分存储起来,这样图数据库就能够快速响应复杂的关联查询。
图数据库可以直观地可视化关系,是存储、查询、分析高度互联的优办法。
图数据库属于非关系型数据库(NoSQL)。图数据库把数据间的关系作为数据的一部分进行存储,关联上可添加标签、方向、属性,这就是图数据库的性能优势所在。
1.1、数据模型Nebula Graph支持6种基本数据模型:
图空间(Space)图空间用于隔离不同团队或者项目的数据。不同图空间的数据是相互隔离的,可以指定不同的存储副本数、权限、分片等。
点(Vertex)点用来保存实体对象,特点如下:1)点是用点标识符(VID)标识的。VID在同一图空间中。VID 是一个 int64,或者 fixed_string(N)。2)点可以有 多个 Tag。
边(Edge)边是用来连接点的,表示两个点之间的关系或行为,特点如下:1)两点之间可以有多条边。2)边是有方向的,不存在无向边。3)四元组 用于标识一条边。边没有 EID。4)一条边有且仅有一个 Edge type。5)一条边有且仅有一个 Rank,类型为 int64,默认值为 0。
标签(Tag)Tag 由一组事先预定义的属性构成。
边类型(Edge type)Edge type 由一组事先预定义的属性构成。
属性(Property)属性是指以键值对(Key-value pair)形式表示的信息。
Tag 和 Edge type 的作用,类似于关系型数据库中“点表”和“边表”的表结构。
1.2、有向属性图Nebula Graph 使用有向属性图模型,点和边构成的图,这些边是有方向的,点和边都可以有属性。
下表为篮球运动员数据集的结构示例,包括两种类型的点(player、team)和两种类型的边(serve、follow)。
Nebula Graph 中没有无向边,只支持有向边。
1.3、路径路径是指一个有限或无限的边序列,这些边连接着一系列点。路径的类型分为三种:walk、trail、path。
walkwalk类型的路径由有限或无限的边序列构成。遍历时点和边可以重复。
由于 C、D、E 构成了一个环,因此该图包含无限个路径
trailtrail类型的路径由有限的边序列构成。遍历时只有点可以重复,边不可以重复。
在 trail 类型中,还有cycle和circuit两种特殊的路径类型:1、cyclecycle 是封闭的 trail 类型的路径,遍历时边不可以重复,起点和终点重复,并且没有其他点重复。在此示例图中,长路径由三条边组成:A->B->C->A或C->D->E->C
2、circuitcircuit 也是封闭的 trail 类型的路径,遍历时边不可以重复,除起点和终点重复外,可能存在其他点重复。在此示例图中,长路径为:A->B->C->D->E->C->A。
pathpath类型的路径由有限的边序列构成。遍历时点和边都不可以重复。由于点和边都不可以重复,所以该图包含有限个路径,长路径由 4 条边组成:A->B->C->D->E
1.4、VID在 Nebula Graph 中,一个点由点的 ID 标识,即 VID 或 Vertex ID。
VID特点:1)VID 数据类型只可以为定长字符串FIXED_STRING()或INT64;一个图空间只能选用其中一种 VID 类型。2)VID 在一个图空间中必须,其作用类似于关系型数据库中的主键(索引+约束)3)点 VID 的生成方式必须由用户自行指定,系统不提供自增 ID 或者 UUID。4)VID 相同的点,会被认为是同一个点。例如:
VID 相当于一个实体的标号:例如一个人的身份证号。Tag 相当于实体所拥有的类型,例如"滴滴司机"和"老板"。不同的 Tag 又相应定义了两组不同的属性,例如"驾照号、驾龄、接单量、接单小号"和"工号、薪水、债务额度、商务电话"。同时操作相同 VID 并且相同 Tag 的两条INSERT语句(均无IF NOT EXISTS参数),晚写入的INSERT会覆盖先写入的。同时操作包含相同 VID 但是两个不同TAG A和TAG B的两条INSERT语句,对TAG A的操作不会影响TAG B。5)VID 通常会被(LSM-tree 方式)索引并缓存在内存中,因此直接访问 VID 的性能高。
1.5、Nebula Graph架构Nebula Graph 由三种服务构成:Graph 服务、Meta 服务和 Storage 服务,是一种存储与计算分离的架构。
每个服务都有可执行的二进制文件和对应进程,用户可以使用这些二进制文件在一个或多个计算机上部署 Nebula Graph 集群。
Meta服务meta服务负责数据管理,例如 Schema 操作、集群管理和用户权限管理等。
Graph 服务Graph 服务负责处理计算请求
Storage 服务Storage 服务负责存储数据
二、Nebula Graph的安装部署2.1、安装nebula graphStep1、在mac系统上安装docker参考:https://zhuanlan.zhihu.com/p/504604050mac os 版本:12.1docker版本:20.10.14, build a224086
% docker infoClient: Context: default Debug Mode: false Plugins: buildx: Docker Buildx (Docker Inc., v0.8.2) compose: Docker Compose (Docker Inc., v2.5.1) sbom: View the packaged-based Software Bill Of Materials (SBOM) for an image (Anchore Inc., 0.6.0) scan: Docker Scan (Docker Inc., v0.17.0)
Server: Containers: 0 Running: 0 Paused: 0 Stopped: 0 Images: 0 Server Version: 20.10.14 Storage Driver: overlay2 Backing Filesystem: extfs Supports d_type: true Native Overlay Diff: true userxattr: false Logging Driver: json-file Cgroup Driver: cgroupfs Cgroup Version: 2 Plugins: Volume: local Network: bridge host ipvlan macvlan null overlay Log: awslogs fluentd gcplogs gelf journald json-file local logentries splunk syslog Swarm: inactive Runtimes: io.containerd.runc.v2 io.containerd.runtime.v1.linux runc Default Runtime: runc Init Binary: docker-init containerd version: 3df54a852345ae127d1fa3092b95168e4a88e2f8 runc version: v1.0.3-0-gf46b6ba init version: de40ad0 Security Options: seccomp Profile: default cgroupns Kernel Version: 5.10.104-linuxkit Operating System: Docker Desktop OSType: linux Architecture: aarch64 CPUs: 5 Total Memory: 7.667GiB Name: docker-desktop ID: AM6Z:I27L:Z4GP:LQMH:YEIL:T5UD:CVDO:2SN2:6J74:ZIWB:6H4Z:RGS5 Docker Root Dir: /var/lib/docker Debug Mode: false HTTP Proxy: http.docker.internal:3128 HTTPS Proxy: http.docker.internal:3128 No Proxy: hubproxy.docker.internal Registry: https://index.docker.io/v1/ Labels: Experimental: false Insecure Registries: hubproxy.docker.internal:5000 127.0.0.0/8 Live Restore Enabled: false
Step2、配置Docker加速:
修改原配置为新的配置:
{ "builder": { "gc": { "defaultKeepStorage": "20GB", "enabled": true } }, "experimental": false, "features": { "buildkit": true }, "registry-mirrors": [ "https://hub-mirror.c.163.com/", "https://reg-mirror.qiniu.com", "https://docker.mirrors.ustc.edu.cn/", "https://wh9z3wm8.mirror.aliyuncs.com" ]}
Step3、Docker网络配置% docker network create nebula-net6d9219819496c2aea8d7c8d61fa0edab950965b70ceef7b98cf9156c3ee41c64peng.shi@H7HT0YWMTC ~ % docker network lsNETWORK ID NAME DRIVER SCOPE4451ad142c9a bridge bridge local5fed9c0933af host host local6d9219819496 nebula-net bridge local066f578ac097 none null local
Step4、安装nebula-graph1、Git 克隆 nebula-docker-compose 仓库peng.shi@H7HT0YWMTC ~ % git clone -b master https://github.com/vesoft-inc/nebula-docker-compose.gitCloning into 'nebula-docker-compose'...remote: Enumerating objects: 440, done.remote: Counting objects: (154/154), done.remote: Compressing objects: (42/42), done.remote: Total 440 (delta 138), reused 112 (delta 112), pack-reused 286Receiving objects: (440/440), 143.52 KiB | 296.00 KiB/s, done.Resolving deltas: (258/258), done.
2、修改 docker-compose.yamldocker-compose.yaml在刚下载的nebula-docker-compose目录中
在docker-compose.yaml中增加:
external: true1
Step4、docker-compose 部署 Nebula(此处需要开VPN,否则下载超时)docker-compose up -d1peng.shi@H7HT0YWMTC nebula-docker-compose % docker-compose up -dPulling metad0 (vesoft/nebula-metad:nightly)...nightly: Pulling from vesoft/nebula-metadnightly: Pulling from vesoft/nebula-metadnightly: Pulling from vesoft/nebula-metad6717b8ec66cd: Pull completefdd65c4c2d5c: Pull complete733069f6a7fa: Pull complete4f4fb700ef54: Pull complete7df18b9cd98f: Pull completeDigest: sha256:7485b2fd39b02694b7f9edb32d8f0d684afe403f9ff5c330a33e8f36d1255133Status: Downloaded newer image for vesoft/nebula-metad:nightlyPulling storaged0 (vesoft/nebula-storaged:nightly)...nightly: Pulling from vesoft/nebula-storagednightly: Pulling from vesoft/nebula-storagednightly: Pulling from vesoft/nebula-storaged6717b8ec66cd: Already existsf332d3f370bb: Pull completecf87f019d5b8: Pull complete4f4fb700ef54: Pull completeb5945490aa54: Pull completeDigest: sha256:c39eed30f41e6ed876b03e6df1d092c349823f20589f3a75c8bd553d7258d576Status: Downloaded newer image for vesoft/nebula-storaged:nightlyPulling graphd (vesoft/nebula-graphd:nightly)...nightly: Pulling from vesoft/nebula-graphd2d473b07cdd5: Downloading [=============> ] 19.95MB/76.1MB2d473b07cdd5: Downloading [=======> ] 11.02MB/76.1MB39a4c7f32b8c: Retrying in 1 second6fef0e3258c2: Download complete6de84f84c10e: Downloading [===============================> ] 12.85MB/20.61MBnightly: Pulling from vesoft/nebula-graphd6717b8ec66cd: Already existsfe7880d7abed: Pull complete0d816d217636: Pull complete4f4fb700ef54: Pull complete4e16df01237b: Pull completeDigest: sha256:e7a83d0aef7d7a9188fe6d5740011e0ea9ca6c3b4d69adeaad21653be61bb67fStatus: Downloaded newer image for vesoft/nebula-graphd:nightlyPulling console (vesoft/nebula-console:nightly)...nightly: Pulling from vesoft/nebula-console97518928ae5f: Pull complete201f3554b694: Pull completea7d9596279dc: Pull completeDigest: sha256:e14bed97d0fd13b0d46bc01ac67fed6759f6387a048e19bbe7974bda068d0203Status: Downloaded newer image for vesoft/nebula-console:nightlyCreating nebula-docker-compose_metad2_1 ... doneCreating nebula-docker-compose_metad0_1 ... doneCreating nebula-docker-compose_metad1_1 ... doneCreating nebula-docker-compose_storaged0_1 ... doneCreating nebula-docker-compose_storaged2_1 ... doneCreating nebula-docker-compose_storaged1_1 ... doneCreating nebula-docker-compose_graphd_1 ... doneCreating nebula-docker-compose_graphd2_1 ... doneCreating nebula-docker-compose_graphd1_1 ... doneCreating nebula-docker-compose_console_1 ... done
Step5、Nebula Studio安装1、下载 Nebula Studio 部署配置文件wget https://oss-cdn.nebula-graph.com.cn/nebula-graph-studio/3.2.2/nebula-graph-studio-v3.2.2.tar.gz1peng.shi@H7HT0YWMTC nebula-docker-compose % wget https://oss-cdn.nebula-graph.com.cn/nebula-graph-studio/3.2.2/nebula-graph-studio-v3.2.2.tar.gz--2022-05-24 12:14:50-- https://oss-cdn.nebula-graph.com.cn/nebula-graph-studio/3.2.2/nebula-graph-studio-v3.2.2.tar.gz正在解析主机 oss-cdn.nebula-graph.com.cn (oss-cdn.nebula-graph.com.cn)... 124.200.113.113, 124.200.113.110, 124.200.113.114, ...正在连接 oss-cdn.nebula-graph.com.cn (oss-cdn.nebula-graph.com.cn)|124.200.113.113|:443... 已连接。已发出 HTTP 请求,正在等待回应... 200 OK长度:5533480 (5.3M) [application/gzip]正在保存至: “nebula-graph-studio-v3.2.2.tar.gz”
nebula-graph-studio-v3.2.2.tar.g [=========================================================>] 5.28M 1.50MB/s 用时 4.1s
2022-05-24 12:14:55 (1.27 MB/s) - 已保存 “nebula-graph-studio-v3.2.2.tar.gz” [5533480/5533480])
2、创建 nebula-graph-studio-v3.2.2 目录,并将安装包解压至目录中mkdir nebula-graph-studio-v3.2.2 && tar -zxvf nebula-graph-studio-v3.2.2.tar.gz -C nebula-graph-studio-v3.2.213、修改 docker-compose.yaml将原有nebula-web改为nebula-net, 并添加external: true:
version: '3.4'services: web: image: vesoft/nebula-graph-studio:v3.2.2 environment: USER: root UPLOAD_DIR: ${MAPPING_DOCKER_DIR} ports: - 7001:7001 networks: - nebula-net
networks: nebula-net: external: true
4、构建并启动 Nebula Studio 服务(需要开VPN)在nebula-graph-studio-v3.2.2 目录下执行:
docker-compose up -d1peng.shi@H7HT0YWMTC nebula-graph-studio-v3.2.2 % docker-compose up -dWARNING: The MAPPING_DOCKER_DIR variable is not set. Defaulting to a blank string.Pulling web (vesoft/nebula-graph-studio:v3.2.2)...v3.2.2: Pulling from vesoft/nebula-graph-studio59bf1c3509f3: Downloadingbd8aa6907987: Download complete59bf1c3509f3: Pull completebd8aa6907987: Pull complete79b600fbf12a: Pull complete9e028fd00ce7: Pull completeDigest: sha256:ee8e9551a0f10c8e4fe03312131fb53f885dc4a7bf15157e0d500607fbaa1508Status: Downloaded newer image for vesoft/nebula-graph-studio:v3.2.2Creating nebula-graph-studio-v322_web_1 ... done
登录本地安装的nebula数据库:http://127.0.0.1:7001/
Host: graphd:9669用户名:root密码:nebula
可登录至主界面:
5、Nebula Console 安装 & 访问下载地址:https://github.com/vesoft-inc/nebula-console/releases
mac系统下载个
下载nebula-console-darwin-amd64-v3.0.0后,改名为nebula-console,此文件为二进制文件,在此文件所在路径执行下述命令:
chmod 777 nebula-console
./nebula-console -addr=127.0.0.1 -port 9669 -u root -p nebula123此时如果弹出macOS不信任此nebula-console,则点击问号,在设置->安全与隐私中设置信任后即可。
peng.shi@H7HT0YWMTC Downloads % chmod 777 nebula-consolepeng.shi@H7HT0YWMTC Downloads % ./nebula-console -addr=127.0.0.1 -port 9669 -u root -p nebulazsh: killed ./nebula-console -addr=127.0.0.1 -port 9669 -u root -p nebulapeng.shi@H7HT0YWMTC Downloads % ./nebula-console -addr=127.0.0.1 -port 9669 -u root -p nebulazsh: killed ./nebula-console -addr=127.0.0.1 -port 9669 -u root -p nebulapeng.shi@H7HT0YWMTC Downloads % ./nebula-console -addr=127.0.0.1 -port 9669 -u root -p nebula
Welcome to Nebula Graph!
(root@nebula) [(none)]>
2.2、安装完成后测试验证通过Nebula Studio 服务访问
接下来就可以使用nebula数据库了。
三、Nebula工具3.1、Nebula ImporterImporter工具,支持把本地的csv文件导入到Nebula gragh数据库中。
3.2、Nebula ExchangeNebula Exchange用于把spark中的多种不同格式的数据迁移到nebula graph中,支持批量数据和流式数据的迁移。
Exchange工具由Reader、Processor、Writer三部分组成:
1、Reader:读取不同来源的数据,返回DataFrame2、Processor:遍历DataFrame每行,根据配置文件中fields的映射关系,按列名获取对应的值。3、Writer:在遍历指定批处理的行数后,Writer将这些批处理的数据一次性写入到nebula graph中。
3.2.1、Exchange适用场景1)来自Kafka, Pulsar的流式数据2)从关系型数据库(如MySQL)或分布式文件系统(如HDFS)中获取的批式数据,如某个时间段的数据3)要将大批量生成Nebula Graph能识别的SST文件,再导入到Nebula Graph数据库4)需要导出Nebula Graph中保存的数据
总结:把spark中的数据导入到nebula(流式);把MySQL/HDFS中的数据导入到nebula(批量);把nebula的SST文件导入到nebula;把nebula的数据导出。
Exchange的优点:1)支持多种来源的数据导入到nebula2)支持不同来源的数据转为SST文件后导入3)支持SSL加密4)支持断点续传(目前仅Neo4j数据迁移时支持断点续传)5)异步操作:在数据源中生成一条插入语句,发给graph服务,后再执行插入操作6)支持同时导入多个tag和edge type,不同tag和edge type可以是不同数据来源或格式7)可使用spark中的累加器统计插入操作成功和失败的次数8)采用HOCON(Human-Optimized Config Object Notation)配置文件格式,具有面向对象风格
3.3.2、Nebula Exchange支持的数据源Exchange 3.0.0 支持通过 nGQL 语句的形式导入 Nebula:1、存储在 HDFS 或本地的数据:Apache ParquetApache ORCJSONCSV
2、HBase
3、数据仓库:HiveMaxCompute
4、图数据库:Neo4j
5、关系型数据库:MySQLPostgreSQL
6、列式数据库:ClickHouse
7、流处理软件平台:Kafka
8、发布/订阅消息平台:Pulsar
除了用 nGQL 语句的形式导入数据,Exchange 还支持将数据源的数据生成 SST 文件,然后通过 Console 导入 SST 文件。
以 Nebula Graph 为源,将数据导出到 CSV 文件 (仅企业版支持此功能)————————————————版权声明:本文为CSDN博主「Shi Peng」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/shijinghan1126/article/details/124929695