存储与数据库 | 青训营

存储&数据库

案例导入

新用户注册,其注册数据的流动

  • 数据库的数据持久化
  • 第一步,校验数据的合法性,判断注册信息是否已经存在
  • 第二步,修改内存,用高效的数据结构组织传来的数据
  • 第三步,写入存储介质,以寿命&性能友好的方式将数据写入存储硬件
  • 潜在问题
    • 数据库怎么保证数据不丢失
    • 数据库如何处理多人同时修改数据的问题
    • 为什么使用数据库作为存储,除了数据库还能将数据存到其他存储系统中吗
    • 数据库只能处理结构化数据吗
    • 有哪些操作数据库的方式,要用什么编程语言
  • 存储系统

  • 存储系统——提供了读写、控制类接口,安全有效地把数据持久化存储到硬件介质的软件
  • 存储系统涉及到用户、存储介质、内存、网络等方面,需要综合考量
  • 系统特点
    • 作为后端软件的底座,性能敏感(很可能会被高并发、多次操纵)
    • 存储系统软件架构容易受硬件影响(存储系统软件需要与存储硬件介质接轨,因此底层硬件发生变化,软件架构通常需要随之变化)
    • 存储系统代码,既“简单”(主要是IO方面,因为需要保证大量高并发操作的性能,IO操作过于复杂,容易出问题),又“复杂”(需要考虑到各种异常情况,因此其涉及到的异常处理逻辑比较复杂)
  • 存储层级结构
  • 计算机内存等级金字塔追求性价比,稳定、容量较大、速度较快且价格不高——Persistent Memory

  • 数据从应用——>存储介质
  • image.png经验之谈

  • 缓存很重要,贯穿整个存储体系(不管是buffer还是cache,不管是在应用层传输数据还是向硬件介质层写入数据都需要用到缓存,因为涉及到不同层次接收的数据传输大小不同,需要缓存做缓冲)
  • 拷贝很昂贵,应该尽量减少(拷贝昂贵在于占用CPU等资源,如果主线进程上有较多拷贝,就会大大影响应用性能)
  • 硬件设备五花八门,他们的接口设计的写入容量等均不同,所以,应用还需要有抽象的接入层,以面对硬件设备变更问题
  • RAID技术(Redundant Array Inexpensive Disks)
  • 产生原因:为了追求单机存储系统的高性能/高性价比/高可靠性
  • 出现背景:
    • 单块大容量磁盘的价格 > 多块小容量磁盘的价格
    • 单块磁盘的写入性能 > 多块磁盘的并发写入性能
    • 单块磁盘的容错能力有限,不够安全
  • RAID 0
    • 多块磁盘简单组合
    • 数据条带化存储,提高磁盘带宽
    • 没有额外的容错设计
  • RAID 1
    • 一块磁盘对应一块额外镜像盘(每有一块做存储,就有一块连着做它的镜像)
    • 真实空间利用率仅50%
    • 容错能力强
  • RAID 0 + 1(结合了RAID 0和RAID 1)
    • 真实空间利用率仅50%
    • 容错能力强,写入带宽好
  • 数据库

  • 分类
  • 关系型数据库
  • 关系型数据库是存储系统,且扩展了其他能力
  • 关系 = 集合 = 任意元素组成的若干有序偶对(表,行头与对应单元格就是有序偶对)——反映了事物间的关系
  • 关系代数 = 对关系作运算的抽象查询语言
  • 特点
    • 结构化数据友好
    • 支持事务(ACID)
    • 支持复杂查询语言
  • 非关系型数据库
  • 非关系型数据库是存储系统,相较于关系型数据库一般不要求严格的结构化
  • 特点
    • 半结构化数据友好
    • 可能支持事务(ACID)
    • 可能支持复杂查询语言
  • 数据库使用方式——SQL语句
  • 定义结构
    • Create user
    • Create database
    • Create table
    • Alter table
    • 。。。
  • 操作数据
    • Insert
    • Update
    • Select
    • Delete
    • 。。。
  • 数据库VS经典存储
  • 数据库结构化数据管理更简单,用一张表,通过属性与值的匹配即可存储数据,而经典存储需要自定义管理结构,由于写入数据大小不一还需记录每个数据长度以便存取,及其麻烦
  • 数据库具有事务能力(ACID)
    • A(tomicity),事务内的操作要么全做,要么全不做(转账操作,A钱减少,B钱增加;否则都不变)
    • C(onsistency),事务执行前后,数据状态是一致的(两人之间进行转账,总额转账前后始终一致)
    • I(solation),多个并发事务隔离执行,互不影响(看设定的隔离级别)
    • D(urability),事务一旦提交,数据保证持久性(进入数据库中了)
  • 复杂查询能力
  • 数据库的查询只需一句SQL语句即可
  • 经典存储的查询需要大段的代码(数据取出、循环比较各字段的值,甚至涉及分组代码)很是复杂
  • 主流存储&新技术

    主流产品

    单机存储

  • 单机存储 = 单个计算机节点上的存储软件系统,一般不涉及网络交互
  • 单机存储主要有两种:本地文件系统和key-value存储
  • 本地文件系统
  • 文件系统的管理单元:文件
  • 文件系统接口:文件系统繁多,但都遵循VFS的统一抽象接口
  • Linux文件系统的两大数据结构:Index Node & Directory Entry
  • Index Node:记录文件元数据,如id、大小、权限、磁盘位置等
  • inode是一个文件的唯一标识,会被存储到磁盘上
  • inode的总数在格式化文件系统时就固定了
  • Directory Entry:记录文件名、inode指针、层级关系等
  • dentry是内存结构
  • dentry:inode = N:1
  • key-value存储
  • 常见使用方式:put(k,v)——存 & get(k)——取
  • 常见数据结构:LSM-Tree(某种程度上牺牲读性能,追求写入性能——追加顺序写入)
  • 大致结构
  • image.png

    分布式存储

  • 分布式存储 = 在单机存储基础上实现了分布式协议,涉及大量网络交互
  • 分布式存储主要有两种:分布式文件系统和分布式对象存储
  • 分布式文件系统(以HDFS为例介绍)
  • HDFS堪称大数据时代的基石
  • 时代背景:Google公司由于专用的高级硬件昂贵,同时数据存量很大,要求超高吞吐而设计出的一套存储系统
  • HDFS核心特点
    • 支持海量数据存储
    • 高容错性(低级硬件出错较多,软件系统需要高容错)
    • 弱POSIX语义
    • 使用普通x86服务器,性价比高
  • 分布式对象存储(以Ceph为例介绍)
  • Ceph:开源分布式存储系统里的“万金油”
  • image.png

  • Ceph核心特点
    • 系统支持对象接口、块接口、文件接口,一切皆对象
    • 数据写入采用主备复制模型
    • 数据分布模型采用CRUSH算法(Hash+权重+随机抽签)
  • 单机数据库

  • 单机数据库 = 单个计算机节点上的数据库系统
  • 事务在单机内执行,也可能通过网络交互实现分布式事务
  • 单机数据库分为:关系型数据库和非关系型数据库
  • 单机关系型数据库

  • 商业产品Oracle称王,开源产品MySQL & PostgreSQL称霸
  • 关系型数据库的通用组件
    • Query Engine —— 负责解析query,生成查询计划
    • Txn Manager —— 负责事务并发管理
    • Lock Manager —— 负责锁相关的策略
    • Storage Engine —— 负责组织内存/磁盘数据结构
    • Replication —— 负责主备同步
  • 关键内存数据结构:B-Tree、B+Tree、LRU List等
  • 关键磁盘数据结构:WriteAheadLog(RedoLog)、Page
  • 关系型数据库大致结构
  • image.png

    单机非关系型数据库

  • MongoDB、Redis、Elasticsearch三足鼎立
  • 交互方式:关系型数据库一般直接使用SQL交互,而不同的非关系型数据库交互方式各不相同
  • 数据结构:非关系型数据库的数据结构千奇百怪,没有关系约束,schema相对灵活
  • 趋势:不管是否为关系型数据库,大家都在尝试支持SQL(子集)和“事务”
  • MongoDB
    • 面向【文档】存储
    • 文档可序列化成JSON/BSON,支持嵌套
    • 存在【collection】,collection = 文档的集合
    • 存储和构建索引的能力依赖 wiredTiger 引擎
    • 4.0后开始支持事务(多文档、跨分片文档等类型的事务)
    • 常用client/SDK交互,可通过插件转译支持弱 SQL 交互
  • Redis
    • 数据结构丰富(hash表、set、zset、list)
    • C语言实现,具有超高性能
    • 主要基于内存,但支持AOF/RDB持久化
    • 常用redis-cil/多语言SDK交互
  • Elasticsearch
    • 面向【文档】存储
    • 文档可序列化成JSON,支持嵌套
    • 存在【index】,index = 文档的集合
    • 存储和构建索引的能力依赖 Lucene 引擎
    • 实现了大量搜索数据结构 & 算法
    • 支持 RESTFUL API,也支持弱 SQL 交互
    • 与RDBMS相比,天然能做【模糊搜索】,还能自动算出关联程度(RDBMS需要上层设计模糊匹配)
  • 分布式数据库

  • 问题引入
  • 单机数据库系统在使用过程中有以下几个主要问题

  • 容量(单点容量有限,受硬件影响,通常一个数据库系统接入挂载的磁盘是有限的)
  • 弹性(在实际业务场景下,数据有时会暴涨,资源受限,此时需要扩容,而有时数据量缩减,用不到那么多存储空间,则需要缩容,这样来回扩缩容非常麻烦且耗时较多)
  • 性价比(传统存储,磁盘容量与CPU等资源是按一定比例的,通常情况下,极有可能存在容量不够,但CPU使用率极低的情况,CPU浪费很严重,CPU资源比较昂贵)
  • 问题解决——存储节点池化,动态扩缩容
  • 容量问题
  • image.png

  • 弹性问题与性价比考虑
  • image.png

  • 分布式数据库的其他优点
    • 较于单机数据库系统,支持多写(多人写入操作)
    • 从磁盘弹性(问题解决中提到的)扩展到了内存弹性
    • 分布式事务优化
  • 新技术

    目前现状

  • 软件架构变更——Bypass OS kernel(目前做的比较好的变更,目前软件架构没有较大改革)
  • AI增强——智能存储格式转换(期待有所应用)
  • 新硬件革命
    • 存储介质变更
    • 计算单元变更
    • 网络硬件变更
  • SPDK

  • Bypass OS kernel 已经成为一种趋势,SPDK是其典型应用
  • S(Storage)P(Performance)D(Development)K(Kit)具有以下三种变化
  • Kernel Space —>User Space
    • 避免syscall带来的性能损失,直接从用户态访问磁盘
  • 中断—>轮询
    • 磁盘性能提高后,中断次数随之上升,不利于IO性能
    • SPDK poller 可以绑定特定的cpu核不断轮询,减少cs,提高性能
  • 无锁数据结构
    • 使用Lock-free queue,降低并发时的同步开销
  • AI & Storage

  • AI在很多领域都有不错的实践效果,但是在Storage方面并没有很大的应用
  • 期待可以应用的领域:智能存储格式转换
    • 传统的数据存储通常是列存或是行存,但是单一存储格式并不能最大化利用存储空间,
    • 而行列混存这个设想可以解决这个问题,但是Storage是动态变化的,所以需要AI动态决策行列混存策略
  • 高性能硬件

  • RDMA网络
  • 传统的网络协议栈,需要基于多层网络协议处理数据包,存在用户态&内核态的切换,足够通用但性能不是最佳
  • RDMA是kernel bypass的流派,不经过传统的网络协议栈,可以把用户态虚拟内存映射给网卡,减少拷贝开销,减少cpu开销
  • Persistent Memory
  • 在NVMe SSD 和Main Memory间有一种全新的存储产品:Persistent Memory
  • IO延时介于SSD和Memory之间,约百秒量级
  • 可以用作易失性内存,也可以用作持久化介质
  • 可编程交换机
  • PS Switch——配有编译器、计算单元、DRAM,可以在交换机层对网络包做计算逻辑。在数据库场景下,可以实现缓存一致性协议等
  • CPU/GPU/DPU
  • CPU:从multi-core走向many-core
  • GPU:强大的算力 & 越来越大的显存空间
  • DPU:异构计算,减轻CPU的workload