最近客户在和一些国产数据库进行试点测试,发现一个比较有趣的现象,即有些表数据在迁移前后,实际在磁盘中的存储容量出现了2-3倍的增长,这点归根结底得数据库的研发来回答为什么会出现这一现象,但是我们今天也尝试从一些蛛丝马迹来推理一下。
1 数据类型
由于我们这里运维的Oracle数据库都开了扩展varchar2长度,即一个varchar2最大可存储字节不是4000,而是32k,这样使得很多原本超长需要使用lob数据类型的列可以继续使用varchar2,也使得很多写成varchar2(xx char)的地方不再有超长风险。那么在很多其他数据库,使用varchar数据类型(具体请查看各数据库官方文档)是满足不了我这里实际数据的存储需求的。那么在迁移过后就需要变换字段的数据类型,在本次案例中,就出现了不少varchar转换为text的操作。那么以MySQL为例对比一下varchar和text:
- varchar:一种可变长度的字符串数据类型,用于存储可变长度的字符数据。它的定义包括存储支持的最大长度,表示该列可以存储的最大字节长度。存储方式与其长度有关。当存储varchar值时,MySQL会根据实际的数据长度分配足够的存储空间。
- text:一种用于存储大量文本数据的数据类型。它可以存储非常长的字符串,最大长度取决于数据库的配置。总是占用足够的存储空间以容纳其最大长度。无论实际存储的文本数据有多长,都会占用足够的存储空间。
那么从两种数据类型的对比来看,就可以知道使用text存储字段占用的存储空间肯定是大于varchar的。那么我们可以把这个当做第一个可能的原因。
2 索引
这个问题我也在群里问过各位大佬,一位大佬说了一句,他在使用一款和Oracle兼容性非常高的数据库产品时候发现,这个数据库索引的存储空间占用是大于Oracle数据库中的索引。索引这个事情除了与上一节说的数据类型有关,还与本身索引结构的构建有关系。这里可以当做第二个可能的原因。
3 存储引擎
其实结合上一点,不同的数据库有不同的存储引擎,那么在数据块的构建上就可能千差万别,这个不仅仅体现在索引的存储上,也体现在数据本身的存储上。那么有些存储引擎或者说叫数据存储的树形结构从理论层面是可以节省存储空间的,而有些确实会占用更多空间。这里当作第三个可能的原因。
总结
这里并没有说具体数据库之间的存储差异,说真的也不大敢得罪任意一家数据库,我也希望大家在做国产数据库选型、测试的时候可以考虑的更全面一点。还可能有哪些原因也希望大家留言、私信补充。老规矩,不知道写了些啥。