Mysql配置的工作原理
首先我们应该知道的是Mysql从哪里获取配置信息:命令行参数和配置文件。如果打算长期使用某些配置那么就应该写到全局配置文件,而不是在命令行指定。
语法、作用域和动态性
配置项设置都使用小写,单词之间用下划线或者横线隔开。例如:
/usr/sbin/mysqld --auto-increment-offset=5
配置项可以有多个作用域。有些设置是服务器级的(即全局作用域),有些对每个连接是不同的(即不同会话作用域),剩下的一些事对象级的。许多会话级变量相等,可以认为是默认值。如果改变会话级变量,他只影响改动的当前连接,当连接关闭时所有参数变量都会失效。我们可以看看下面的一些例子:
query_cache_size: 全局变量
sort_buffer_size: 默认是全局的,但是每个线程也可以单独设置
join_buffer_size: 默认是全局的,每个线程也可以单独设置,但是如果一个查询中关联多张表,可以为每个关联分配一个关联缓冲,所以每个查询可能有多个关联缓冲
除了在配置文件中设置变量,有很多变量也可以在服务器运行时修改,Mysql把这些归为动态配置变量。如果动态地设置变量要注意Mysql关闭时可能丢失这些设置。如果想保持这些设置就需要修改配置文件。
如果在服务器运行时修改了变量的全局值,这个值对当前会话和其他任何已经存在的会话都不起效果,这是因为会话的变量值是在连接创建时就从全局值初始化来的。
设置变量的副作用
动态设置变量可能导致一些副作用,例如从缓冲中刷新脏块。下面我们看看常用的一些变量修改后的效果:
入门
设置变量时并不是值越大越好,如果设置的值太高可能更容易由于内存不足导致服务器内存交换。
在开始修改配置前,应该先优化查询和schema。
创建Mysql配置文件
实际上Mysql大多数配置的默认值已经是最佳了,所以最好不要改动太多配置。
[client]
port = 3306
socket = /tmp/mysql.sock
[mysqld]
port = 3306
socket = /tmp/mysql.sock
basedir = /usr/local/mysql
datadir = /data/mysql
pid-file = /data/mysql/mysql.pid
user = mysql
bind-address = 0.0.0.0
server-id = 1 #表示是本机的序号为1,一般来讲就是master的意思
skip-name-resolve
# 禁止MySQL对外部连接进行DNS解析,使用这一选项可以消除MySQL进行DNS解析的时间。但需要注意,如果开启该选项,
# 则所有远程主机连接授权都要使用IP地址方式,否则MySQL将无法正常处理连接请求
#skip-networking
back_log = 600
# MySQL能有的连接数量。当主要MySQL线程在一个很短时间内得到非常多的连接请求,这就起作用,
# 然后主线程花些时间(尽管很短)检查连接并且启动一个新线程。back_log值指出在MySQL暂时停止回答新请求之前的短时间内多少个请求可以被存在堆栈中。
# 如果期望在一个短时间内有很多连接,你需要增加它。也就是说,如果MySQL的连接数据达到max_connections时,新来的请求将会被存在堆栈中,
# 以等待某一连接释放资源,该堆栈的数量即back_log,如果等待连接的数量超过back_log,将不被授予连接资源。
# 另外,这值(back_log)限于您的操作系统对到来的TCP/IP连接的侦听队列的大小。
# 你的操作系统在这个队列大小上有它自己的限制(可以检查你的OS文档找出这个变量的最大值),试图设定back_log高于你的操作系统的限制将是无效的。
max_connections = 1000
# MySQL的最大连接数,如果服务器的并发连接请求量比较大,建议调高此值,以增加并行连接数量,当然这建立在机器能支撑的情况下,因为如果连接数越多,介于MySQL会为每个连接提供连接缓冲区,就会开销越多的内存,所以要适当调整该值,不能盲目提高设值。可以过'conn%'通配符查看当前状态的连接数量,以定夺该值的大小。
max_connect_errors = 6000
# 对于同一主机,如果有超出该参数值个数的中断错误连接,则该主机将被禁止连接。如需对该主机进行解禁,执行:FLUSH HOST。
open_files_limit = 65535
# MySQL打开的文件描述符限制,默认最小1024;当open_files_limit没有被配置的时候,比较max_connections*5和ulimit -n的值,哪个大用哪个,
# 当open_file_limit被配置的时候,比较open_files_limit和max_connections*5的值,哪个大用哪个。
table_open_cache = 128
# MySQL每打开一个表,都会读入一些数据到table_open_cache缓存中,当MySQL在这个缓存中找不到相应信息时,才会去磁盘上读取。默认值64
# 假定系统有200个并发连接,则需将此参数设置为200*N(N为每个连接所需的文件描述符数目);
# 当把table_open_cache设置为很大时,如果系统处理不了那么多文件描述符,那么就会出现客户端失效,连接不上
max_allowed_packet = 4M
# 接受的数据包大小;增加该变量的值十分安全,这是因为仅当需要时才会分配额外内存。例如,仅当你发出长查询或MySQLd必须返回大的结果行时MySQLd才会分配更多内存。
# 该变量之所以取较小默认值是一种预防措施,以捕获客户端和服务器之间的错误信息包,并确保不会因偶然使用大的信息包而导致内存溢出。
binlog_cache_size = 1M
# 一个事务,在没有提交的时候,产生的日志,记录到Cache中;等到事务提交需要提交的时候,则把日志持久化到磁盘。默认binlog_cache_size大小32K
max_heap_table_size = 8M
# 定义了用户可以创建的内存表(memory table)的大小。这个值用来计算内存表的最大行数值。这个变量支持动态改变
tmp_table_size = 16M
# MySQL的heap(堆积)表缓冲大小。所有联合在一个DML指令内完成,并且大多数联合甚至可以不用临时表即可以完成。
# 大多数临时表是基于内存的(HEAP)表。具有大的记录长度的临时表 (所有列的长度的和)或包含BLOB列的表存储在硬盘上。
# 如果某个内部heap(堆积)表大小超过tmp_table_size,MySQL可以根据需要自动将内存中的heap表改为基于硬盘的MyISAM表。还可以通过设置tmp_table_size选项来增加临时表的大小。也就是说,如果调高该值,MySQL同时将增加heap表的大小,可达到提高联接查询速度的效果
read_buffer_size = 2M
# MySQL读入缓冲区大小。对表进行顺序扫描的请求将分配一个读入缓冲区,MySQL会为它分配一段内存缓冲区。read_buffer_size变量控制这一缓冲区的大小。
# 如果对表的顺序扫描请求非常频繁,并且你认为频繁扫描进行得太慢,可以通过增加该变量值以及内存缓冲区大小提高其性能
read_rnd_buffer_size = 8M
# MySQL的随机读缓冲区大小。当按任意顺序读取行时(例如,按照排序顺序),将分配一个随机读缓存区。进行排序查询时,
# MySQL会首先扫描一遍该缓冲,以避免磁盘搜索,提高查询速度,如果需要排序大量数据,可适当调高该值。但MySQL会为每个客户连接发放该缓冲空间,所以应尽量适当设置该值,以避免内存开销过大
sort_buffer_size = 8M
# MySQL执行排序使用的缓冲大小。如果想要增加ORDER BY的速度,首先看是否可以让MySQL使用索引而不是额外的排序阶段。
# 如果不能,可以尝试增加sort_buffer_size变量的大小
join_buffer_size = 8M
# 联合查询操作所能使用的缓冲区大小,和sort_buffer_size一样,该参数对应的分配内存也是每连接独享
thread_cache_size = 8
# 这个值(默认8)表示可以重新利用保存在缓存中线程的数量,当断开连接时如果缓存中还有空间,那么客户端的线程将被放到缓存中,
# 如果线程重新被请求,那么请求将从缓存中读取,如果缓存中是空的或者是新的请求,那么这个线程将被重新创建,如果有很多新的线程,
# 增加这个值可以改善系统性能.通过比较Connections和Threads_created状态的变量,可以看到这个变量的作用。(–>表示要调整的值)
# 根据物理内存设置规则如下:
# 1G —> 8
# 2G —> 16
# 3G —> 32
# 大于3G —> 64
query_cache_size = 8M
#MySQL的查询缓冲大小(从4.0.1开始,MySQL提供了查询缓冲机制)使用查询缓冲,MySQL将SELECT语句和查询结果存放在缓冲区中,
# 今后对于同样的SELECT语句(区分大小写),将直接从缓冲区中读取结果。根据MySQL用户手册,使用查询缓冲最多可以达到238%的效率。
# 通过检查状态值'Qcache_%',可以知道query_cache_size设置是否合理:如果Qcache_lowmem_prunes的值非常大,则表明经常出现缓冲不够的情况,
# 如果Qcache_hits的值也非常大,则表明查询缓冲使用非常频繁,此时需要增加缓冲大小;如果Qcache_hits的值不大,则表明你的查询重复率很低,
# 这种情况下使用查询缓冲反而会影响效率,那么可以考虑不用查询缓冲。此外,在SELECT语句中加入SQL_NO_CACHE可以明确表示不使用查询缓冲
query_cache_limit = 2M
#指定单个查询能够使用的缓冲区大小,默认1M
key_buffer_size = 4M
#指定用于索引的缓冲区大小,增加它可得到更好处理的索引(对所有读和多重写),到你能负担得起那样多。如果你使它太大,
# 系统将开始换页并且真的变慢了。对于内存在4GB左右的服务器该参数可设置为384M或512M。通过检查状态值Key_read_requests和Key_reads,
# 可以知道key_buffer_size设置是否合理。比例key_reads/key_read_requests应该尽可能的低,
# 至少是1:100,1:1000更好(上述状态值可以使用SHOW STATUS LIKE 'key_read%'获得)。注意:该参数值设置的过大反而会是服务器整体效率降低
ft_min_word_len = 4
# 分词词汇最小长度,默认4
transaction_isolation = REPEATABLE-READ
# MySQL支持4种事务隔离级别,他们分别是:
# READ-UNCOMMITTED, READ-COMMITTED, REPEATABLE-READ, SERIALIZABLE.
# 如没有指定,MySQL默认采用的是REPEATABLE-READ,ORACLE默认的是READ-COMMITTED
log_bin = mysql-bin
binlog_format = mixed
expire_logs_days = 30 #超过30天的binlog删除
log_error = /data/mysql/mysql-error.log #错误日志路径
slow_query_log = 1
long_query_time = 1 #慢查询时间 超过1秒则为慢查询
slow_query_log_file = /data/mysql/mysql-slow.log
performance_schema = 0
explicit_defaults_for_timestamp
#lower_case_table_names = 1 #不区分大小写
skip-external-locking #MySQL选项以避免外部锁定。该选项默认开启
default-storage-engine = InnoDB #默认存储引擎
innodb_file_per_table = 1
# InnoDB为独立表空间模式,每个数据库的每个表都会生成一个数据空间
# 独立表空间优点:
# 1.每个表都有自已独立的表空间。
# 2.每个表的数据和索引都会存在自已的表空间中。
# 3.可以实现单表在不同的数据库中移动。
# 4.空间可以回收(除drop table操作处,表空不能自已回收)
# 缺点:
# 单表增加过大,如超过100G
# 结论:
# 共享表空间在Insert操作上少有优势。其它都没独立表空间表现好。当启用独立表空间时,请合理调整:innodb_open_files
innodb_open_files = 500
# 限制Innodb能打开的表的数据,如果库里的表特别多的情况,请增加这个。这个值默认是300
innodb_buffer_pool_size = 64M
# InnoDB使用一个缓冲池来保存索引和原始数据, 不像MyISAM.
# 这里你设置越大,你在存取表里面数据时所需要的磁盘I/O越少.
# 在一个独立使用的数据库服务器上,你可以设置这个变量到服务器物理内存大小的80%
# 不要设置过大,否则,由于物理内存的竞争可能导致操作系统的换页颠簸.
# 注意在32位系统上你每个进程可能被限制在 2-3.5G 用户层面内存限制,
# 所以不要设置的太高.
innodb_write_io_threads = 4
innodb_read_io_threads = 4
# innodb使用后台线程处理数据页上的读写 I/O(输入输出)请求,根据你的 CPU 核数来更改,默认是4
# 注:这两个参数不支持动态改变,需要把该参数加入到my.cnf里,修改完后重启MySQL服务,允许值的范围从 1-64
innodb_thread_concurrency = 0
# 默认设置为 0,表示不限制并发数,这里推荐设置为0,更好去发挥CPU多核处理能力,提高并发量
innodb_purge_threads = 1
# InnoDB中的清除操作是一类定期回收无用数据的操作。在之前的几个版本中,清除操作是主线程的一部分,这意味着运行时它可能会堵塞其它的数据库操作。
# 从MySQL5.5.X版本开始,该操作运行于独立的线程中,并支持更多的并发数。用户可通过设置innodb_purge_threads配置参数来选择清除操作是否使用单
# 独线程,默认情况下参数设置为0(不使用单独线程),设置为 1 时表示使用单独的清除线程。建议为1
innodb_flush_log_at_trx_commit = 2
# 0:如果innodb_flush_log_at_trx_commit的值为0,log buffer每秒就会被刷写日志文件到磁盘,提交事务的时候不做任何操作(执行是由mysql的master thread线程来执行的。
# 主线程中每秒会将重做日志缓冲写入磁盘的重做日志文件(REDO LOG)中。不论事务是否已经提交)默认的日志文件是ib_logfile0,ib_logfile1
# 1:当设为默认值1的时候,每次提交事务的时候,都会将log buffer刷写到日志。
# 2:如果设为2,每次提交事务都会写日志,但并不会执行刷的操作。每秒定时会刷到日志文件。要注意的是,并不能保证100%每秒一定都会刷到磁盘,这要取决于进程的调度。
# 每次事务提交的时候将数据写入事务日志,而这里的写入仅是调用了文件系统的写入操作,而文件系统是有 缓存的,所以这个写入并不能保证数据已经写入到物理磁盘
# 默认值1是为了保证完整的ACID。当然,你可以将这个配置项设为1以外的值来换取更高的性能,但是在系统崩溃的时候,你将会丢失1秒的数据。
# 设为0的话,mysqld进程崩溃的时候,就会丢失最后1秒的事务。设为2,只有在操作系统崩溃或者断电的时候才会丢失最后1秒的数据。InnoDB在做恢复的时候会忽略这个值。
# 总结
# 设为1当然是最安全的,但性能页是最差的(相对其他两个参数而言,但不是不能接受)。如果对数据一致性和完整性要求不高,完全可以设为2,如果只最求性能,例如高并发写的日志服务器,设为0来获得更高性能
innodb_log_buffer_size = 2M
# 此参数确定些日志文件所用的内存大小,以M为单位。缓冲区更大能提高性能,但意外的故障将会丢失数据。MySQL开发人员建议设置为1-8M之间
innodb_log_file_size = 32M
# 此参数确定数据日志文件的大小,更大的设置可以提高性能,但也会增加恢复故障数据库所需的时间
innodb_log_files_in_group = 3
# 为提高性能,MySQL可以以循环方式将日志文件写到多个文件。推荐设置为3
innodb_max_dirty_pages_pct = 90
# innodb主线程刷新缓存池中的数据,使脏数据比例小于90%
innodb_lock_wait_timeout = 120
# InnoDB事务在被回滚之前可以等待一个锁定的超时秒数。InnoDB在它自己的锁定表中自动检测事务死锁并且回滚事务。InnoDB用LOCK TABLES语句注意到锁定设置。默认值是50秒
bulk_insert_buffer_size = 8M
# 批量插入缓存大小, 这个参数是针对MyISAM存储引擎来说的。适用于在一次性插入100-1000+条记录时, 提高效率。默认值是8M。可以针对数据量的大小,翻倍增加。
myisam_sort_buffer_size = 8M
# MyISAM设置恢复表之时使用的缓冲区的尺寸,当在REPAIR TABLE或用CREATE INDEX创建索引或ALTER TABLE过程中排序 MyISAM索引分配的缓冲区
myisam_max_sort_file_size = 10G
# 如果临时文件会变得超过索引,不要使用快速排序索引方法来创建一个索引。注释:这个参数以字节的形式给出
myisam_repair_threads = 1
# 如果该值大于1,在Repair by sorting过程中并行创建MyISAM表索引(每个索引在自己的线程内)
interactive_timeout = 28800
# 服务器关闭交互式连接前等待活动的秒数。交互式客户端定义为在mysql_real_connect()中使用CLIENT_INTERACTIVE选项的客户端。默认值:28800秒(8小时)
wait_timeout = 28800
# 服务器关闭非交互连接之前等待活动的秒数。在线程启动时,根据全局wait_timeout值或全局interactive_timeout值初始化会话wait_timeout值,
# 取决于客户端类型(由mysql_real_connect()的连接选项CLIENT_INTERACTIVE定义)。参数默认值:28800秒(8小时)
# MySQL服务器所支持的最大连接数是有上限的,因为每个连接的建立都会消耗内存,因此我们希望客户端在连接到MySQL Server处理完相应的操作后,
# 应该断开连接并释放占用的内存。如果你的MySQL Server有大量的闲置连接,他们不仅会白白消耗内存,而且如果连接一直在累加而不断开,
# 最终肯定会达到MySQL Server的连接上限数,这会报'too many connections'的错误。对于wait_timeout的值设定,应该根据系统的运行情况来判断。
# 在系统运行一段时间后,可以通过show processlist命令查看当前系统的连接状态,如果发现有大量的sleep状态的连接进程,则说明该参数设置的过大,
# 可以进行适当的调整小些。要同时设置interactive_timeout和wait_timeout才会生效。
[mysqldump]
quick
max_allowed_packet = 16M #服务器发送和接受的最大包长度
[myisamchk]
key_buffer_size = 8M
sort_buffer_size = 8M
read_buffer = 4M
write_buffer = 4M
检查Mysql服务器状态变量
有时我们可以通过 SHOW GLOBAL STATUS 的输出,作为配置的输入。
配置内存使用
我们可以按照下面的步骤来配置内存:
1. 确定可以使用的内存上限
2. 确定每个连接Mysql需要使用多少内存,例如排序缓冲和临时表
3. 确定操作系统需要多少内存才够
4. 把剩下的内存全部给Mysql的缓存
Mysql可以使用多少内存
在任何给定的操作系统上,Mysql都有允许使用的内存上限。基本出发点是机器上安装了多少物理内存。
还需要考虑操作系统或架构的限制,例如32位操作系统对一个给定的进行可以处理多少内存是有限制的。
每个连接需要的内存
Mysql保持一个连接只需要少了的内存。他还要求一个基本量的内存来执行查询操作。并且需要为高峰期的大量查询预留足够的内存,否则查询执行可能因为缺乏内存而失败。
为操作系统保留内存
跟查询一样,操作系统也需要保留足够的内存。如果没有虚拟内存正在交换到磁盘,就表明操作系统内存足够。
为缓存分配内存
如果服务器只运行Mysql,所有不需要为操作系统以及查询处理保留的内存都可以作为Mysql的缓存。
下面是我们认为大部分情况最重要的缓存:
1. InnoDB 缓冲池
2. InnoDB日志文件和MyISAM数据的操作系统缓存
3. MyISAM 键缓存
4. 查询缓存
5. 无法手工配置的缓存,例如二进制日志和表定义文件的操作系统缓存
InnoDB缓冲池
如果大部分都是InnoDB 表,InnoDB 缓冲池或许比其他任何东西都更需要内存。InnoDB 不仅仅缓存索引,还会缓存行的数据、自适应哈希索引、插入缓冲、锁,以及其他内部数据结构。InnoDB 还使用缓冲池来帮助延迟写入,这样就能合并多个写入操作,然后一起顺序地写回。
很大的缓冲池也会带来很大的挑战,例如预热和关闭都会花费很长的时间。如果有很多脏页在缓冲池里,InnoDB 在关闭时可能会花费较长的时间,因为在关闭之前需要把脏页写回磁盘。也可以强制关闭,但是重启的时候就必须多做更多的恢复工作。
MyISAM键缓存
MyISAM 键缓存也称为键缓冲,默认只有一个键缓存,也可以创建多个。MyISAM自身只缓存索引,不缓存数据,数据依赖操作系统缓存。
线程缓存
线程缓存保存那些当前没有与连接关联但是准备为新的连接服务的线程。当一个新的连接创建时,如果缓存中有线程存在,Mysql从缓存中删除该线程并且分配给新的连接。当连接关闭时,如果缓存还有空间的话就会把该线程放回缓存,如果没有空间的话,Mysql就会销毁这个线程。只要 Mysql 缓存中还有空闲的线程,就可以快速响应连接请求,这样就不用为没有新建连接创建新的线程。
表缓存
表缓存和线程缓冲的概念相似,但是存储的是表,每个在缓存中的对象包含相关表的 .frm 文件的解析结果。
InnoDB数据字典
InnoDB 有自己的表缓存,可以称为表定义缓存或者数据字典。当 InnoDB 打开一张表,就增加一个对应的对象到数据字典,每张表可能占用4KB或者更多内存。
配置Mysql的IO行为
InnoDB的IO配置
InnoDB 不仅允许控制怎么恢复,还允许控制怎么打开和刷新数据文件,这会对恢复和整体性能产生巨大的影响。InnoDB 的恢复流程实际上是自动的,并且经常在启动时运行。
InnoDB 事务日志
InnoDB 使用日志来减少提交事务时的开销。因为日志中已经记录了事务,就无须在每个事务提交时把缓冲池的脏块刷新到磁盘中。事务修改的数据和索引通常会映射到表空间的随机位置,所以刷新这些变更到磁盘需要很多随机IO。
InnoDB 用日志把随机IO变成顺序IO。一旦日志安全写到磁盘,事务就持久化了,即使变更还没写到数据文件。如果Mysql崩溃或者断电了,InnoDB 可以重放日志并且恢复已经提交的事务。
InnoDB 最后还是必须把变更写到数据文件,因为日志有固定的大小。InnoDB 的日志是环形方式写的,当写到日志的尾部,会重新跳转到开头继续写,但不会覆盖还没应用到数据文件的日志,因为这样会清掉已提交事务的唯一持久化记录。实际上事务日志把数据文件的随机IO变成了几乎顺序的日志文件和数据文件IO。把刷新操作转移到后台是查询可以更快完成,并且缓和查询高峰时的IO压力。
整体的日志文件大小根据 innodb_log_file_size 和 innodb_log_files_in_group 两个参数控制。
当 InnoDB 变更任何数据的时候,会写一条变更记录到内存日志缓冲区。在缓冲区慢的时候、事务提交的时候或者每一秒钟,InnoDB 都会刷新缓冲区的内容到磁盘日志文件。如果有大事务,增加日志缓冲区大小可以帮助减少IO。innodb_log_buffer_size 可以控制日志缓冲区的大小。通常不需要把日志缓冲区设置的非常大,推荐的范围是1MB-8MB,除非要写很多相当大的BLOB的记录。
InnoDB 怎么刷新日志缓冲。当 InnoDB 把日志缓冲刷新到磁盘日志文件时,先会使用一个 Mutex 锁住缓冲区,刷新到所需要的位置,然后移动剩下的条目到缓冲区前面。当 Mutex 释放时,可能有超过一个事务已经准备好刷新其日志记录。
日志缓冲必须被刷新到磁盘以确保提交的事务完全被持久化。如果和持久化相比更注重性能,那么我们可以设置变量 innodb_flush_log_at_trx_commit 控制日志缓冲刷新的频率:
0:把日志缓冲写到日志文件,并且每秒刷新一次,但是事务提交时不坐任何事
1:将日志缓冲到日志文件,并且每次事务提交都刷新到磁盘,这是默认设置。
2:每次提交时把日志缓冲写到日志文件,但是并不刷新。InnoDB 每秒刷新一次。
InnoDB怎么打开和刷新日志以及数据文件
使用 innodb_flush_method 选项可以配置 InnoDB 如何跟文件系统相互作用。并且影响了 InnoDB 怎么读数据。
这是个难以理解的选项,因为他既影响了日志文件也影响了数据文件。下面的配置的一些选项值:
fdatasync:这是非Windows 系统上的默认值,InnoDB 用 fsync() 来刷新数据和日志文件。 InnoDB 通常用 fsync() 代替 fdatasync(),fdatasync() 跟 fsync() 相似,但是只刷新文件的数据而不包括元数据。因此 fsync() 会导致更多的IO。
async_unbuffered:这是Windows下的默认值,这个选项让InnoDB 对大部分写使用没有缓存的IO。
unbuffered:只对 Windows 有效。这个选项与 async_unbuffered 类似,但是不使用异步IO。
normal:只对 Windows 有效。这个选项让 InnoDB 不使用异步IO或者无缓存IO。
InnoDB 表空间
InnoDB 把数据保存在表空间内,本质上是一个由一个或多个磁盘文件组成的虚拟文件系统。InnoDB 用表空间实现很多功能,并不只是存储表和索引。还保存了回滚日志、插入缓冲、双写缓冲。
双写缓冲
InnoDB 用双写缓冲来避免页没写完整所导致的数据损坏。当一个磁盘写操作不能完整地完成时,不完整的页写入就可能发生,16KB的页可能只有一部分被写到磁盘上。双写缓冲在这种情况发生时可以保证数据完整性。
双写缓冲是表空间一个特殊的保留区域,在一些连续的块中足够保存100个页。本质上是一个最近写回的页面的备份拷贝。当 InnoDB 从缓冲池刷新页到磁盘时,首先把他们写入双写缓冲区,然后再把他们写到其所属的数据区域中。这样可以保证每个页面的写入都是原子并且持久化的。
双写缓冲意味每个页都要写两遍。但是因为 InnoDB 写页面到双写缓冲区是顺序的1,并且只调用一次 fsync() 刷新到磁盘,所以实际上对性能影响比较小。
如果有一个不完整的页写到双写缓冲区,原始的页依然会在磁盘上的真实位置。当 InnoDB 恢复时,将用原始页面替换到双写缓冲区中不完整的页。如果双写缓冲成功写入,但是写到页的真实位置失败了,InnoDB 在恢复时将使用双写缓冲区的拷贝来替换。那么 InnoDB 是怎么知道页损坏了呢?因为每个页末尾都有校验值。校验值是最后写到页的东西,所以如果页的内容跟校验值不匹配,说明这个页是损坏的。因此在恢复的时候 InnoDB 只需要读取双写缓冲中每个页并且验证校验值。如果页的校验值不对,就从他的原始位置读取。
MyISAM的IO配置
MyISAM 通常每次写操作之后就把索引变更刷新到磁盘。
通过设置 delay_key_write 变量可以延迟索引的写入。修改的键缓冲块直到表被关闭才会刷新。有以下几个配置:
OFF:MyISAM 每次写操作后刷新键缓冲中的脏块到磁盘,除非表被LOCK TABLES 锁定了。
ON:打开延迟键写入,但是只对用 DELAY_KEY_WRITE 选项创建的表有效。
ALL:所有的 MyISAM 表都会被使用延迟键写入。
延迟键写入在某些场景下很有帮助,但是不会带来很大的性能提升。当键缓冲的读命中很好但写命中不好时,数据有比较小时可能比较有用。当然也会有一些缺点:
1. 如果服务器缓存并且块没有被刷到磁盘,索引可能会损坏。
2. 如果很多写被延迟了,Mysql可能需要花费更长时间去关闭表,因为必须等待缓冲刷新到磁盘。
3. FLUSH TABLES 可能需要很长时间。
4. 键缓冲中没有刷回去的脏块可能占用空间。
配置Mysql并发
InnoDB的并发配置
在高并发场景下,InnoDB 的某些方面的性能可能会降低,唯一的方法就是限制并发。如果 InnoDB 在并发方面有问题,解决方案通常是升级服务器。
MyISAM的并发配置
在某些条件下,MyISAM 也允许并发插入和读取,这使得可以调度某些操作以尽可能少地产生阻塞。
尽管 MyISAM 是表级锁,他依然可以一边读一遍并发追加新数据。但是这种情况下只能读取到查询开始时的数据,新插入的数据是不可见的。这样可以避免数据不一致。
如果表中间的某些数据变更了,可以通过MVCC解决这个一致读的问题。
通过设置 concurrent_insert 这个变量,可以配置 MyISAM 打开并发插入:
0:不允许并发插入。
1:默认值,只要表中没有空洞,就允许并发插入。
2:强制并发插入到表末尾。
优化BLOB和TEXT的场景
BLOB和TEXT都称之为BLOB类型,因为他们属于相同类型的数据。BLOB值有几个限制使得服务器对他的处理跟其他类型不一样。一个最重要的注意事项是,服务器不能再内存临时表中存储BLOB值,因此如果一个查询涉及BLOB值,又需要使用临时表,不管他多小都会在磁盘上创建临时表。这样效率很低,尤其是对小二快的查询。临时表可能是查询中最大的开销。
有两种方法可以减轻这种情况:通过substring() 函数把值转换为 varchar 或者让临时表更快。
如果BLOB 列非常大,并且用的是 InnoDB 可以调大 InnoDB 日志缓冲大小。
优化排序
Mysql 有两种排序算法。如果查询中所有的列和 ORDER BY的列总大小超过 max_length_for_sort_data 设置的字节,则采用 two-pass 算法。或者当任何需要的列是 BLOB或者 TEXT 也会采用这个算法。
Mysql 有两个变量可以控制排序怎么执行。通过修改 max_length_for_sort_data 变量的值,可以影响Mysql 选择哪种算法。因为 single-pass 算法为每行需要排序的数据创建一个固定大小的缓冲,对于 varchar 列,再和 max_length_for_sort_data 比较时,使用的是其定义的最大长度。而不是所存储数据的实际长度。
当Mysql必须排序 BLOB 或 TEXT 列时,只会使用前缀,然后忽略剩下部分的值。这是因为缓冲只能分配固定大小的结构体来保存要排序的值。