愉快的使用rsync备份数据

告别 scp 命令,从我做起!

rsync 命令是一个远程数据同步工具,可通过 LAN/WAN 快速同步多台主机间的文件。rsync 使用 rsync算法 使本地和远程两个主机之间的文件达到同步,这个算法只传送两个文件的不同部分,而不是每次都整份传送,因此速度相当快。

愉快的使用rsync备份数据

1. 使用方式

rsync 的高级应用

编号 含义解释 参数列表
1 本机内同步文件或目录 rsync [OPTION] SRC DEST
2 将本机同步到远程主机 rsync [OPTION] SRC [[email protected]]host:DEST
3 将远程主机同步到本机 rsync [OPTION] [[email protected]]HOST:SRC DEST
4 从 rsync 服务器中同步 rsync [OPTION] [[email protected]]HOST::SRC DEST
5 往 rsync 服务器中同步 rsync [OPTION] SRC [[email protected]]HOST::DEST
6 列出远程机的文件列表 rsync [OPTION] rsync://[[email protected]]HOST[:PORT]/SRC [DEST]

2. 常用参数

rsync 命令的各种参数

  • [1] 文件同步属性参数
编号 参数列表 含义解释
1 -a 以递归方式并保持所有文件属性;等于 -rlptgoD
2 -r 对子目录以递归模式处理
3 -l 保留软链接
4 -L 像对待常规文件一样对应软链接文件
5 -p 保持文件权限
6 -t 保持文件时间信息
7 -g 保持文件属组信息
8 -o 保持文件属主信息
9 -D 保持设备文件信息
10 -u 仅仅进行更新操作;不覆盖新的文件;等同于 --update
11 -P 断点续传并显示备份过程;等同于 --partial --progress
12 -b 创建备份;存在新文件或者目录会进行重命名;可以使用 --suffix 指定前缀;--backup
  • [2] 同步模式相关参数
编号 参数列表 含义解释
1 -v/--verbose 详细模式输出
2 -q/--quiet 精简输出模式
3 -b 创建备份,对于目的已经存在有同样的文件名时重命名
4 --delete 删除那些 DST 中有而 SRC 没有的文件
5 --progress 显示备份过程
6 --dry-run 查看并显示哪些文件将被传输
7 --backup-dir 将备份文件存放在在目录下
8 --exclude=PATTERN 指定排除不需要传输的文件模式
9 --port=PORT 指定其他的 rsync 服务端口
10 --password-file=FILE 从 FILE 中得到密码,需要注意权限为 600
11 -e/--rsh=COMMAND 指定使用 rsh 或 ssh 方式进行数据同步
12 --existing 仅更新那些已经存在于 DST 的文件,而不备份那些新创建的文件
13 --files-from 指定需要同步的文件或者目录列表文件集合
14 --usermap=STRING 将属主为 apache 的文件映射为 nginx 属主
15 --groupmap=STRING 将属组为 apache 的文件映射为 nginx 属组
16 --bwlitmit=(kb/s) 限制传输文件的 I/O 带宽
17 --config=FILE 指定其他的配置文件;默认使用 rsyncd.conf 文件
18 --partial 断点续传;保留那些因故没有完成传输的文件用于加快随后的传输
  • [3] 实际使用示例和注意事项
# 常用方式
$ rsync -avz source_dir dest_dir([email protected]:PATH) --exclude "*.pyc*" --delete
    -v  详细输出
    -a  递归方式传输文件
    -z  压缩文件传输
    -h  输出友好
    --exclude  不包括pyc的文件
    --delete   删除在源端不存在的文件,不加不会默认删除

1. SSH方式是通过系统用户来进行备份
$ rsync -vzrtopg --progress -e 'ssh -p 2234' 
    --delete [email protected]:/www/data 
    /databack/experiment/rsync

1. SSH方式是通过系统用户来进行备份
$ rsync -vzrtopg --progress -e 'ssh -p 2234 -i $HOME/.ssh/id_rsa' 
    --delete [email protected]:/www/data 
    /databack/experiment/rsync
# 当然也是可以是用scp进行文件和目录同步的,走SSH协议传输
$ scp -r -P 55822 data.tar.gz [email protected]:/home/escape

1. 排除目录或文件,注意目录路径不需要带/符号,否则排除目录不生效
1. 第一个将排除data/logs及其子目录和文件,第二个只排除其子目录和文件
$ tar -zcvf data.tar.gz --exclude=data/logs data
$ tar -zcvf data.tar.gz --exclude=data/logs/nginx/* data

1. 排除以txt为后缀的所有文件,包括子目录
1. 注意要打包的data文件夹或文件必须在命令最后,否则不会生效
$ tar -zcvf data.tar.gz --exclude=*.txt data
# 使用ssh协议作为rsync来传输
$ rsync -avz --progress -e ssh --delete ~/ftp/pub/samba nimbus:"~ftp/pub/tridge"

1. 对应ssh服务不在22端口上的情况,需要使用-p参数来指定端口
$ rsync -avz --progress -e 'ssh -p 2234' app [email protected]:/home/escape 
    --exclude app/nginx/logs/

1. 当然可以添加更多参数
$ rsync -avz -e 'ssh -o "ProxyCommand nohup ssh firewall nc -w1 %h %p"'

1. 对传输进行带宽限制
$ rsync -avzh --progress --bwlimit=10000 --dry-run 
    -e 'ssh -o ProxyCommand="ssh -W %h:%p [email protected]"' 
    ./data [email protected]:/data

1. 改变映射属主属组
$ rsync -avz --progress -e ssh --usermap=apache:nginx --groupmap=apache:nginx 
    data.tar.gz --exclude=*.txt data
  • [4] 并发同步文件或目录(最佳实践)
# 最佳实践
--dry-run ==> rsync_files_list.txt ==> rsync

1. 即先使用--dry-run参数先跑一遍将需要需要同步的文件路径都记录到txt文本
$ rsync -avz --progress -e 'ssh -p 2222' --dry-run 
    /data/app/data/files/* 
    [email protected]:/data_backup/app/files 
    > /tmp/rsync_files_list.txt

1. 然后对输出到txt文本的内容进行筛选,删除无用的信息,在使用rsync命令并发同步文件
$ cat /tmp/rsync_files_list.txt | xargs -n1 -P4 -I{} 
    rsync -avhz --progress {} remote_server:/data
愉快的使用rsync备份数据

3. 注意事项

同步文件时候的坑点

  • [1] 同步方式