Django 中使用 utf8mb4 支持 emoji 表情
1. 什么是 utf8
理论上,utf8 使用 1-6 个字符,实际上,最新的 utf8 规范只使用一到四个字节,最大能编码21位,正好能够表示所有的 17个 Unicode 平面。
2. 什么是 utf8mb4
utf8mb4 是 utf8 的超集,理论上原来使用 utf8,然后将字符集修改为 utf8mb4,也不会对已有的utf8 编码读取产生任何问题。
3. MySQL 中的 utf8
MySQL 中的 utf8,只支持最长三个字节的 utf8 字符,也就是 Unicode 中的基本多文本平面。仅使用三个字符的原因可能是,基本多文种平面之外的字符很少用到。而在 MySQL 5.5.3 版本后,要在 Mysql 中保存 4 字节长度的 UTF-8 字符,就可以使用 utf8mb4 字符集了。例如可以用 utf8mb4 字符编码直接存储 emoj 表情,而不是存表情的替换字符。
4. Django 解决 \xF0\x9F\x90\xAF 错误
如果在 MySQL 的 utf8 字符集上写入表情字符,就会提示 Incorrect string value: ’\xF0\x9F\x90\xAF’ for column ...
错误。解决办法就是,修改表中相关列或表的编码格式,然后在 Django 中配置访问数据库编码方式。由于 utf8mb4 是 utf8 的超集,兼容 utf8 的数据,不需要修改原来的数据,就可以正常的使用了。
4.1 修改 MySQL 编码
查看表结构编码
|
|
回显
|
|
修改表结构字符,按需修改
|
|
4.2 Django 升级到 utf8mb4 配置
|
|
4.3 修改 MySQL 配置[可选]
C:\ProgramData\MySQL\MySQL Server 5.6\my.ini
|
|
5. 参考
- http://blog.manbolo.com/2014/03/31/using-emojis-in-django-model-fields
- https://docs.lvrui.io/2016/08/21/%E4%BF%AE%E6%94%B9MySQL%E7%9A%84%E5%AD%97%E7%AC%A6%E9%9B%86%E4%B8%BAutf8mb4/