大模型在无损压缩方面超越 PNG 和 FLAC

开发运维 2023-10-10 张二河手机阅读

Google DeepMind 和 Meta 的研究人员发表论文《Language Modeling Is Compression》，他们发现 DeepMind 的大语言模型 Chinchilla 70B 在图像和音频的无损压缩上超过了 PNG 和 FLAC。

论文提到，Chinchilla 70B 能将 ImageNet 图像数据库中的图像无损压缩到原始大小 43.4%，超过了 PNG 算法的 58.5%。

Chinchilla 能将 LibriSpeech 音频数据集中的样本无损压缩到原始大小 16.4%，超过 FLAC 算法的 30.3%。

据介绍，Chinchilla 70B 主要是训练用于处理文本，但它在压缩其它类型的数据集上的效果也表现优异，甚至优于专门的算法。

下面的例子比较了 gzip 和 Chinchilla 在示例文本上的生成效果。可以看到，gzip 的输出没有可读性。

开发运维 2024-03-23 张二河

开发运维 2024-02-29 张二河

开发运维 2023-08-30 张二河

开发运维 2024-05-06 张二河

java技术平台有哪些

开发运维 2023-12-25 张二河