能够广泛使用机器学习的OPUS 1.5音频编解码器

运维资讯 2024-03-05 贤蛋大眼萌手机阅读

能够广泛使用机器学习的OPUS 1.5音频编解码器-每日运维
XIph.Org的Opus开源音频格式用于有损音频编码，它已经推出了Opus 1.5作为一个重大更新，现在更多地利用了机器学习。

根据今天发布的消息，OPUS 1.5带来了一次“严肃的机器学习升级”。这个1.5演示页面将机器学习的更大用途总结为：

这次的1.5版本不同于以前的任何版本。它带来了许多新的功能，可以改善质量和一般的音频体验。这是通过机器学习实现的。尽管Opus以前已经包括机器学习-甚至深度学习-(例如，用于语音/音乐检测)，但这是它第一次使用深度学习技术来处理或生成信号本身。

与其从头开始设计一个新的基于ML的编解码器，我们更愿意以一种完全兼容的方式改进Opus。这是Opus中ML的一个重要设计目标。这不仅确保了Opus能够继续在较旧/较慢的设备上运行，而且还提供了一条简单的升级途径。部署新的编解码器可能是一个漫长而痛苦的过程。兼容性意味着OPUS的旧版本和新版本可以共存，同时仍然提供新版本的好处。

深度学习也经常与强大的GPU联系在一起，但在Opus中，我们已经对一切进行了优化，以便它可以轻松地在大多数CPU上运行，包括手机。我们一直小心翼翼地避免大型模型(不像LLM有数千亿个参数！)。最终，大多数用户不会注意到额外的费用，但使用较旧(5年以上)手机或微控制器的人可能会注意到。因此，在OPUS 1.5中，所有基于ML的新特性在默认情况下都是禁用的。它们既需要编译时开关(出于大小原因)，也需要运行时开关(出于CPU原因)。“

但如前所述，新的机器学习功能在默认情况下是禁用的。