能够广泛使用机器学习的OPUS 1.5音频编解码器

2024年 3月 5日 44.8k 0


XIph.Org的Opus开源音频格式用于有损音频编码,它已经推出了Opus 1.5作为一个重大更新,现在更多地利用了机器学习。

根据今天发布的消息,OPUS 1.5带来了一次“严肃的机器学习升级”。这个1.5演示页面将机器学习的更大用途总结为:

这次的1.5版本不同于以前的任何版本。它带来了许多新的功能,可以改善质量和一般的音频体验。这是通过机器学习实现的。尽管Opus以前已经包括机器学习-甚至深度学习-(例如,用于语音/音乐检测),但这是它第一次使用深度学习技术来处理或生成信号本身。

与其从头开始设计一个新的基于ML的编解码器,我们更愿意以一种完全兼容的方式改进Opus。这是Opus中ML的一个重要设计目标。这不仅确保了Opus能够继续在较旧/较慢的设备上运行,而且还提供了一条简单的升级途径。部署新的编解码器可能是一个漫长而痛苦的过程。兼容性意味着OPUS的旧版本和新版本可以共存,同时仍然提供新版本的好处。

深度学习也经常与强大的GPU联系在一起,但在Opus中,我们已经对一切进行了优化,以便它可以轻松地在大多数CPU上运行,包括手机。我们一直小心翼翼地避免大型模型(不像LLM有数千亿个参数!)。最终,大多数用户不会注意到额外的费用,但使用较旧(5年以上)手机或微控制器的人可能会注意到。因此,在OPUS 1.5中,所有基于ML的新特性在默认情况下都是禁用的。它们既需要编译时开关(出于大小原因),也需要运行时开关(出于CPU原因)。“

但如前所述,新的机器学习功能在默认情况下是禁用的。

OPUS 1.5还带来了改进的AVX2优化、更多的ARM霓虹灯优化、更好的丢包稳健性、低比特率语音质量增强,以及对4阶和5阶双音转换的支持。

OPUS 1.5下载和更多信息,请访问Opus-Codec.org.

相关文章

Java 之父 James Gosling 宣布退休
快手文生图大模型可图宣布开源
李彦宏:开源模型是智商税
VLMs多模态大模型当下进展与思考
开源日报 | 李彦宏称开源模型是智商税;Windows下的GUI开发;有趣的人形机器人;边学AI边赚钱
Meta 开源新的“多标记预测”语言模型

发布评论