能够广泛使用机器学习的OPUS 1.5音频编解码器

2024年 3月 5日 93.7k 0


XIph.Org的Opus开源音频格式用于有损音频编码,它已经推出了Opus 1.5作为一个重大更新,现在更多地利用了机器学习。

根据今天发布的消息,OPUS 1.5带来了一次“严肃的机器学习升级”。这个1.5演示页面将机器学习的更大用途总结为:

这次的1.5版本不同于以前的任何版本。它带来了许多新的功能,可以改善质量和一般的音频体验。这是通过机器学习实现的。尽管Opus以前已经包括机器学习-甚至深度学习-(例如,用于语音/音乐检测),但这是它第一次使用深度学习技术来处理或生成信号本身。

与其从头开始设计一个新的基于ML的编解码器,我们更愿意以一种完全兼容的方式改进Opus。这是Opus中ML的一个重要设计目标。这不仅确保了Opus能够继续在较旧/较慢的设备上运行,而且还提供了一条简单的升级途径。部署新的编解码器可能是一个漫长而痛苦的过程。兼容性意味着OPUS的旧版本和新版本可以共存,同时仍然提供新版本的好处。

深度学习也经常与强大的GPU联系在一起,但在Opus中,我们已经对一切进行了优化,以便它可以轻松地在大多数CPU上运行,包括手机。我们一直小心翼翼地避免大型模型(不像LLM有数千亿个参数!)。最终,大多数用户不会注意到额外的费用,但使用较旧(5年以上)手机或微控制器的人可能会注意到。因此,在OPUS 1.5中,所有基于ML的新特性在默认情况下都是禁用的。它们既需要编译时开关(出于大小原因),也需要运行时开关(出于CPU原因)。“

但如前所述,新的机器学习功能在默认情况下是禁用的。

OPUS 1.5还带来了改进的AVX2优化、更多的ARM霓虹灯优化、更好的丢包稳健性、低比特率语音质量增强,以及对4阶和5阶双音转换的支持。

OPUS 1.5下载和更多信息,请访问Opus-Codec.org.

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论