Meta 正在努力弥合地球上多语言世界中存在的语言之间的沟通鸿沟。
近日,他们推出了SeamlessM4T,这是一种基础的多语言与多任务模型,可以进行跨语音和文本进行语言之间的翻译。
Meta 在博客中这样写道:
“我们生活的世界从未如此紧密地联系在一起——包括互联网、移动设备、社交媒体和通信平台在全球范围内的激增,使人们能够获得比以往更多的多语言内容。在这样的背景下,拥有以任何语言交流和按需理解信息能力变得越来越重要。这种能力长期以来一直是科幻小说中描述的梦想,但人工智能等技术即将将这一愿景变为现实。”
SeamlessM4T 目前已支持近 100 种语言的自动语音识别、语音到文本翻译和文本到文本的翻译,它还可以对近 100 种语言输入和 35 种语言输出,进行语音到语音和文本到语音的翻译。
SeamlessM4T 该项目已在 CC BY-NC 4.0 许可证下开源发布,以便研发人员可以在此基础上进行开发。
在发布 SeamlessM4T 的同时,Meta 还发布了 SeamlessAlign,这是一个多模式翻译数据集,包含 270,000 小时的语音和文本对齐。
Meta 表示,现有的语音转语音和语音转文字程序仅覆盖世界上一小部分语言,而目前该项目代表了所覆盖语言数量的突破。
它建立在 Meta 在该领域的现有工作基础上,包括No Language Left Behind、Universal Speech Translator、SpeechMatrix和Massively Multilingual Speech。
Meta 还说明了如何负责任地构建模型所采取的步骤。
扎克伯格与Meta公司遵循“负责任的人工智能”的五大支柱,并进行『有毒性』和『偏见』研究,以便自身与外部在该模式中观察到可能敏感的领域,并已经开始对该模型进行性别偏见的评估。
Meta 这样承诺道:
“我们围绕安全和安保的工作是一项持续的努力。我们将继续在这一领域进行研究并采取行动,以不断改进 SeamlessM4T, 并减少我们在模型中看到的任何有毒性的实例。”