为了开发能够理解一系列不同语言的 AI,Meta 建立 AI 模型 SeamlessM4T,它可以翻译和转录近 100 种语言的语音和文字,并称 SeamlessM4T 代表 AI 进行语音和文字互转的重大突破,使不同语言的人能够沟通。
SeamlessM4T 可以说是 Meta 绝不抛下任何语言(No Language Left Behind,NLLB)计划和通用语音翻译工具(Universal Speech Translator,UST)的意志继承者。
建立在大规模多语言语音(Massively Multilingual Speech,MMS)基础上,能够翻译并有语音转语音、语音转文字、文字转语音、文字转文字 4 种模式,支持近 100 种语言。
在开发过程中,Meta 从网路上抓取公开的文字,约数百亿个句子和约 400 万小时语音作为为训练数据,并称挖掘而来的资料不受版权保护,主要是开源或取得许可的内容。
Meta 使用抓取的语音和文字建立 SeamlessM4T 的训练数据,内部称为SeamlessAlign。研究人员将 44.3 万个小时的语音和文字配对,并建立2.9 万个小时语音转语音配对内容,如此一来教会 SeamlessM4T 如何在语音和文字之间相互翻译。
Meta 称以内部基准进行测试下,与目前最先进的语音转译模型相比,SeamlessM4T 在语音转文字的处理表现最好,归功于训练数据有着语音和文字资料的丰富组合,Meta 认为这使 SeamlessM4T 比纯语音和纯文字的翻译模型更具优势。
SeamlessM4T 看起来相当强大,但并非十全十美。Meta 透露该模型翻译中性字词时,容易过度概括成男性,且在涉及男性(如出现he 等名词)的英文翻译时表现较其他语言好,推测可能是因训练数据有过度的男性词汇导致这种结果。
Meta 并不是唯一一家投入资源开发 AI 翻译和转译工具的公司,如微软、OpenAI、Google、亚马逊以及许多新创公司也都参与此一领域,但 Meta 强调 SeamlessM4T 将翻译和转译功能整合至单一模型,展现其在 AI 领域的野心。
Meta 一直以开源方式向开发者和研究人员发布 AI 模型,除了上述的 SeamlessM4T,日前推出可用文字创造音乐的 AudioCraft 模型,更重要的还有提供大型语言模型Llama 2的开源使用。