发现一个AI辅助工具Memo AI,能够将音视频转录为文字,并且支持AI翻译、语音合成,以及AI总结、自动生成脑图。
一站式满足围绕音视频展开的各种需求,功能全面且界面简洁,可以本地离线使用,是多媒体学习的好帮手。
支持各种视频源
支持线上音视频和本地音视频,主流的包括国内B站和国外XY站都支持(注意只能转录人声,猫咪和狗狗的声音可能暂时无能为力)。
接入多种语音识别模型
Memo的语音识别(或者叫转写)使用的是OpenAI开源的Whisper模型,几乎把各种大小型号都接入进来了,为了方便选择,开发者很人性化地将模型分为极速/均衡/高质量三种,如果原视频是发音很清晰的英文视频,实测Tiny模型也很少出错(OpenAI赛高)。
语音识别转写完成后,自动进入主界面。
三大能力:翻译、总结、语音合成
翻译
Memo目前支持13种翻译引擎,分类介绍一下:
直接使用:无需配置,默认支持微软翻译和谷歌翻译;
手动配置API:包括OpenAI(GPT系列)、智谱AI在内的5种AI模型和Deepl、百度翻译在内的5种翻译引擎,需要在对应模型或翻译引擎的官网申请API,再配置到Memo内;
离线模型:支持通过Ollama在本地跑大模型,完全离线,需要配置运行环境,会麻烦一点。
后两种就适合动手能力比较强的小伙伴,其实直接使用微软翻译效果也还行,大家根据实际情况选择。
总结
总结功能其实借用的就是前面翻译中配置的其中两个大模型的API,目前支持OpenAI和国内的智谱AI,在翻译完之后,就可以使用总结功能了。
思维导图功能其实本质上就是分段总结,只不过展现形式更加直观,效率大大提高。
语音合成
语音合成(TTS)功能可以给翻译后的字幕生成配音,支持三个服务:
Edge:微软开源的TTS引擎,没有特殊要求选这个就挺好;
OpenAI:还是使用上面配置的API,Memo直接帮你调用OpenAI的TTS能力来进行语音合成;
Volcano:也就是抖音的火山引擎,跟剪映里的配音功能是一样的音色,不过需要单独配置API。
安装体验Memo客户端支持windows和MacOS,在这里下载:
https://memo.ac/download.html
写在最后
该工具还处在测试阶段,所以还有一些体验上的小问题,比如返回按钮不统一、开始导出后就无法停止等,但整体上不影响主流程。
开发者在产品上是很用心的,比如对于翻译这个核心功能点,开发者考虑到了AI翻译现在还存在不准确的问题,尤其是不同语言在断句上的差异导致实际意义的不同,针对字幕提供了合并语句、搜索替换、字幕剪辑等辅助功能,个人体验是真的不错,更多功能点可以自己实际体验下。
目前收费的功能不多,主要是GPU加速和批量操作等,所以绝大部分基本功能都是免费用的。
唯一的缺点可能是Memo不是一个网页端开箱可用的工具,接入的一些服务需要自己申请API,对小白用户可能不是特别友好。感兴趣的小伙伴可以在文章最后加群,互相帮助(所以也需要懂点技术的小伙伴加入进来)。
最后总结下整体功能:来源:小麦AIGC