Memo AI：一站式音视频翻译工具-每日运维

发现一个AI辅助工具Memo AI，能够将音视频转录为文字，并且支持AI翻译、语音合成，以及AI总结、自动生成脑图。

一站式满足围绕音视频展开的各种需求，功能全面且界面简洁，可以本地离线使用，是多媒体学习的好帮手。

支持各种视频源

支持线上音视频和本地音视频，主流的包括国内B站和国外XY站都支持（注意只能转录人声，猫咪和狗狗的声音可能暂时无能为力）。

Memo AI：一站式音视频翻译工具

接入多种语音识别模型

Memo的语音识别（或者叫转写）使用的是OpenAI开源的Whisper模型，几乎把各种大小型号都接入进来了，为了方便选择，开发者很人性化地将模型分为极速/均衡/高质量三种，如果原视频是发音很清晰的英文视频，实测Tiny模型也很少出错（OpenAI赛高）。

Memo AI：一站式音视频翻译工具

语音识别转写完成后，自动进入主界面。

三大能力：翻译、总结、语音合成

Memo AI：一站式音视频翻译工具

翻译

Memo目前支持13种翻译引擎，分类介绍一下：

直接使用：无需配置，默认支持微软翻译和谷歌翻译；

手动配置API：包括OpenAI（GPT系列）、智谱AI在内的5种AI模型和Deepl、百度翻译在内的5种翻译引擎，需要在对应模型或翻译引擎的官网申请API，再配置到Memo内；

离线模型：支持通过Ollama在本地跑大模型，完全离线，需要配置运行环境，会麻烦一点。

后两种就适合动手能力比较强的小伙伴，其实直接使用微软翻译效果也还行，大家根据实际情况选择。

总结

总结功能其实借用的就是前面翻译中配置的其中两个大模型的API，目前支持OpenAI和国内的智谱AI，在翻译完之后，就可以使用总结功能了。

思维导图功能其实本质上就是分段总结，只不过展现形式更加直观，效率大大提高。

语音合成

语音合成（TTS）功能可以给翻译后的字幕生成配音，支持三个服务：

Edge：微软开源的TTS引擎，没有特殊要求选这个就挺好；

OpenAI：还是使用上面配置的API，Memo直接帮你调用OpenAI的TTS能力来进行语音合成；

Volcano：也就是抖音的火山引擎，跟剪映里的配音功能是一样的音色，不过需要单独配置API。

Memo AI：一站式音视频翻译工具安装体验Memo客户端支持windows和MacOS，在这里下载：

https://memo.ac/download.html

写在最后

该工具还处在测试阶段，所以还有一些体验上的小问题，比如返回按钮不统一、开始导出后就无法停止等，但整体上不影响主流程。

开发者在产品上是很用心的，比如对于翻译这个核心功能点，开发者考虑到了AI翻译现在还存在不准确的问题，尤其是不同语言在断句上的差异导致实际意义的不同，针对字幕提供了合并语句、搜索替换、字幕剪辑等辅助功能，个人体验是真的不错，更多功能点可以自己实际体验下。

目前收费的功能不多，主要是GPU加速和批量操作等，所以绝大部分基本功能都是免费用的。

唯一的缺点可能是Memo不是一个网页端开箱可用的工具，接入的一些服务需要自己申请API，对小白用户可能不是特别友好。感兴趣的小伙伴可以在文章最后加群，互相帮助（所以也需要懂点技术的小伙伴加入进来）。

最后总结下整体功能： Memo AI：一站式音视频翻译工具来源：小麦AIGC

Memo AI：一站式音视频翻译工具

相关文章

发布评论取消回复

共饮一杯

Oracle回收DBA权限注意事项

MongoDB 入门教学贴从术语到操作（约束怎么建立内部培训贴）

RisingWave 1.10 发布！新增用户自定义聚合函数

Memo AI：一站式音视频翻译工具

相关文章

发布评论 取消回复

共饮一杯

Oracle回收DBA权限注意事项

MongoDB 入门教学贴 从术语到操作 （约束怎么建立 内部培训贴）

RisingWave 1.10 发布！新增用户自定义聚合函数

发布评论取消回复

MongoDB 入门教学贴从术语到操作（约束怎么建立内部培训贴）