音频技术团队空降直播间,揭秘小红书语音技术创新探索与落地实践

2023年 10月 13日 40.0k 0

70 余年前,贝尔实验室研制了世界上第一个可识别十个英文数字的语音识别系统,如今伴随着深度学习技术的突破和普及,智能语音技术取得了飞跃式发展。人工智能和语音交互技术的结合,使得语言交流更加智能化和自然化。

为满足小红书用户在音频场景的表达及消费需求,小红书音频技术团队不断推进语音技术的创新探索与落地实践。

例如,「智能旁白」提供平台独有的“博主特色音”,创作者可根据个人喜好选择音色,彰显独特风格。「智能剪辑」一键生成卡点音乐,降低 UGC 创作门槛。AI 演唱技术结合视频配乐打造「你填我唱」提升音乐爱好者的表达欲。基于语音识别的「视频字幕」功能提高了用户进行内容创作的效率。文本内容理解技术助力「此刻」功能,打破了依赖“相册”发布路径的内容创作,让用户实现随想随发。

想了解它们是如何实现的吗?下周二 , 【REDtech 来了】第八期《小红书语音技术创新探索与落地实践》 即将开播,揭晓答案!

10 月 17 日 19:00 - 20:40,小红书创作发布组音频技术团队空降直播间,团队负责人解奉龙携手三位资深工程师许开拓、靳源、谢坤接力开讲,分别带来《音频技术在小红书场景的应用》、《基于 Transducer 的端到端语音识别实践》、《 AI 音乐创作平台在小红书的应用》、《语音合成在小红书的探索和应用》的主题分享。预约并观看直播,还可参与五轮抽奖互动,小米手环、护腰垫、薯队长公仔等精美礼品等你来拿!

图片

小红书创作发布组音频技术团队致力于提供业界领先的音频内容创作、内容理解、互动体验能力,助力公司发布、生态审核、直播、社交、搜索等多条业务线。

团队成立以来,技术成果不断,在业界首次提出 基于紧凑型语音表征打造高性能语音合成系统 。 论文《MSMC-TTS: Multi-Stage Multi-Codebook VQ-VAE Based Neural TTS》、《A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS》分别被国际期刊 IEEE TASLP、音领域会议 INTERSPEECH 2022 接收。

今年 8 月,团队代表小红书参与全球语音合成大赛 Blizzard Challenge 2023 ,在小样本赛道最重要的衡量指标 “说话人相似度”排名第一,“听感自然度”排名第四”。Blizzard Challenge 已连续举办 19 届,是全球规模最大、最具影响力的语音合成竞赛,在本次 REDtech 直播中,工程师们也会分享比赛体验。

嘉宾简介

解奉龙,小红书创作发布组音频技术负责人,负责音频技术在小红书全场景下的研发及落地。博士毕业于哈尔滨工业大学与微软亚洲研究院联合培养博士班,研究领域涉及语音合成、音乐信息检索、语音识别及语音信号处理等。曾在 ICASSP、INTERSPEECH、SPEECHCOM 等语音领域会议及期刊发表论文十余篇,长期担任 ICASSP、INTERSPEECH 等主要语音会议的审稿人。

许开拓,小红书创作发布组音频算法工程师,工作领域涉及语音识别 (ASR) 相关算法研发、ASR 相关模型的训练和推理工具开发等。本硕毕业于西北工业大学音频语音与语言处理研究组,GitHub 语音开源项目 Star 超1500,曾获语音会议 ISCSLP 2016 最佳学生论文提名奖。

靳源,小红书创作发布组音频算法工程师,硕士毕业于中国传媒大学传播声学研究所,工作领域涉及关键词识别、语音识别(ASR)、声音事件检测、音频指纹、AI 作曲技术等。

谢坤,小红书创作发布组音频算法工程师,硕士毕业于厦门大学模式识别实验室,负责语音合成及相关领域的探索和落地,包括语音合成、语音转换、歌唱合成等方向。

图片

直播观看方式

直播时间:2023 年 10 月 17 日 19:00-20:40

直播平台:微信视频号【小红书技术REDtech】,B站、抖音同名账号也将同步直播。

在直播过程中,我们将开启多轮 Q&A 问答环节,关于小红书场景中的语音技术应用有什么想问的,欢迎锁定小红书技术REDtech直播间,等你来交流讨论!

扫描下方二维码👇进入直播交流群,将第一时间获取直播链接及开播提醒。

图片

邀请好友预约直播好礼

图片

招聘

我们长期诚挚欢迎各位技术同学的加入,与我们一起接受行业前沿的技术挑战,共同落地不同业务场景,快来加入 REDcity!

语音算法工程师

工作职责:

  • 在业务场景下围绕语音识别、语音合成,音色克隆,语音转换,歌唱合成,音乐理解与生成等方向搭建核心技术,支撑平台业务板块,将 AI 语音交互技术服务赋能产品线

  • 跟进最领先的语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术指标,并撰写论文及申请专利

  • 工作要求:

  • AI、EE、CS 相关专业

  • 精通 Tensorflow,Pytorch 等工具,了解深度学习技术,具有模型优化经验

  • 熟悉 Linux 开发环境,熟练掌握 C++,python,Shell 等编程语言,对数据结构与算法有深刻理解者优先

  • 良好的团队沟通能力,积极思考,主动解决问题者优先

  • 在相关国际会议或期刊 (ICASSP、INTERS-PEECH、ASRU、TASLP、Speech Communi-  cation) 发表过论文者优先

  • 音频算法实习生

    工作职责:

  • 搭建 speech/music/audio 领域的识别/生成式模型,方向包括但不限 ASR、TTS、MIR、Audio/Music AIGC。

  • 跟进最领先的语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术指标,并撰写论文及申请专利。

  • 工作要求:

  • AI、EE、CS 相关专业;

  • 熟悉 Tensorflow,Pytorch 等工具,了解深度学习技术,具有模型优化经验;

  • 熟悉 Linux 开发环境,熟练掌握 C++,python,Shell 等编程语言,对数据结构与算法有深刻理解者优先;

  • 良好的团队沟通能力,积极思考,主动解决问题者优先;

  • AI 音乐实习生

    工作职责:

  •  与产品深度协作,参与并支持AI音乐专辑的策划、生产、落地后的推广等各环节的工作

  •  负责AI音乐投稿的内容分析,包括不仅限于投稿内容特点、用户使用心智、投稿消费表现、现存问题等的分析

  •  收集汇总日常产出的优质AI音乐,负责AI音乐生产全流程的监管和把控

  •  跟进时事热点,及时捕获内容及音乐的消费动向

  • 工作要求:

  • 具备优质的内容及音乐审美,有过高粉内容账号运营经验者优先 

  • 具备良好的沟通协作能力,能高效、准确地和组内产研及编曲人沟通

  • 具备较好的数据思维,对数字敏感、能通过数字洞察底层逻辑者优先

  • 理工科背景优先,有音乐/语音技术背景优先

  • 欢迎感兴趣的朋友发送简历至:REDtech@xiaohognshu.com;

    并抄送fenglongxie@xiaohongshu.com。

    相关文章

    服务器端口转发,带你了解服务器端口转发
    服务器开放端口,服务器开放端口的步骤
    产品推荐:7月受欢迎AI容器镜像来了,有Qwen系列大模型镜像
    如何使用 WinGet 下载 Microsoft Store 应用
    百度搜索:蓝易云 – 熟悉ubuntu apt-get命令详解
    百度搜索:蓝易云 – 域名解析成功但ping不通解决方案

    发布评论