StreamVoice

释放双眼,带上耳机,听听看~!
StreamVoice是一种实时零唇语音转换的流式上下文感知语言建模技术。

StreamVoice官网链接地址:https://huggingface.co/papers/2401.11053

StreamVoice 介绍

StreamVoice是一种基于语言模型的零唇语音转换模型,能够实现实时转换,无需完整的源语音。它采用全因果上下文感知语言模型,结合时间独立的声学预测器,能够在每个时间步骤交替处理语义和声学特征,从而消除对完整源语音的依赖。为了增强在流式处理中可能出现的上下文不完整而导致的性能下降,StreamVoice通过两种策略增强了语言模型的上下文感知性:1)教师引导的上下文预见,在训练过程中利用教师模型总结当前和未来的语义上下文,引导模型对缺失上下文进行预测;2)语义屏蔽策略,促进从先前受损的语义和声学输入进行声学预测,增强上下文学习能力。值得注意的是,StreamVoice是第一个基于语言模型的流式零唇语音转换模型,无需任何未来预测。实验结果表明,StreamVoice具有流式转换能力,同时保持与非流式语音转换系统相媲美的零唇性能。

StreamVoice用户群体

StreamVoice可用于音乐制作、语音合成、语音转换等领域。

在音乐制作中,使用StreamVoice将歌手的声音转换为不同风格的歌手

在语音合成中,使用StreamVoice将文字转换为不同说话风格的语音

在语音转换中,使用StreamVoice将演讲者的语音转换为不同的说话风格

StreamVoice的核心功能

  • 实时零唇语音转换
  • 流式处理
  • 上下文感知语言建模
本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
声音与音频编辑工具

FreGrad

2024-1-19 20:12:07

声音与音频编辑工具

XspaceGPT

2024-1-27 15:18:05

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索