StreamVoice官网链接地址:https://huggingface.co/papers/2401.11053
StreamVoice 介绍
StreamVoice是一种基于语言模型的零唇语音转换模型,能够实现实时转换,无需完整的源语音。它采用全因果上下文感知语言模型,结合时间独立的声学预测器,能够在每个时间步骤交替处理语义和声学特征,从而消除对完整源语音的依赖。为了增强在流式处理中可能出现的上下文不完整而导致的性能下降,StreamVoice通过两种策略增强了语言模型的上下文感知性:1)教师引导的上下文预见,在训练过程中利用教师模型总结当前和未来的语义上下文,引导模型对缺失上下文进行预测;2)语义屏蔽策略,促进从先前受损的语义和声学输入进行声学预测,增强上下文学习能力。值得注意的是,StreamVoice是第一个基于语言模型的流式零唇语音转换模型,无需任何未来预测。实验结果表明,StreamVoice具有流式转换能力,同时保持与非流式语音转换系统相媲美的零唇性能。
StreamVoice用户群体
StreamVoice可用于音乐制作、语音合成、语音转换等领域。
在音乐制作中,使用StreamVoice将歌手的声音转换为不同风格的歌手
在语音合成中,使用StreamVoice将文字转换为不同说话风格的语音
在语音转换中,使用StreamVoice将演讲者的语音转换为不同的说话风格
StreamVoice的核心功能
- 实时零唇语音转换
- 流式处理
- 上下文感知语言建模