StreamVoice-实时零唇语音转换模型

StreamVoice

释放双眼，带上耳机，听听看~！

StreamVoice是一种实时零唇语音转换的流式上下文感知语言建模技术。

StreamVoice官网链接地址：https://huggingface.co/papers/2401.11053

StreamVoice 介绍

StreamVoice是一种基于语言模型的零唇语音转换模型，能够实现实时转换，无需完整的源语音。它采用全因果上下文感知语言模型，结合时间独立的声学预测器，能够在每个时间步骤交替处理语义和声学特征，从而消除对完整源语音的依赖。为了增强在流式处理中可能出现的上下文不完整而导致的性能下降，StreamVoice通过两种策略增强了语言模型的上下文感知性：1）教师引导的上下文预见，在训练过程中利用教师模型总结当前和未来的语义上下文，引导模型对缺失上下文进行预测；2）语义屏蔽策略，促进从先前受损的语义和声学输入进行声学预测，增强上下文学习能力。值得注意的是，StreamVoice是第一个基于语言模型的流式零唇语音转换模型，无需任何未来预测。实验结果表明，StreamVoice具有流式转换能力，同时保持与非流式语音转换系统相媲美的零唇性能。

StreamVoice用户群体

StreamVoice可用于音乐制作、语音合成、语音转换等领域。

在音乐制作中，使用StreamVoice将歌手的声音转换为不同风格的歌手

在语音合成中，使用StreamVoice将文字转换为不同说话风格的语音

在语音转换中，使用StreamVoice将演讲者的语音转换为不同的说话风格

StreamVoice的核心功能

实时零唇语音转换
流式处理
上下文感知语言建模

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

StreamVoice

StreamVoice 介绍

StreamVoice用户群体

StreamVoice的核心功能

FreGrad

XspaceGPT

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

StreamVoice 介绍

StreamVoice用户群体

StreamVoice的核心功能

FreGrad

XspaceGPT

Wellsaidlabs

VoiceDual

DubbingAI

Neuralgen.ai