VSP官网链接地址:https://github.com/sally-sh/vsp-llm
网站默认显示语言:英语
VSP 介绍
VSP-LLM是一个结合视觉语音处理与大型语言模型的框架,旨在通过LLMs的强大能力最大化上下文建模能力。该框架设计用于执行多语言语音识别、跨语言视频内容理解和实时语音翻译等多任务。
VSP用户群体
多语言语音识别, 跨语言视频内容理解, 实时语音翻译
小明收集了某演员的语音样本,使用该平台生成了虚拟角色的配音;李思录制了一批广播稿,使用语音合成功能生成了完整的广播片段;用户可以上传自己的语音,转换生成偶像歌手的声音,实现语音趣味化。
VSP的核心功能
- 视觉语音识别
- 视觉语音翻译
- 自监督学习
- 去重和低秩适配器训练