Fish Speech：开源TTS项目，高效语音转换工具

AI教程
7月22日
编辑

IT咖啡馆

释放双眼，带上耳机，听听看~！

Fish Speech是一个开源TTS项目，通过深度学习实现高效语音转换，支持多语言、语音克隆技术以及多样的语音模型。与其他TTS模型相比，Fish Speech展现出了稳定性和可用性优势，适合个性化语音需求。

如果你想做视频，却感觉面对镜头有些紧张，那你的福音真的来了，今年各种TTS工具层出不穷，只需准备好文字，TTS就可以自动转成各种各样的语音了。

今天我们分享一个开源TTS项目，它可以快速克隆声音，效果非常的炸裂，可以满足用户的个性化需求，它就是：Fish Speech

Fish Speech：开源TTS项目，高效语音转换工具 http://127.0.0.1:8080/ 中查看并测试 API.

请求示例代码如下：

python -m tools.post_api 
    --text "要输入的文本" 
    --reference_audio "参考音频路径" 
    --reference_text "参考音频的文本内容" 
    --streaming True

WEB UI 方式

你可以使用以下命令来启动 WebUI:

python -m tools.webui 
    --llama-checkpoint-path "checkpoints/fish-speech-1.2" 
    --decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" 
    --decoder-config-name firefly_gan_vq

功能特点

高效语音转换：快速将文本转换为自然流畅的语音。
多语言支持：涵盖中文、英文和日文，跨越语言障碍。
语音克隆技术：通过深度学习实现个性化语音的克隆。
低硬件需求：仅需4GB显存，降低使用门槛。
快速推理：优化推理过程，缩短等待时间，提升效率。
多样的语音模型：支持多种先进模型，适应不同需求。
用户友好：简化安装和配置，易于上手。
微调能力：LORA技术提供细致的模型调整功能。
性能优化：采用先进技术确保高效稳定的处理能力。

总结

与其他开源TTS模型相比，Fish Speech在稳定性和可用性上都展现出了明显优势。在一些方面Fish Speech的效果比ChatTTS和GPT-SoVITS还要强。目前能看到的一些缺点是Fish Speech虽然最低系统配置要求不高，但是如果想实现高速推理还是比较吃资源的，另外就是对于字符长度的支持比较有限，每次转换都较短。

Fish Speech：开源TTS项目，高效语音转换工具 github.com/fishaudio/f…

Star 数：6K

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

Fish Speech：开源TTS项目，高效语音转换工具

功能特点

总结

Dify知识库创建教程：Notion内部集成与Web站点同步

AI工具PaintsUndo详细介绍及体验分享

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

功能特点

总结

Dify知识库创建教程：Notion内部集成与Web站点同步

AI工具PaintsUndo详细介绍及体验分享

TVM中文文档正式发布：机器学习编译器TVM开源之路

PEGASUS模型在EasyNLP框架中的应用

李白（LiBai）：开源自助的分布式训练模型库

VideoPipe：强大易用的视频分析框架