AI声音克隆技术揭秘：AI音频生成的新赛道

释放双眼，带上耳机，听听看~！

本文揭示了AI声音克隆技术的最新进展，包括AI音频生成的新赛道和技术背景，涵盖了AI音频生成的各种应用领域。

只羊事件闹得沸沸扬扬，没想到受害者竟然是AI。

昨晚，合肥警方就“三只羊集团创始人卢文庆录音事件”发布通报，称这条广为流传的音频为AI生成，犯罪嫌疑人已经被依法采取刑事强制措施。

一锤定音，这条通报不仅给出了官方表态，也扇了前几天那位网传“国内AI第一人”一记耳光，毕竟，当时“国内AI第一人”给出的判断是“AI声音克隆技术目前还做不到那么丝滑”。

AI声音克隆技术揭秘：AI音频生成的新赛道

不过更出人意料的是，今天有一家AI公司跳出来“发布声明”，说这条音频内容是嫌疑人通过自家研发的AI配音大模型制作的。

AI声音克隆技术揭秘：AI音频生成的新赛道

网友也惊了，都这样了还不忘打广告，AI卷王?我们顺着声明中提及的公司找了一下声明来源，在一个同名微博上找到了相关内容，不过该账号未经官方认证，因此也无法盖棺定论。

不过，围绕这条声明的讨论还在增加，网友们纷纷称之为“自杀式营销”，还有好奇宝宝发问了，这家AI公司的声音克隆产品真有那么厉害吗，“有没有人去这个网站实测一波呀”。

试试就试试……在隐去相关公司和产品名称的基础上，我们对该产品进行了一番实测，需要注意的是，以下测试仅作科普之用，工具的价值在于使用者如何使用，我们绝不支持任何人用AI在法律边缘试探。

与此同时，我们也咨询了相关律师，想知道此外这类AI克隆声音侵权案件是否有先例，以及创作者和平台在使用或推广新技术的过程中需要注意哪些法律问题，供各位参考。

AI克隆一个人的声音，

只需几秒的声音样本

输入文本、分配角色、自动逐句分割文本，一键点击生成。

进入该产品页面后，我们通过操作以上几个步骤，仅花了1分钟，就让姜文念出了《让子弹飞》中六子的台词。

爹，全都找遍了，没钱，没货，也没有银子。人倒是剩俩活的，杀不杀?

来听听效果:

这抑扬顿挫、这腔调，不知道还以为六子这角色是姜文演的，实际上六子在电影中演的是儿子，姜文演的是六子的爹。

这段音频是我们利用该产品中的语音角色“姜文”生成的。

目前，该产品中的语音角色众多，有“孙笑川”“丁真”等知名网络红人，也有“科比”“周杰伦”等文体界的巨星。

而这些语音角色都是社区用户上传的，点击平台的官方角色则会显示“即将推出，敬请期待”。

AI声音克隆技术揭秘：AI音频生成的新赛道

除了可以使用社区用户上传的语音角色，想在该平台上克隆一个名人的声音也很简单。

在这里我们上传了一段马斯克的真实采访录音，让AI马斯克“亲口”说出了“You swan， he frog!（癞蛤蟆想吃天鹅肉）”这句火到国外的中式英语。

该平台要求样本语音只需大于2秒，样本的质量比长度更重要，所以在进行声音克隆时，最耗时的步骤是寻找马斯克的清晰录音。

官方称，这段录音将用于定义该角色默认的声音表现，包括声线、情感、语速、语调、韵律等。如果想要同个角色的不同声音风格，还支持用户添加该语音角色的不同风格样本。

目前这个版本我们仅上传了一段音频，同时使用的还是该平台的快速克隆模式，而非付费的专业克隆模式（官方称该模式音色和情感还原度高达99.9%），在短句的表现上就已经和马斯克本人的声音有6到7分相似了。

AI声音克隆技术揭秘：AI音频生成的新赛道

从内容形式上来看，生成式AI已经“入侵”文本、音视频甚至3D内容，在这之中音频可以说是目前技术应用较为成熟的赛道之一。

AI声音克隆只是AI音频生成的一个细分赛道，其他应用还包括AI生成音乐、AI生成音效。

早在生成式AI出现之前，其实AI声音克隆就已经存在了。彼时想要克隆声音，基于的是传统的TTS（Text-to-Speech，文本到语音）技术，需要建立一个AI声库，采集大量的人类声音标本制作数据库，后期还得通过人工调试来模拟人声。

或者基于Bert VITS等开源项目，利用最新的深度学习语音合成技术，直接文本转语音来还原音色，但对设备、技术要求都比较高。

AI声音克隆技术揭秘：AI音频生成的新赛道

图片来源:B站UP主“痕继痕迹”的GPT- SoVITS教程

如今在AIGC浪潮下，“卷”出来的AI工具只需要10秒乃至更少的声音样本，就能精准复刻音色。

早前，我们曾在直播中介绍过AI语音克隆技术的原理，一般分为语音采集、特征提取、模型训练和语音合成等步骤，相关产品工具有Fish Audio、CosyVoice、ElevenLabs、剪映等，让语音克隆操作门槛变得更低。（相关直播回放可关注“AI新榜”视频号或扫描下方图片二维码查看）

因而，“三只羊录音门”出自AI之手在技术上是可行的。尤其在“有心之人”手中，除了AI生成，还可以通过人工调试、后期剪辑等方式做到以假乱真的效果。

更别说流传的录音中，还有大量复杂的环境噪音、说话人的“醉酒状态”设定等，都大大增加了辨别录音真伪的难度。这下也就不奇怪不少网友会猜测:AI只是充当了“临时工”的角色，抗下了所有。

AI声音克隆技术揭秘：AI音频生成的新赛道

其实这也从侧面体现出，在AI技术的快速迭代下，我们普通人对AI能做什么、以及能做到什么程度，是和一线从业人员之间存在信息差的。

此外，在“三只羊录音门”事件中，也暴露出平台监管缺位、创作者不当使用等法律层面上的问题。

内容平台的AI声音侵权讨论

实际上，通过AI伪造音频的侵权事件已不是第一案。

今年4月，北京互联网法院审理了全国首例“AI声音侵权案”。

原告殷某某是一名配音师，曾录制多部有声作品。其意外发现，自己的声音被AI化后在一款名为“魔音工坊”的App上出售。法院最终判决被告未经原告许可使用其声音，构成侵权，并赔偿原告各项损失25万元。

根据《中华人民共和国民法典》第1023条，自然人的声音受到法律保护，其保护方式参照肖像权。这意味着，如果AI生成的声音具有可识别性，能够被公众关联到特定自然人，那么未经该自然人许可使用其声音，就可能构成侵权。

中国AI绘画著作权第一案原告、北京市天元律师事务所合伙人李昀锴告诉“AI新榜”:

目前来看，我们的法律不太需要修订。因为AI技术还在发展过程中，可能过两年就迭代出新的技术，如果我们的法律是针对这个去立法的话，立法大概要3到5年，到时候技术形态已经改变，那这个法律其实就变成了一纸空文。

我们当前的法律已经规定了基本的框架，需要调整的只是对于这些法律怎么去解释，以及怎么通过典型性的案例去塑造相关的司法裁判态度。只有在技术真正成熟的情况下，我们才应该推动立法去把司法实践中已经确立的规则说明清楚。

除了司法实践中的侵权案例以外，内容平台上的AI声音侵权更为广泛和隐秘。

眼下，层出不穷的AI工具大大降低了创作门槛，AIGC已成为继PGC、UGC后的热门内容生产方式。

用AI声音克隆技术二创热门音乐、让动漫游戏角色进行AI翻唱，或是让已故名人开口说话等等，在国内外的内容平台上都已十分常见。

AI声音克隆技术揭秘：AI音频生成的新赛道

相比老生常谈的同人创作，用AI进行二次创作是一个更为广泛的概念。同人作品通常限于粉丝群体内部的创作，而二次创作可能来源于普通的AI技术爱好者，且因为有了AI技术的加持，改编和创新有了更大的想象空间。

保质保量的AI声音二创作品，不仅能借助原IP或名人本身的热度触达粉丝群体，也更有潜力突破圈层。

通常来说，考虑到目前二创内容的数量和影响力，以及内容平台的生态，版权保护主要有赖于创作者的自觉、版权方和大众监督。

如果原作和版权方不对二创作品进行追究，一般不会产生法律问题。

内容平台也大都选择让这些内容自由生长，同时给予一定的限制。毕竟，过于严格的版权监督势必会打击创作者的热情，阻碍内容的传播，对内容平台来说也是一笔不小的损失。

当然，在鼓励内容创新的同时，内容平台也需要完善相应的审核、标识和监管机制。

2024年9月14日，网信办发布《人工智能生成合成内容标识办法（征求意见稿）》，进一步明确了添加AIGC内容标识的具体要求。

提供合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务的，应在音频的起始、末尾或中间适当位置添加语音提示或音频节奏提示等标识，或在交互场景界面中添加显著的提示标识。

除了暧昧、难以定夺的版权归属问题外，另一个争论来自于现实的伦理道德冲突。

比如用AI“复活”已故明星的音容笑貌，在温情和缅怀的外衣下，也被视为对逝者的不敬和过度消费。

无论是内容平台的AI声音二创作品，还是此次三只羊的AI配音犯罪事件，围绕着AI声音克隆技术，仍然有许多版权、伦理、数据隐私、违法犯罪等方面的问题亟待进一步讨论。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

AI声音克隆技术揭秘：AI音频生成的新赛道

AI时代下技术团队的影响和适应

2024年中国AI耳机销量预测及市场分析

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

StoryDiffusion

归档

{{userData.name}}已认证

AI时代下技术团队的影响和适应

2024年中国AI耳机销量预测及市场分析

泰勒・斯威夫特声音合成事件揭露

Meta推出Audiobox：音频生成领域的重大突破

Calm推出Jimmy Stewart AI生成声音主演的新节日故事

持续学习：新型机器学习方法的关键要素