阿里发布 EMO 大模型展示页面,音频驱动人物肖像生成视频框架

释放双眼,带上耳机,听听看~!
阿里发布了一个名叫 EMO 的大模型,通过音频驱动的方式生成丰富的面部表情和各种头部姿势的声音头像视频,只需一张人物肖像照片和一段音频即可生成任意时长的视频。该模型采用主流框架 stable diffusion,应用了多种特征提取和注意力机制,效果惊人。未来可能实现用户定制歌手照片和歌曲名字生成视频的功能。

官方链接

介绍

阿里终于整活了,刚刚阿里发布了一个大模型的展示页面,提出了一个名叫 EMO(Emote Portrait Alive) 的大模型,一种富有表现力的音频驱动的基于人物肖像生成视频的框架。具体来讲就是,输入单个参考人物肖像图像和语音(例如讲话或者唱歌等),可以生成具有丰富的面部表情各种头部姿势声音头像视频,同时可以根据输入视频的长度生成任意持续时间的视频。如下示意图。

阿里发布 EMO 大模型展示页面,音频驱动人物肖像生成视频框架

所以总结下来特点如下:

  • 只需要一张人物肖像照片,包括:现实照片、动漫照片、AI 生成的照片等等
  • 只需要一段音频,包括:演讲、唱歌、讲话等等
  • 生成符合音频内容的丰富的面部表情
  • 生成任意时长的视频

原理

模型采用 stable diffusion 这一当下的主流框架作为整个模型基础框架,整个框架主要由两个阶段组成:在称为 Frames Encoding 这一初始阶段,ReferenceNet 用于从 reference imagemotion frames 中提取特征。然后进入 Diffusion Process 阶段,模型输入不仅包括上面的两种特征,还需要预训练的 audio encoder 处理的音频特征,speed encoder 处理的头部速度嵌入,还有照片中的面部区域掩码特征以及多帧噪声集,通过主干网络的反复去燥操作完美控制面部图像的生成。

在主干网络中,除了 Self-Attention ,还应用了两种形式的注意力机制:Reference-AttentionAudio-Attention 。这两种机制分别对于保留角色的身份和调节角色的动作至关重要。此外 Temporal Modules 用于操纵时间维度,并调整运动速度。

阿里发布 EMO 大模型展示页面,音频驱动人物肖像生成视频框架

效果展示

墙裂推荐一定要去官网看看,效果惊人!

Character: AI Girl generated by ChilloutMix:这是用 ChilloutMix 模型生成的图片,然后用图片生成视频演唱 宁艺卓 《Melody》 ,先不说人美歌赞,光是唱歌时候面部的微表情真的是陶醉在音乐里的感觉。

阿里发布 EMO 大模型展示页面,音频驱动人物肖像生成视频框架

Character: KUN KUN:谁说我们坤坤没有实力,这就是证据,看看这 RAP 饶舌,一字不差,吐字清晰,真的是溜得飞起【六到已经翻白眼】~~

阿里发布 EMO 大模型展示页面,音频驱动人物肖像生成视频框架

Character: AI Ymir from AnyLora & Ymir Fritz Adult:这是位动漫人物,很好的满足了二次元宅男想让女神唱歌的梦想,我也想让我的女神唱只属于我们俩的歌,略略~~~

阿里发布 EMO 大模型展示页面,音频驱动人物肖像生成视频框架

Character: Joaquin Rafael Phoenix - The Jocker - 《Jocker 2019》:看看小丑在你面前一本正经的坐着讲话,还瞪着你,就问你慌不慌

阿里发布 EMO 大模型展示页面,音频驱动人物肖像生成视频框架

Character: SongWen Zhang - QiQiang Gao - 《The Knockout》:呦呦呦,这不是京海的高启强吗,怎么都开始直播普法节目了?果然京海不允许这么牛逼的人一直存在下去,改行当老师也不错,肯定比卖鱼挣得多。

阿里发布 EMO 大模型展示页面,音频驱动人物肖像生成视频框架

Character: Leslie Cheung Kwok Wing:最后出场的自然是我们敬爱的哥哥,不管什么时候,唱歌都是最棒的,美人如玉说的就是他吧。

阿里发布 EMO 大模型展示页面,音频驱动人物肖像生成视频框架

未来畅想

以后我开发的 AAP ,只需要让用户点击两个按钮:

  • 选择歌手照片
  • 选择歌曲名字

如果是我的话,我希望能听这些歌曲:

  • 那英:《冲动的惩罚》
  • 汪峰:《冲动的惩罚》
  • 杨坤:《冲动的惩罚》
  • 杨坤:《惊雷》
  • 姜昆:《探清水河》
  • 姜昆:《我这一辈子》
  • ……

大家还有什么想听的,不妨评论区说说。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

LangChain 0.1.0发布:LLM应用开发新起点

2024-3-16 13:40:00

AI教程

Meta承认使用盗版书籍训练AI,中国AI大模型专利数全球第一

2024-3-16 20:28:00

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索