深度解析DragGAN：让GAN技术更加灵活和精准

释放双眼，带上耳机，听听看~！

本文深度解析了DragGAN技术，探讨了其对生成对抗网络的改进和提升，以及在图像生成领域的潜在应用。

引文：什么是DragGAN？相信最近一段刷爆国内外的视频已经让大家惊呼：ps已死。今天我们通过DragGAN背后的技术好好了解一下DragGAN是如何实现的。

我们先来看看论文作者是怎么说的：合成满足用户需求的视觉内容通常需要灵活的以及姿势、形状、表情和布局的精确可控性生成的对象。现有方法获得生成式的可控性对抗网络（GAN）通过手动注释的训练数据或先前的 3D 模型，通常缺乏灵活性、精度和通用性。在这部作品中，我们研究一种强大但鲜为人知的控制GAN的方法，即 “拖动”图像的任何点以精确到达目标点用户交互方式。

gan和大火的mj、sd的关系

Stable Diffusion是2022年发布的深度学习文本到图像生成模型，它是一种潜在扩散模型。

midjourney底层也是使用了扩散模型。

而GAN则是和两者不同的技术，是生成对抗网络。

GAN技术

DragGan,由drag（拉伸）和GAN（生成对抗网络的简称）组成，我们先来了解一下GAN，我们可以从以下三个方面提出问题和解答：

1.它从哪里来？ GAN是由伊恩·古德费洛（Ian Goodfellow）等人在2014年提出的生成对抗网络（Generative Adversarial Network），主要是为了解决机器学习领域中生成模型生成的样本不够逼真的问题。例如图像类的生成模型，虽然可以生成一些图片，但是这些图片往往不够真实，并不符合我们的期望。因此，GAN就被提出来用来解决这个问题。

2.它是什么？ GAN是一种生成模型，主要由两个部分组成：生成器和判别器。生成器通过输入一些随机噪声，尝试生成与训练数据相似的样本，例如图片或语音等。而判别器则被用于对生成器生成的样本与真实训练数据进行分类判断。在训练过程中，判别器和生成器会互相博弈、竞争，通过不断地训练迭代，生成器逐渐学会生成更加逼真的样本，而判别器也逐渐学会更好地区分真实数据和生成数据。

3.它到哪里去？虽然GAN已经被广泛应用于图像和语音等领域，但是它仍然存在一些问题和挑战。例如，在生成样本时会出现部分区域的失真、重叠以及噪声等问题，因此需要提出更加优秀的损失函数和训练方法来弥补这些缺陷。此外，GAN在应用过程中还面临着生成数据不稳定、覆盖面太窄等问题，这些都是需要持续研究和挑战的方向。

DragGAN详细介绍

DragGAN模型本质上是给各种GAN开发的一种交互式图像操作方法，实现了通过鼠标拉伸图像即可自动生成新图像的神奇功能。用户先设置一个起始点，一个目标点，和想要改变的区域，然后模型就会迭代的执行运动监督和点跟踪这两个步骤。运动监督会控制起始点向目标点运动。点跟踪则是根据点的移动而动态修改图像。

DragGAN厉害之处在于，之前的GAN模型是没有很好的运动监督，而论文作者提出了一种新的运动监督损失，即通过生成器中间特征的鉴别能力，一个简单的损失就足以监督运动。

DragGAN还提出来一种新的点跟踪方法：最近邻检索，在相同的特征空间上进行点跟踪，增加了效率，也避免了累计误差损失。

原文：

为了实现这一目标，我们建议 DragGAN，它由两个主要部分组成：1）基于特征的运动驱动手柄点向目标位置移动的监督， 2）利用判别性的新点跟踪方法生成器功能可保持定位手柄点的位置。通过DragGAN，任何人都可以通过精确控制图像的位置来变形图像像素去，从而操纵各种姿势、形状、表情和布局动物、汽车、人类、风景等类别。作为这些对GAN的学习生成图像流形进行操作，即使对于具有挑战性的场景，它们也倾向于产生逼真的输出，例如幻觉遮挡的内容和变形的形状始终如一地随之而来物体的刚性。定性和定量比较展示 DragGAN 在任务中相对于先前方法的优势图像处理和点跟踪。我们还展示了对通过GAN反演的真实图像。

资料

想要好好欣赏这个技术可以到官方网址慢慢看：vcai.mpi-inf.mpg.de/projects/Dr…

github上面DragGAN项目一行代码没发已经7k+star了，恐怖如斯。

总结

ai绘画发展如此迅猛，各个领域齐开花，DragGAN的出现真的好像给了普通人更多的可能性。为了在未来能够为这波浪潮不被拉下，建议大家多多关注ai绘画，也应该自己上手体验ai绘画。如果希望体验mj或者接入mj也可以私信我，自己做了一些服务。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

深度解析DragGAN：让GAN技术更加灵活和精准

gan和大火的mj、sd的关系

GAN技术

DragGAN详细介绍

资料

总结

残差网络-ResNet网络详解

基于 prompt 的新型交互模型 SEEM 和基础模型工具学习综述

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

gan和大火的mj、sd的关系

GAN技术

DragGAN详细介绍

资料

总结

残差网络-ResNet网络详解

基于 prompt 的新型交互模型 SEEM 和基础模型工具学习综述

DALL·E 3解禁，OpenAI 22页报告揭秘：ChatGPT自动改写Prompt

图生图入门指南

GAN入门｜第二篇：人脸图像生成（DCGAN）

UniControl: 一个多模态条件生成的统一扩散模型