释放双眼，带上耳机，听听看~！

本文介绍了扩散模型的原理以及DDPM的扩散过程，涉及生成模型、物理热力学中的扩散思想和数据去噪化方法。

第1章扩散模型简介

1.1 扩散模型的原理

扩散模型是一类生成模型，运用物理热力学中的扩散思想，主要包括前向扩散和反向扩散。

生成模型：给定一批训练数据 $X$ ，假设其服从某种复杂的真实分布 $p (x)$ ，则给定的训练数据可视为从该分布中采样的观测样本 $x$ ，其作用就是估计训练数据的真实分布。（如果能从观测样本中估计出训练数据的真实分布，就可以从该分布中源源不断的采样出新的样本）

扩散的思想：来自于物理学中的非平衡热力学分支，例如墨水在水中扩散的实验，非平衡热力学可以描述这滴墨水随时间推移的扩散过程中每一个“时间步”状态的概率分布。

扩散模型及DDPM简介

DDPM(Denoising Diffusion Probabilistic Model)的扩散过程：

前向过程（数据噪声化）：在每个时间步 $t$ ，给上一个时间步 $t - 1$ 的数据 $x_{t-1}$ 添加高斯噪声，生成带有噪声的数据 $x_t$ ，噪声的方差由 $βtbeta_t$ 确定，均值由 $βtbeta_t$ 和当前时刻“带噪”的数据分布确定。加噪过程：

$q(xt∣xt−1)=N(xt;1−βtxt−1,βtI)q(x_t | x_{t-1}) = mathcal{N} (x_t ; sqrt{1 – beta_t} x_{t – 1}, beta_t I)$

最终噪声分布的公式：

$q(x1:T∣x0)=∏t=1Tq(xt∣xt−1)q(x_{1:T} | x_0) = prod_{t = 1}^T q(x_t | x_{t – 1})$

反向过程（数据去噪化）：从采样自高斯噪声 $x \sim N (0, I)$ 的随机噪声中恢复出原始数据 $x_0$ ，通过由一系列用神经网络参数化的高斯分布组成的马尔可夫链进行数据去噪。

从时间步 $t$ 到时间步 $t - 1$ 的单步反向“去噪”过程：

$q(xt−1∣xt,x0)=N(xt−1;μ~(xt,x0),βt~I)q(x_{t – 1} | x_t, x_0) = mathcal{N} (x_{t – 1}; tilde{mu}(x_t, x_0), tilde{beta_t} I)$

其中，均值为

$βt~=1−αˉt−11−αˉt⋅βttilde{beta_t} = frac{ 1 – bar{alpha}_{t – 1}}{ 1 – bar{alpha}_t} cdot beta_t$

方差为

$μ~(xt,x0)=αt(1−αˉt−1)1−αˉtxt+αˉt−1βt1−αˉtx0tilde{mu}(x_t, x_0) = frac{sqrt{alpha_t} (1 – bar{alpha}_{t – 1})}{1 – bar{alpha}_t} x_t + frac{ sqrt{ bar{alpha}_{t – 1} } beta_t }{1 – bar{alpha}_t} x_0$

优化目标：要求反向过程中预测的噪声分布与前向过程中施加的噪声分布之间的“距离”最小。

优化目标公式：

$Lt−1simple=Ex0,ϵ∼N(0,I)[∥ϵ−ϵθ(αˉtx0+1−αˉtϵ,t)∥2]L_{t – 1}^{text{simple}} = mathbb{E}_{x_0, epsilon sim mathcal{N}(0, I)} left[ | epsilon – epsilon_{theta} left( sqrt{bar{alpha}_t} x_0 + sqrt{1 – bar{alpha}_t} epsilon, t right) |^2 right]$

1.2 扩散模型的发展

基础扩散模型的提出与改进：最早提出的扩散模型是DDPM，将去噪扩散概率模型应用到图像生成任务中。
采样器：通过离散化求解随机微分方程，降低采样步数。
基于相似分类器引导的扩散模型：OpenAI的《Diffusion Models Beat GANs on Image Synthesis》论文介绍了在扩散过程中如何显式分类器引导。
基于CLIP的多模态图像生成：将同一语义的文字和图片转换到同一个隐空间中。
大模型的“再学习”方法：DreamBooth实现现有模型再学习到指定主体图像的功能，通过少量训练将主体绑定到唯一的文本标识符后，通过输入prompt控制主体生成不同的图像。LoRA可以指定数据集风格或人物，并将其融入现有的图像生成中。ControlNet学习多模态的信息，利用分割图、边缘图更精细地控制图像生成。
AI作画：Midjoryney、DreamStudio、Adobe Firefly，以及百度的文心一格AI创作平台，阿里的通义文生图大模型。

1.3 扩散模型的应用

计算机视觉：
- 图像分割与目标检测（我们利用原始图像作为条件，从随机噪声生成多个分割图，然后对它们进行集成以获得最终结果：github.com/WuJunde/Med…
- 图像超分辨率（CDM，通过串联多个扩散模型的方式，分级式的逐步放大分辨率）
- 图像修复
- 图像翻译
- 图像编辑。
时序数据预测：（也是个生成任务，基于历史数据的基本条件来生成未来数据）
- TimeGrad模型，使用RNN处理历史数据并保存到隐空间，对数据添加噪声实现扩散过程，处理数千维度的多元数据完成预测（进行了交通流预测任务）。
自然语言：使用Diffusion-LM可以应用在语句生成、语言翻译、问答对话、搜索补全、情感分析、文章续写等任务中。
基于文本的多模态：文本生成图像（DALLE-2、Imagen、Stable Diffusion）、文本生成视频（Make-A-Video、ControlNet Video）、文本生成3D（DiffRF）
AI基础科学：SMCDiff（支架蛋白质生成）、CDVAE（扩散晶体变分自编码器模型）

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

扩散模型及DDPM简介

第1章扩散模型简介

1.1 扩散模型的原理

1.2 扩散模型的发展

1.3 扩散模型的应用

ChatGPT生成决策树的代码

软件UI问题解决请求

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

第1章 扩散模型简介

1.1 扩散模型的原理

1.2 扩散模型的发展

1.3 扩散模型的应用

ChatGPT生成决策树的代码

软件UI问题解决请求

GPT原理与使用技巧

如何选择ChatGPT API方式？比较ChatGPT API和ChatGPT Unofficial ProxyAPI

Meta发布Llama 2开源大动作，AI领域再次掀起风暴

DALL ・ E 3：集成ChatGPT的新特点和生成效果

第1章扩散模型简介