释放双眼，带上耳机，听听看~！

本文介绍了EM算法的基本原理和应用领域，包括概率模型中的观测变量和隐变量，以及使用EM算法进行极大似然估计的步骤和原理。

一、概述

介绍

概率模型有时既包含观测变量（observed variable），又包含隐变量（latent variable）。当概率模型只包含观测变量时，那么给定观测数据，就可以直接使用极大似然估计法或者贝叶斯估计法进行模型参数的求解。然而如果模型包含隐变量，就不能直接使用这些简单的方法了。EM算法就是用来解决这种含有隐变量的概率模型参数的极大似然参数估计法。这里只讨论极大似然估计，极大后验估计与其类似。

算法

EM算法的输入如下：

$X$ :观测数据

$Z$ : 末观测数据 (隐变量)

$p (x, z ∣ θ)$ : 联合分布

$p (z ∣ x, θ)$ :后验分布

$θ$ :parameter

在算法运行开始时需要选择模型的初始化参数 $θ(0)theta^{(0)}$ 。EM算法是一种迭代更新的算法，其计算公式为:

$theta^{t+1}=underset{theta}{operatorname{argmax} E_{z mid x, theta^t}[log p(x, z mid theta)]} \ =underset{theta}{operatorname{argmax}} int_z log p(x, z mid theta) cdot pleft(z mid x, theta^tright) mathrm{d} z end{gathered}$

这个公式包含了迭代的两步:

①E step: 计算 $p (x, z ∣ θ)$ 在概率分布 $theta^tright)$ 下的期望；
②M step: 计算使这个期望最大化的参数得到下一个EM步骤的输入。

总结来说，EM算法包含以下步骤：

①选择初始化参数 $^{(0)}$ ；
②E step；
③M step；
④重复②③步直至收敛。

二、EM算法的收敛性

现在要证明迭代求得的 $θttheta^t$ 序列会使得对应的 $theta^tright)$ 是单调递增的 (如果 $theta^tright)$ 是单调递增的，那么训练数据的似然就是单调递增的），也就是说要证明 $theta^tright) leq pleft(x mid theta^{t+1}right)$ 。首先我们有:

$lo g p (x ∣ θ) = lo g p (x, z ∣ θ) - lo g p (z ∣ x, θ)$

接下来等式两边同时求关于 $theta^tright)$ 的期望:

$}=int_z pleft(z mid x, theta^tright) cdot log p(x mid theta) mathrm{d} z \ =log p(x mid theta) int_z pleft(z mid x, theta^tright) mathrm{d} z \ =log p(x mid theta) \ text { 右边 }=underbrace{int_z pleft(z mid x, theta^tright) cdot log p(x, z mid theta) mathrm{d} z}_{text {记作 } Qleft(theta, theta^tright)}-underbrace{int_z pleft(z mid x, theta^tright) cdot log p(z mid x, theta) mathrm{d} z}_{text {记作 } Hleft(theta, theta^tright)} end{gathered}$

因此有：

$theta)=int_z pleft(z mid x, theta^tright) cdot p(x, z mid theta) mathrm{d} z-int_z pleft(z mid x, theta^tright) cdot log p(z mid x, theta) mathrm{d} z$

这里定义了 $theta^tright)$ ，称为 $Q$ 函数 ( $Q$ function)，这个函数也就是上面的概述中迭代公式里用到的函数，因此满足 $Q(θt+1,θt)≥Q(θt,θt)Qleft(theta^{t+1}, theta^tright) geq Qleft(theta^t, theta^tright)$ 。

接下来将上面的等式两边 $θ$ 分别取 $θt+1theta^{t+1}$ 和 $θttheta^t$ 并相减:

$theta^{t+1}right)-log pleft(x mid theta^tright)=left[Qleft(theta^{t+1}, theta^tright)-Qleft(theta^t, theta^tright)right]-left[Hleft(theta^{t+1}, theta^tright)-Hleft(theta^t, theta^tright)right]$

我们需要证明 $theta^{t+1}right)-log pleft(x mid theta^tright) geq 0$ ，同时已知 $Q(θt+1,θt)−Q(θt,θt)≥0Qleft(theta^{t+1}, theta^tright)-Qleft(theta^t, theta^tright) geq 0$ ，现在来观察 $Hleft(theta^{t+1}, theta^tright)-Hleft(theta^t, theta^tright) text { : }$

$^{t+1},theta ^{t})-H(theta ^{t},theta ^{t})\ =int _{z}p(z|x,theta ^{t})cdot log; p(z|x,theta ^{t+1})mathrm{d}z-int _{z}p(z|x,theta ^{t})cdot log; p(z|x,theta ^{t})mathrm{d}z\ =int _{z}p(z|x,theta ^{t})cdot logfrac{p(z|x,theta ^{t+1})}{p(z|x,theta ^{t})}mathrm{d}z\ leq logint _{z}p(z|x,theta ^{t})frac{p(z|x,theta ^{t+1})}{p(z|x,theta ^{t})}mathrm{d}z\ =logint _{z}p(z|x,theta ^{t+1})mathrm{d}z\ =log; 1\ =0$

这里的不等号应用了Jensen不等式：

$_{j}lambda _{j}y_{j}geq sum _{j}lambda _{j}log; y_{j},其中lambda _{j}geq 0，sum _{j}lambda _{j}=1$

也可以使用KL散度来证明 $∫zp(z∣x,θt)⋅log⁡p(z∣x,θt+1)p(z∣x,θt)dz≤0int_z pleft(z mid x, theta^tright) cdot log frac{pleft(z mid x, theta^{t+1}right)}{pleft(z mid x, theta^tright)} mathrm{d} z leq 0$ ，两个概率分布 $P (x)$ 和 $Q (x)$ 的KL散度是恒 $\geq 0$ 的，定义为:

$DKL(P∥Q)=Ex∼P[log⁡P(x)Q(x)]D_{K L}(P | Q)=E_{x sim P}left[log frac{P(x)}{Q(x)}right]$

因此有:

$∫zp(z∣x,θt)⋅log⁡p(z∣x,θt+1)p(z∣x,θt)dz=−KL(p(z∣x,θt)∣∣p(z∣x,θt+1))≤0int_z pleft(z mid x, theta^tright) cdot log frac{pleft(z mid x, theta^{t+1}right)}{pleft(z mid x, theta^tright)} mathrm{d} z=-K Lleft(pleft(z mid x, theta^tright)|| pleft(z mid x, theta^{t+1}right)right) leq 0$

因此得证 $theta^{t+1}right)-log pleft(x mid theta^tright) geq 0$ 。这说明使用EM算法迭代更新参数可以使得 $lo g p (x ∣ θ)$ 逐步增大。

另外还有其他定理保证了EM的算法收敛性。首先对于 $)theta^i(i=1,2, cdots)$ 序列和其对应的对数似然序列 $)Lleft(theta^tright)=log pleft(x mid theta^tright)(t=1,2, cdots)$ 有如下定理:

①如果 $p (x ∣ θ)$ 有上界，则 $L(θt)=log⁡p(x∣θt)Lleft(theta^tright)=log pleft(x mid theta^tright)$ 收敛到某一值 $L^*$ ；
②在函数 $theta^{prime}right)$ 与 $L (θ)$ 满足一定条件下，由EM算法得到的参数估计序列 $θttheta^t$ 的收敛值 $θ∗theta^*$ 是 $L (θ)$ 的稳定点。

三、EM算法的导出

ELBO+KL散度的方法

对于前面用过的式子，首先引入一个新的概率分布 $q (z)$ ：

$)\ =log; frac {p(x,z|theta )}{q(z)}-log; frac{p(z|x,theta )}{q(z)}; ; q(z)neq 0$

以上引入一个关于 $z$ 的概率分布 $q (z)$ ，然后式子两边同时求对 $q (z)$ 的期望：

$_{z}q(z)cdot log; p(x|theta )mathrm{d}z=log; p(x|theta )int _{z}q(z)mathrm{d}z=log; p(x|theta )\ 右边=underset{ELBO(evidence; lower; bound)}{underbrace{int _{z}q(z)log; frac{p(x,z|theta )}{q(z)}mathrm{d}z}}underset{KL(q(z)||p(z|x,theta ))}{underbrace{-int _{z}q(z)log; frac{p(z|x,theta )}{q(z)}mathrm{d}z}}$

因此我们得出 $lo g p (x ∣ θ) = E L BO + K L (q ∥ p)$ ，由于KL散度恒 $\geq 0$ ，因此 $lo g p (x ∣ θ) \geq E L BO$ ，则 $E L BO$ 就是似然函数 $lo g p (x ∣ θ)$ 的下界。使得 $lo g p (x ∣ θ) = E L BO$ 时，就必须有 $K L (q ∥ p) = 0$ ，也就是 $q (z) = p (z ∣ x, θ)$ 时。在

每次迭代中我们取 $theta^tright)$ ，就可以保证 $theta^tright)$ 与 $E L BO$ 相等，也就是:

$_{z}p(z|x,theta ^{t})log; frac {p(x,z|theta )}{p(z|x,theta ^{t})}mathrm{d}z}}underset{KL(p(z|x,theta ^{t})||p(z|x,theta ))}{underbrace{-int _{z}p(z|x,theta ^{t})log; frac{p(z|x,theta )}{p(z|x,theta ^{t})}mathrm{d}z}}$

当 $θ=θttheta=theta^t$ 时， $theta^tright)$ 取ELBO，即:

$^{t})=underset{ELBO}{underbrace{int _{z}p(z|x,theta ^{t})log; frac{p(x,z|theta ^{t})}{p(z|x,theta ^{t})}mathrm{d}z}}underset{=0}{underbrace{-int _{z}p(z|x,theta ^{t})log; frac{p(z|x,theta ^{t})}{p(z|x,theta ^{t})}mathrm{d}z}}=ELBO$

也就是说 $lo g p (x ∣ θ)$ 与 $E L BO$ 都是关于 $θ$ 的函数，且满足 $lo g p (x ∣ θ) \geq E L BO$ ，也就是说 $lo g p (x ∣ θ)$ 的图像总是在 $E L BO$ 的图像的上面。

对于 $q (z)$ ，我们取 $theta^tright)$ ，这也就保证了只有在 $θ=θttheta=theta^t$ 时 $lo g p (x ∣ θ)$ 与 $E L BO$ 才会相等，因此使 $E L BO$ 取极大值的 $θt+1theta^{t+1}$ 一定能使得 $theta^{t+1}right) geq log pleft(x mid theta^tright)$ 。该过程如下图所示:

EM算法介绍及其应用领域

然后我们观察一下 $E L BO$ 取极大值的过程：

$^{t+1}=underset{theta }{argmax}ELBO \ =underset{theta }{argmax}int _{z}p(z|x,theta ^{t})log; frac{p(x,z|theta )}{p(z|x,theta ^{t})}mathrm{d}z\ =underset{theta }{argmax}int _{z}p(z|x,theta ^{t})log; p(x,z|theta )mathrm{d}z-underset{与theta 无关}{underbrace{underset{theta }{argmax}int _{z}p(z|x,theta ^{t})p(z|x,theta ^{t})mathrm{d}z}}\ {color{Red}{=underset{theta }{argmax}int _{z}p(z|x,theta ^{t})log; p(x,z|theta )mathrm{d}z}} \ {color{Red}{=underset{theta }{argmax}E_{z|x,theta ^{t}}[log; p(x,z|theta )]}}$

由此我们就导出了EM算法的迭代公式。

ELBO+Jensen不等式的方法

首先要具体介绍一下Jensen不等式：对于一个凹函数 $f (x)$ （国内外对凹凸函数的定义恰好相反，这里的凹函数指的是国外定义的凹函数)，我们查看其图像如下：

EM算法介绍及其应用领域

$[0,1]\ c=ta+(1-t)b\ phi =tf(a)+(1-t)f(b)$

凹函数恒有 $f (c) \geq ϕ ＼ ma t h r m ，也就是 f (t a + (1 - t) b) \geq t f (a) + (1 - t) f (b)$ ，当 $t=12t=frac{1}{2}$ 时有 $f(a2+b2)≥f(a)2+f(b)2fleft(frac{a}{2}+frac{b}{2}right) geq frac{f(a)}{2}+frac{f(b)}{2}$ ，可以理解为对于凹函数来说 先求期望再求函数值 恒 $\geq$ 先求函数值再求期望，即 $f (E) \geq E [f]$ 。

上面的说明只是对Jensen不等式的一个形象的描述，而非严谨的证明。接下来应用Jensen不等式来导出EM算法:

$int_z p(x, z mid theta) mathrm{d} z \ =log int_z frac{p(x, z mid theta)}{q(z)} cdot q(z) mathrm{d} z \ =log E_{q(z)}left[frac{p(x, z mid theta)}{q(z)}right] \ geq underbrace{E_{q(z)}left[log frac{p(x, z mid theta)}{q(z)}right]}_{E L B O} end{gathered}$

这里应用了Jensen不等式得到了上面出现过的 $E L BO$ ，这里的 $f (x)$ 函数也就是 $lo g$ 函数，显然这是一个凹函数。当 $log⁡P(x,z∣θ)q(z)log frac{P(x, z mid theta)}{q(z)}$ 这个函数是一个常数时会取得等号，利用这一点我们也同样可以得到 $q (z) = p (z ∣ x, θ)$ 时能够使得 $lo g p (x ∣ θ) = E L BO$ 的结论:

$)}{q(z)}=C\ Rightarrow q(z)=frac{p(x,z|theta )}{C}\ Rightarrow int _{z}q(z)mathrm{d}z=int _{z}frac{1}{C}p(x,z|theta )mathrm{d}z\ Rightarrow 1=frac{1}{C}int _{z}p(x,z|theta )mathrm{d}z\ Rightarrow C=p(x|theta )\ 将C代入q(z)=frac{p(x,z|theta )}{C}得\ {color{Red}{q(z)=frac{p(x,z|theta )}{p(x|theta )}=p(z|x,theta )}}$

这种方法到这里就和上面的方法一样了，总结来说就是：

$underset{ELBO}{underbrace{E_{q(z)}[logfrac{p(x,z|theta )}{q(z)}]}}$

上面的不等式在 $q (z) = p (z ∣ x ∣ θ)$ 时取等号，因此在迭代更新过程中取 $^{t})$ 接下来的推导过程就和第1种方法一样了。

四、广义EM算法

上面介绍的EM算法属于狭义的EM算法，它是广义EM的一个特例。在上面介绍的EM算法的E步中我们假定 $^{t})$ ，但是如果这个后验 $^{t})$ 无法求解，那么必须使⽤采样（MCMC)或者变分推断等⽅法来近似推断这个后验。前面我们得出了以下关系：

$theta)=int_z q(z) log frac{p(x, z mid theta)}{q(z)} mathrm{d} z-int_z q(z) log frac{p(z mid x, theta)}{q(z)} mathrm{d} z=E L B O+K L(q | p)$

当我们对于固定的 $θ$ ，我们希望 $K L (q ∥ p)$ 越小越好，这样就能使得 $E L BO$ 更大:

$固定θ,q^=argmin⁡qKL(q∥p)=argmax⁡qELBO固定 theta, hat{q}=underset{q}{operatorname{argmin}} K L(q | p)=underset{q}{operatorname{argmax}} E L B O$

$E L BO$ 是关于 $q$ 和 $θ$ 的函数，写作 $L (q, θ)$ 。以下是广义EM算法的基本思路:

E step: $qt+1=argmax⁡L(q,θt)q^{t+1}=operatorname{argmax} Lleft(q, theta^tright)$
M step: $θt+1=argmax⁡qL(qt+1,θ)theta^{t+1}=underset{q}{operatorname{argmax}} Lleft(q^{t+1}, thetaright)$

再次观察一下 $E L BO$ :

$)=E_{q}[log; p(x,z)-log; q]\ =E_{q}[log; p(x,z)]underset{H[q]}{underbrace{-E_{q}[log; q]}}$

因此，我们看到，⼴义 EM 相当于在原来的式⼦中加⼊熵 $H [q]$ 这⼀项。

五、EM的变种

EM 算法类似于坐标上升法，固定部分坐标，优化其他坐标，再⼀遍⼀遍的迭代。如果在 EM 框架中，⽆法求解 $z$ 后验概率，那么需要采⽤⼀些变种的 EM 来估算这个后验：

①基于平均场的变分推断，VBEM/VEM

②基于蒙特卡洛的EM，MCEM

“开启掘金成长之旅！这是我参与「掘金日新计划 · 2 月更文挑战」的第 8 天，点击查看活动详情”

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

EM算法介绍及其应用领域

一、概述

二、EM算法的收敛性

三、EM算法的导出

四、广义EM算法

五、EM的变种

深度学习硬件的发展历程及未来趋势

微软Build 2023中的Windows Copilot引领PC交互革命

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

一、概述

二、EM算法的收敛性

三、EM算法的导出

四、广义EM算法

五、EM的变种

深度学习硬件的发展历程及未来趋势

微软Build 2023中的Windows Copilot引领PC交互革命

机器学习算法大揭秘：从线性回归到集成学习

机器学习超参数调优的方法和实战

XGBoost算法简介

HTE模型和XAI结合是否也是一种落地方式