释放双眼，带上耳机，听听看~！

本文介绍了机器学习理论导引中的预备知识、泛化界等内容，以及随机优化算法和监督学习的相关方法。

《机器学习理论导引》笔记目录

第一章 : 预备知识
- 第一章 : 预备知识(上)
- 第一章 : 预备知识(下)
第二章 : 可学性
第三章 : 复杂度
第四章 : 泛化界
第五章 : 稳定性
第六章 : 一致性
- 第六章 : 一致性(上)
- 第六章 : 一致性(下)
第七章 : 收敛率
- 第七章 : 收敛率(上)
- 第七章 : 收敛率(下)
第八章 : 遗憾界
- 第八章 : 遗憾界(上)
- 第八章 : 遗憾界(下)

0 感言

感觉这章整体而言自己理解得并不充分，更多像是把周老师的教材进行打印，之后有时间我会重新进行整理的。

7.3 随机优化

7.3.1 凸函数

下给出随机优化的代表性算法——随机梯度下降法 (Stochastic Gradient Descent，SGD) 的流程。

机器学习理论导引

其中要求 $wtboldsymbol{w}_t$ 的随机梯度 $gtboldsymbol{g}_t$ 是真实梯度 $f(boldsymbol{w}_t)$ 的无偏估计，即 :

$E[gt]=∇f(wt)mathbb{E}[boldsymbol{g}_t] = nabla f(boldsymbol{w}_t)$

上述方法非常适合机器学习问题。下面以监督学习为例，监督学习的最终目标是最小化泛化风险，令数据分布为 $D$ ，可以用风险最小化 (Risk Minimization) 的方法来描述监督学习的目标 :

$_{boldsymbol{w} in mathcal{W}} f(boldsymbol{w})=mathbb{E}_{boldsymbol{z} sim mathcal{D}}[ell(boldsymbol{w}, boldsymbol{z})]$

其中 $z \in D$ 表示 $z$ 是从数据分布 $D$ 中采样获得， $ℓ (\cdot, \cdot)$ 为损失函数，但是在现实场景中很难直接获得真实的数据分布 $D$ ，因此经常采用经验风险最小化 (Empirical Risk Minimization，ERM) 的方法来近似风险最小化的目标 : 从数据分布 $D$ 中采样获得 $m$ 个样本 $,zm,∀zi=(xi,yi)boldsymbol{z}_1,boldsymbol{z}_2,cdots,boldsymbol{z}_m,forall boldsymbol{z}_i=(boldsymbol{x}_i,y_i)$ ， $xiboldsymbol{x}_i$ 为样本特征， $y_i$ 为样本标记，然后用这 $n$ 个样本来近似风险最小化的目标 :

$min⁡w∈Wf(w)=1m∑i=1mℓ(w,zi)min_{boldsymbol{w} in mathcal{W}} f(boldsymbol{w})=frac{1}{m} sum_{i=1}^{m} ell(boldsymbol{w}, boldsymbol{z}_i)$

当 $m$ 很大的时候计算代价很高，因此采用随机梯度下降法 (Stochastic Gradient Descent，SGD) 来近似风险最小化的目标，将上述算法中第 3 步改为下式即可 :

$wt+1′=wt−ηt∇ℓ(wt,zt)boldsymbol{w}_{t+1}’=boldsymbol{w}_{t}-eta_{t}nabla ellleft(boldsymbol{w}_{t}, boldsymbol{z}_{t}right)$

其中 $ztboldsymbol{z}_t$ 表示从数据分布 $D$ 中随机采样获得的样本，从上面的描述可以看出随机梯度下降每轮迭代只需要利用 1 个样本。而对于一般的 Lipschitz 连续凸函数，随机梯度下降法的收敛速度为 $O(1T)O(frac{1}{sqrt{T}})$ ，具体有如下定理 :

定理 7.4 随机梯度下降收敛率 假设目标函数的随机梯度有上界，且可行域有界，则随机梯度下降的收敛率为 $O(1T)O(frac{1}{sqrt{T}})$ 。

证明假设随机梯度上界为 $l$ ，可行域 $W$ 直径为 $Γ$ ，即对于任意 $t \in [T], u, v \in W$

$left|mathbf{g}_tright| leqslant l \ |boldsymbol{u}-boldsymbol{v}| leqslant Gamma end{array}$

同样为了简化分析，考虑固定的步长 $ηt=ηeta_t=eta$ ，则对于任意的 $w \in W$ ，

$fleft(boldsymbol{w}_tright)-f(boldsymbol{w}) \ & leqslantleftlanglenabla fleft(boldsymbol{w}_tright), boldsymbol{w}_t-boldsymbol{w}rightrangle=leftlanglemathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle+leftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle \ & =frac{1}{eta}leftlangleboldsymbol{w}_t-boldsymbol{w}_{t+1}^{prime}, boldsymbol{w}_t-boldsymbol{w}rightrangle+leftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle \ & =frac{1}{2 eta}left(left|boldsymbol{w}_t-boldsymbol{w}right|^2-left|boldsymbol{w}_{t+1}^{prime}-boldsymbol{w}right|^2+left|boldsymbol{w}_t-boldsymbol{w}_{t+1}^{prime}right|^2right)+leftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle \ & =frac{1}{2 eta}left(left|boldsymbol{w}_t-boldsymbol{w}right|^2-left|boldsymbol{w}_{t+1}^{prime}-boldsymbol{w}right|^2right)+frac{eta}{2}left|mathbf{g}_tright|^2+leftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle \ &quadtext{(利用}left|Pi_{mathcal{W}}(boldsymbol{x})-Pi_{mathcal{W}}(boldsymbol{z})right| leqslant|boldsymbol{x}-boldsymbol{z}|, quad forall boldsymbol{x}, boldsymbol{z}) \ & leqslant frac{1}{2 eta}left(left|boldsymbol{w}_t-boldsymbol{w}right|^2-left|boldsymbol{w}_{t+1}-boldsymbol{w}right|^2right)+frac{eta}{2}left|mathbf{g}_tright|^2+leftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle \ & leqslant frac{1}{2 eta}left(left|boldsymbol{w}_t-boldsymbol{w}right|^2-left|boldsymbol{w}_{t+1}-boldsymbol{w}right|^2right)+frac{eta}{2} l^2+leftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle end{aligned}$

对上面的不等式从 $t = 1$ 到 $t = T$ 求和，得到

$sum_{t=1}^T fleft(boldsymbol{w}_tright)-T f(boldsymbol{w}) \ & quad leqslant frac{1}{2 eta}left(left|boldsymbol{w}_1-boldsymbol{w}right|^2-left|boldsymbol{w}_{T+1}-boldsymbol{w}right|^2right)+frac{eta T}{2} l^2+sum_{t=1}^Tleftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle \ & quad leqslant frac{1}{2 eta}left|boldsymbol{w}_1-boldsymbol{w}right|^2+frac{eta T}{2} l^2+sum_{t=1}^Tleftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle \ & quad leqslant frac{1}{2 eta} Gamma^2+frac{eta T}{2} l^2+sum_{t=1}^Tleftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle end{aligned}$

最后，依据 Jensen 不等式，有

$fleft(overline{boldsymbol{w}}_Tright)-f(boldsymbol{w}) & =fleft(frac{1}{T} sum_{t=1}^T boldsymbol{w}_tright)-f(boldsymbol{w}) \ & leqslant frac{1}{T} sum_{t=1}^T fleft(boldsymbol{w}_tright)-f(boldsymbol{w}) \ & leqslant frac{Gamma^2}{2 eta T}+frac{eta l^2}{2}+frac{1}{T} sum_{t=1}^Tleftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle end{aligned}$

可以看出，上式与章节 7.2.1 中梯度下降分析的结果的区别在于多了一项 $sum_{t=1}^Tleftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle$

下面证明随机梯度下降算法期望意义上的收敛率，利用 $wtboldsymbol{w}_t$ 的随机梯度 $gtboldsymbol{g}_t$ 是真实梯度 $f(boldsymbol{w}_t)$ 的无偏估计，有

$&mathbb{E}left[sum_{t=1}^Tlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rangleright] \ =&mathbb{E}left[sum_{t=1}^Tlanglenabla fleft(boldsymbol{w}_tright), boldsymbol{w}_t-boldsymbol{w}rangleright]-mathbb{E}left[sum_{t=1}^Tlanglemathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rangleright] \ =&sum_{t=1}^Tleft[mathbb{E}left[langlenabla fleft(boldsymbol{w}_tright), boldsymbol{w}_t-boldsymbol{w}rangleright]-mathbb{E}left[langlemathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rangleright]right] \ =&sum_{t=1}^Tleft[mathbb{E}left[langlemathbb{E}left[mathbf{g}_tright], boldsymbol{w}_t-boldsymbol{w}rangleright]-mathbb{E}left[langlemathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rangleright]right] \ =&sum_{t=1}^Tleft[mathbb{E}left[mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rangleright]-mathbb{E}left[langlemathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rangleright]right] \ =&0 end{aligned}$

对于上面的不等式求期望有

$E[f(w‾T)]−f(w)⩽Γ22ηT+ηl22=lΓTmathbb{E}left[fleft(overline{boldsymbol{w}}_Tright)right]-f(boldsymbol{w}) leqslant frac{Gamma^2}{2 eta T}+frac{eta l^2}{2}=frac{l Gamma}{sqrt{T}}$

其中令 $η = Γ/ (l T)$

前面的分析证明了从期望意义上的收敛率，为了分析随机梯度下降算法的理论保障，将利用针对鞅差序列的 Azuma 不等式，利用 $wtboldsymbol{w}_t$ 的随机梯度 $gtboldsymbol{g}_t$ 是真实梯度 $f(boldsymbol{w}_t)$ 的无偏估计，可知 $f(boldsymbol{w}_1)-g_1,boldsymbol{w}_1-boldsymbol{w}rangle,ldots$ 组成一个鞅差序列，有

$fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangleright| & leqslantleft|nabla fleft(boldsymbol{w}_tright)-mathbf{g}_tright|left|boldsymbol{w}_t-boldsymbol{w}right| \ & leqslant Gammaleft(left|nabla fleft(boldsymbol{w}_tright)right|+left|boldsymbol{g}_tright|right) leqslant 2 l Gamma end{aligned}$

上式的推导过程中利用了 Jensen 不等式获得 $f(boldsymbol{w}_t)rVert$ 的上界

$fleft(boldsymbol{w}_tright)right|=left|mathbb{E}left[mathbf{g}_tright]right| leqslant mathbb{E}left[left|mathbf{g}_tright|right] leqslant l$

根据 Azuma 不等式推论 $P(∑i=1mXi⩾ϵ)⩽e−ϵ2/2∑i=1mci2Pleft(sum_{i=1}^m X_i geqslant epsilonright) leqslant e^{-epsilon^2 / 2 sum_{i=1}^m c_i^2}$ ，以至少 $1 - δ$ 的概率有

$∑t=1T⟨∇f(wt)−gt,wt−w⟩⩽2lΓ2Tlog⁡1δsum_{t=1}^Tleftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}rightrangle leqslant 2 l Gamma sqrt{2 T log frac{1}{delta}}$

将上式代入前面的不等式，以至少 $1 - δ$ 的概率有

$fleft(overline{boldsymbol{w}}_Tright)-f(boldsymbol{w}) & leqslant frac{Gamma^2}{2 eta T}+frac{eta l^2}{2}+2 l Gamma sqrt{frac{2}{T} log frac{1}{delta}}\&=frac{l Gamma}{sqrt{T}}left(1+2 sqrt{2 log frac{1}{delta}}right) =Oleft(frac{1}{sqrt{T}}right) end{aligned}$

7.3.2 强凸函数

为了处理强凸函数，引入阶段随机梯度下降 (Epoch-GD) 算法，其流程如下 :

机器学习理论导引

若目标函数 $f : W \mapsto R$ 是 $λ$ -强凸的，在期望意义上的 Epoch-GD 的额外风险界为 $O (1/ [λ T])$ ，下进行相关证明

引理 7.1 将 Epoch-GD 的参数设置为 $T_1=4$ 和 $η1=1/λeta_1=1/lambda$ ， $l$ 为随机梯度的上界，令 $Δk=f(w1k)−f(w∗),Vk=l2/(λ2k−2)Delta_k=f(boldsymbol{w}_1^k)-f(boldsymbol{w}^*),V_k=l^2/(lambda2^{k-2})$ ，对于任意的 $k$

$E[Δk]⩽Vkmathbb{E}left[Delta_kright] leqslant V_k$

证明当随机梯度的上界为 $l$ 时，根据先前推论 $fleft(boldsymbol{w}_tright)right|=left|mathbb{E}left[mathbf{g}_tright]right| leqslant mathbb{E}left[left|mathbf{g}_tright|right] leqslant l$ 可知，真实梯度的上界也为 $l$ 。因此，定理 7.2 成立。然后易知下面式子成立 :

$T_k & =frac{8 l^2}{lambda V_k}=2^{k+1} \ eta_k & =frac{V_k}{2 l^2}=frac{1}{lambda 2^{k-1}} end{aligned}$

下使用数学归纳法来进行证明

当 $k = 1$ 时，引理成立 :

$mathbb{E}left[Delta_1right]=mathbb{E}left[fleft(boldsymbol{w}_1^1right)-fleft(boldsymbol{w}^*right)right] leqslant frac{2 l^2}{lambda}=frac{l^2}{lambda 2^{1-2}}=V_1$
假设对于某正整数 $k ⩾ 1$ ，引理仍成立 $E[Δk]⩽Vk=l2/(λ2k−2)mathbb{E}left[Delta_kright] leqslant V_k=l^2/(lambda2^{k-2})$
对于正整数 $k + 1$ ，令 $Ek[X]mathbb{E}_k[X]$ 为前 $k$ 轮的期望，则有

$mathbb{E}_kleft[fleft(boldsymbol{w}_1^{k+1}right)right]-fleft(boldsymbol{w}^*right) & leqslant frac{eta_k l^2}{2}+frac{left|boldsymbol{w}^*-boldsymbol{w}_1^kright|^2}{2 eta_k T_k} \ & leqslant frac{eta_k l^2}{2}+frac{Delta_k}{eta_k T_k lambda} . end{aligned}$

因此， $k + 1$ 的时候情况也成立 :

$mathbb{E}left[Delta_{k+1}right] & leqslant frac{eta_k l^2}{2}+frac{mathbb{E}left[Delta_kright]}{eta_k T_k lambda} \ & leqslant frac{eta_k l^2}{2}+frac{l^2}{2^{k-2} eta_k T_k lambda^2}=frac{l^2}{2^{k-1} lambda} end{aligned}$

引理得证。

定理 7.5 Epoch-GD 的收敛率 当目标函数 $f (\cdot)$ 为 $λ$ -强凸时，Epoch-GD 期望意义上的收敛率为 $O(1T)O(frac{1}{T})$ 。

证明 Epoch-GD 外层循环的轮数，是由满足 $∑i=1kTi⩽Tsum_{i=1}^kT_ileqslant T$ 的最大 $k$ 决定的。由于

$∑i=1k2i−1T1=(2k−1)T1⩽Tsum_{i=1}^k 2^{i-1} T_1=left(2^k-1right) T_1 leqslant T$

因此，最后一轮迭代的轮数 $k†=⌊log⁡2(T/T1+1)⌋k^{dagger}=leftlfloorlog _2left(T / T_1+1right)rightrfloor$ ，而算法的最后输出是 $w1k†+1boldsymbol{w}_1^{k^{dagger}+1}$ ，根据引理 7.1，有

$mathbb{E}left[fleft(boldsymbol{w}_1^{k^{dagger}+1}right)right]&-fleft(boldsymbol{w}^*right) =mathbb{E}left[Delta_{k^{dagger}+1}right] \ & leqslant V_{k^{dagger}+1}=frac{l^2}{2^{k^{dagger}-1} lambda} \ & leqslant frac{16 l^2}{lambda T}=Oleft(frac{1}{lambda T}right) end{aligned}$

定理得证。

定理 7.6 针对鞅的 Bernstein 不等式 假设 $X1,…,XnX_1,ldots,X_n$ 是定义在 $f=(fi)1⩽i⩽nf=(f_i)_{1leqslant ileqslant n}$ 上的有界鞅差分序列，且满足 $∣Xi∣⩽Mleft|X_iright|leqslant M$ ，令

$Si=∑j=1iXjS_i=sum_{j=1}^i X_j$

为对应的鞅，将条件方差 (conditional variance) 记为

$Vn2=∑t=1nE[δt2∣ft−1]V_n^2=sum_{t=1}^n mathbb{E}left[delta_t^2 mid f_{t-1}right]$

那么对于任意的正数 $t$ 和 $v$ ，有

$_{i=1, ldots, n} S_i>t text { and } V_n^2 leqslant nuright) leqslant exp left(-frac{t^2}{2(nu+K t / 3)}right)$

因此可以得到

$_i S_i>sqrt{2 nu tau}+frac{2}{3} K tau text { and } V_n^2 leqslant nuright) leqslant e^{-tau}$

分析内层循环的随机梯度下降在强凸函数下的收敛性质，有以下引理 :

引理 7.2 假设随机梯度上界为 $l$ ，目标函数 $f (\cdot)$ 为 $λ$ -强凸。运行 $T$ 轮的随机梯度下降更新

$wt+1=ΠW(wt−ηgt)boldsymbol{w}_{t+1}=Pi_{mathcal{W}}left(boldsymbol{w}_t-eta mathbf{g}_tright)$

其中 $gtmathbf{g}_t$ 是函数 $f (\cdot)$ 在 $wtboldsymbol{w}_t$ 处的随机梯度，以至少 $1 - δ$ 的概率有

$∑t=1Tf(wt)−Tf(w∗)⩽ηTl22+∥w1−w∗∥22η+4l2λ(1+83log⁡mδ)sum_{t=1}^T fleft(boldsymbol{w}_tright)-T fleft(boldsymbol{w}^*right) leqslant frac{eta T l^2}{2}+frac{left|boldsymbol{w}_1-boldsymbol{w}^*right|^2}{2 eta}+frac{4 l^2}{lambda}left(1+frac{8}{3} log frac{m}{delta}right)$

其中 $m=⌈2log⁡2T⌉m=lceil2log_2Trceil$

证明由于 $f (\cdot)$ 是强凸的，因此

$fleft(boldsymbol{w}_tright)-fleft(boldsymbol{w}^*right) & leqslantleftlanglenabla fleft(boldsymbol{w}_tright), boldsymbol{w}_t-boldsymbol{w}^*rightrangle-frac{lambda}{2}left|boldsymbol{w}_t-boldsymbol{w}^*right|^2 \ & =leftlanglemathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}^*rightrangle+leftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}^*rightrangle-frac{lambda}{2}left|boldsymbol{w}_t-boldsymbol{w}^*right|^2 end{aligned}$

对其从 $t = 1$ 到 $T$ 进行求和，有

$sum_{t=1}^T fleft(boldsymbol{w}_tright)- & T fleft(boldsymbol{w}^*right) leqslant frac{eta T l^2}{2}+frac{left|boldsymbol{w}_1-boldsymbol{w}^*right|^2}{2 eta} \ & +sum_{t=1}^Tleftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}^*rightrangle-frac{lambda}{2} sum_{t=1}^Tleft|boldsymbol{w}_t-boldsymbol{w}^*right|^2 end{aligned}$

定义鞅差序列

$δt=⟨∇f(wt)−gt,wt−w∗⟩delta_t=leftlanglenabla fleft(boldsymbol{w}_tright)-mathbf{g}_t, boldsymbol{w}_t-boldsymbol{w}^*rightrangle$

为了得到 $∑tδtsum_tdelta_t$ 的上界，将利用剥离技术 (peeling technique) 和针对鞅的 Bernstein 不等式。首先，注意到上面的鞅差序列是有界的 :

$left|delta_tright| &leqslantleft|nabla fleft(boldsymbol{w}_tright)-mathbf{g}_tright|left|boldsymbol{w}_t-boldsymbol{w}^*right| leqslant 2 l frac{2 l}{lambda}=frac{4 l^2}{lambda}\ text{定义}&quad A_T=sum_{t=1}^Tleft|boldsymbol{w}_t-boldsymbol{w}^*right|^2 leqslant frac{4 l^2 T}{lambda^2} end{aligned}$

对于条件方差，下面的不等式成立 :

$VT2=∑t=1TEt−1[δt2]⩽4l2∑t=1T∥wt−w∗∥2=4l2ATV_T^2=sum_{t=1}^T mathbb{E}_{t-1}left[delta_t^2right] leqslant 4 l^2 sum_{t=1}^Tleft|boldsymbol{w}_t-boldsymbol{w}^*right|^2=4 l^2 A_T$

当 $AT⩽4l2λ2TA_T leqslant frac{4 l^2}{lambda^2 T}$ 时
$∑t=1Tδt⩽2l∑t=1T∥wt−w∗∥⩽2lT∑t=1T∥wt−w∗∥2⩽4l2λsum_{t=1}^T delta_t leqslant 2 l sum_{t=1}^Tleft|boldsymbol{w}_t-boldsymbol{w}^*right| leqslant 2 l sqrt{T} sqrt{sum_{t=1}^Tleft|boldsymbol{w}_t-boldsymbol{w}^*right|^2} leqslant frac{4 l^2}{lambda}$
当 $AT∈(4l2λ2T,4l2Tλ2]A_T inleft(frac{4 l^2}{lambda^2 T}, frac{4 l^2 T}{lambda^2}right]$ 时，分解成 $m=⌈2log⁡2T⌉m=lceil2log_2Trceil$ 种可能，即
$AT∈(2i−14l2λ2T,2i4l2λ2T],i=1,…,⌈2log⁡2T⌉A_T inleft(2^{i-1} frac{4 l^2}{lambda^2 T}, 2^i frac{4 l^2}{lambda^2 T}right], i=1, ldots,leftlceil 2 log _2 Trightrceil$

综合上面两种情况，通过一系列变换可以证明

$Pleft(sum_{t=1}^T delta_t geqslant 2 sqrt{4 l^2 A_T tau}+frac{2}{3} frac{4 l^2}{lambda} tau+frac{4 l^2}{lambda}right) \ =& Pleft(sum_{t=1}^T delta_t geqslant 2 sqrt{4 l^2 A_T tau}+frac{2}{3} frac{4 l^2}{lambda} tau+frac{4 l^2}{lambda}, A_T leqslant frac{4 l^2}{lambda^2 T}right) \ +&Pleft(sum_{t=1}^T delta_t geqslant 2 sqrt{4 l^2 A_T tau}+frac{2}{3} frac{4 l^2}{lambda} tau+frac{4 l^2}{lambda}, frac{4 l^2}{lambda^2 T}<A_T leqslant frac{4 l^2 T}{lambda^2}right)\ =& Pleft(sum_{t=1}^T delta_t geqslant 2 sqrt{4 l^2 A_T tau}+frac{2}{3} frac{4 l^2}{lambda} tau+frac{4 l^2}{lambda}, V_T^2 leqslant 4 l^2 A_T, frac{4 l^2}{lambda^2 T}<A_T leqslant frac{4 l^2 T}{lambda^2}right) \ &qquadtext{(利用上面的分解)}\ leqslant& sum_{i=1}^m Pleft(sum_{t=1}^T delta_t geqslant 2 sqrt{4 l^2 A_T tau}+frac{2}{3} frac{4 l^2}{lambda} tau+frac{4 l^2}{lambda}, right. \ &qquad left.V_T^2 leqslant 4 l^2 A_T,frac{4 l^2}{lambda^2 T} 2^{i-1}<A_T leqslant frac{4 l^2}{lambda^2 T} 2^iright) \ &qquadtext{(利用 } A_T text{ 的上下界来化简不等式)}\ leqslant & sum_{i=1}^m Pleft(sum_{t=1}^T delta_t geqslant sqrt{2 frac{16 l^4 2^i}{lambda^2 T} tau}+frac{2}{3} frac{4 l^2}{lambda} tau, V_T^2 leqslant frac{16 l^4 2^i}{lambda^2 T}right] \ &qquadtext{(利用定理 7.6)}\ leqslant & m e^{-tau} end{aligned}$

然后令 $τ=log⁡mδ=log⁡⌈2log⁡2T⌉δtau=logfrac{m}{delta}=logfrac{lceil2log_2Trceil}{delta}$ 可得，以至少 $1 - δ$ 的概率有

$∑t=1Tδt⩽24l2ATlog⁡mδ+8l23λlog⁡mδ+4l2λsum_{t=1}^T delta_t leqslant 2 sqrt{4 l^2 A_T log frac{m}{delta}}+frac{8 l^2}{3 lambda} log frac{m}{delta}+frac{4 l^2}{lambda}$

将其代入上面的累加式，以至少 $1 - δ$ 的概率有

$sum_{t=1}^T fleft(boldsymbol{w}_tright)-T fleft(boldsymbol{w}^*right) \ & leqslant frac{eta T l^2}{2}+frac{left|boldsymbol{w}_1-boldsymbol{w}^*right|^2}{2 eta}+2 sqrt{4 l^2 A_T log frac{m}{delta}}+frac{8 l^2}{3 lambda} log frac{m}{delta}+frac{4 l^2}{lambda}-frac{lambda}{2} A_T \ & leqslant frac{eta T l^2}{2}+frac{left|boldsymbol{w}_1-boldsymbol{w}^*right|^2}{2 eta}+frac{32 l^2}{3 lambda} log frac{m}{delta}+frac{4 l^2}{lambda} end{aligned}$

引理得证。

利用引理 7.2 分析 Epoch-GD 外层循环的性质，得到如下引理 :

引理 7.3 令 $δ \in (0, 1)$ 表示失败的概率，定义

$=frac{delta}{k^{dagger}} \ k^{dagger} & =leftlfloorlog _2left(frac{2 T}{alpha}+1right)rightrfloor end{aligned}$

其中 $α$ 为满足以下条件的最小偶数

$_2left(frac{T}{12}+1right)rightrfloorleftlceil 2 log _2 Trightrceil}{delta}$

将 Epoch-GD 的参数设置为 $T1=α/2T_1=alpha/2$ 和 $η1=1/λeta_1=1/lambda$ ，对于任意的 $k$ ，以至少 $(1−δ~)k−1(1-tilde{delta})^{k-1}$ 的概率有

$Δk=f(w1k)−f(w∗)⩽Vk=l2λ2k−2Delta_k=fleft(boldsymbol{w}_1^kright)-fleft(boldsymbol{w}^*right) leqslant V_k=frac{l^2}{lambda 2^{k-2}}$

证明根据 $α$ 的满足条件可知， $α ⩾ 24$ ，因此

$k^{dagger} & leqslantleftlfloorlog _2left(frac{T}{12}+1right)rightrfloor \ tilde{delta} & =frac{delta}{k^{dagger}} geqslant frac{delta}{leftlfloorlog _2left(frac{T}{12}+1right)rightrfloor} end{aligned}$

由上式解出 $δ$ 代回，可得

$_2 Trightrceil}{tilde{delta}}$

对引理 7.1 中的部分推论进行改写

$Tk=8l2λVk=2k+1⇒Tk=αl2λVk=α2k−2T_k=frac{8 l^2}{lambda V_k}=2^{k+1}Rightarrow T_k=frac{alpha l^2}{lambda V_k}=alpha2^{k-2}$

继续使用数学归纳法

$k = 1$ 时，根据定理 7.2，命题显然成立
假设对于正整数 $k ⩾ 1$ ， $Δk⩽VkDelta_kleqslant V_k$ 以至少 $(1−δ~)k−1(1-tilde{delta})^{k-1}$ 的概率成立
考虑 $k + 1$ 时，结合定理 7.2，以至少 $(1−δ~)⋅(1−δ~)k−1=(1−δ~)k(1-tilde{delta})cdot(1-tilde{delta})^{k-1}=(1-tilde{delta})^{k}$ 的概率有

$Delta_{k+1} & =fleft(boldsymbol{w}_1^{k+1}right)-fleft(boldsymbol{w}^*right) \ & leqslant frac{1}{T_k} sum_{t=1}^{T_k} fleft(boldsymbol{w}_t^kright)-fleft(boldsymbol{w}^*right) \ & leqslant frac{eta_k l^2}{2}+frac{left|boldsymbol{w}_1^k-boldsymbol{w}^*right|^2}{2 eta_k T_k}+frac{1}{T_k}left(1+frac{8}{3} log frac{m_k}{tilde{delta}}right) frac{4 l^2}{lambda} \ & leqslant frac{eta_k l^2}{2}+frac{Delta_k}{eta_k T_k lambda}+frac{1}{T_k}left(1+frac{8}{3} log frac{m_k}{tilde{delta}}right) frac{4 l^2}{lambda} \ & leqslant frac{V_k}{4}+frac{2 V_k}{alpha}+frac{lambda V_k}{alpha l^2}left(1+frac{8}{3} log frac{m_k}{tilde{delta}}right) frac{4 l^2}{lambda} \ & =frac{V_k}{4}+frac{V_k}{alpha}left(6+frac{32}{3} log frac{m_k}{tilde{delta}}right) end{aligned}$

其中 $mk=⌈2log⁡2Tk⌉m_k=lceil2log_2T_krceil$ ，结合 $α$ 的限制，以至少 $(1−δ~)k(1-tilde{delta})^{k}$ 的概率有

$Δk+1⩽Vk2=Vk+1Delta_{k+1}leqslantfrac{V_k}{2}=V_{k+1}$

$k + 1$ 的时候递归成立，数学归纳法成立，命题得证。

定理 7.7 Epoch-GD 大概率情况下的收敛率 若目标函数 $f (\cdot)$ 为 $λ$ -强凸函数，Epoch-GD 以大概率取得 $O(log⁡log⁡TλT)O(frac{loglog T}{lambda T})$ 的收敛率

证明 Epoch-GD 外层循环的轮数，是由满足 $∑i=1kTi⩽Tsum_{i=1}^kT_ileqslant T$ 的最大 $k$ 决定的，由于

$∑i=1kTi=∑i=1kα2i−2=α2(2k−1)sum_{i=1}^k T_i=sum_{i=1}^k alpha 2^{i-2}=frac{alpha}{2}left(2^k-1right)$

因此，最后一轮迭代的轮数 $k†k^{dagger}$ 与引理 7.3 中的定义相吻合，算法最终输出是 $w1k†+1boldsymbol{w}^{k^{dagger}+1}_1$ 。根据引理 7.3，以至少 $(1−δ~)k†(1-tilde{delta})^{k^{dagger}}$ 的概率有

$fleft(boldsymbol{w}_1^{k^{dagger}+1}right)-fleft(boldsymbol{w}^*right) & =Delta_{k^{dagger}+1} \ & leqslant V_{k^{dagger}+1}=frac{l^2}{2^{k^{dagger}-1} lambda} leqslant frac{2 alpha l^2}{lambda T} end{aligned}$

然后，证明概率 $(1−δ~)k†>1−δ(1-tilde{delta})^{k^{dagger}}>1-delta$ ，由于函数 $(1−1x)x(1-frac{1}{x})^x$ 在 $x > 1$ 时是增函数，因此

$(1-tilde{delta})^{k^{dagger}}=left(1-frac{delta}{k^{dagger}}right)^{k^{dagger}} & =left(left(1-frac{1}{k^{dagger} / delta}right)^{k^{dagger} / delta}right)^delta \ & geqslantleft(left(1-frac{1}{1 / delta}right)^{1 / delta}right)^delta=1-delta end{aligned}$

由上面两式可知，以至少 $1 - δ$ 的概率有

$f(w1k†+1)−f(w∗)⩽2αl2λT=O(log⁡log⁡TλT)fleft(boldsymbol{w}_1^{k^{dagger}+1}right)-fleft(boldsymbol{w}^*right) leqslant frac{2 alpha l^2}{lambda T}=Oleft(frac{log log T}{lambda T}right)$

定理得证。

7.4 实例分析

7.4.1 支持向量机

首先引入如何使用确定优化方法来求解支持向量机 (Supporting Vector Machine, SVM) : 令 $(x1,y1),…,(xm,ym)(boldsymbol{x}_1,y_1),ldots,(boldsymbol{x}_m,y_m)$ 为 $m$ 个训练样本，其中 $xi∈Rd,yi∈{−1,+1}boldsymbol{x}_iinmathbb{R}^d,y_iin{-1,+1}$ ，支持向量机的优化问题为 :

$_{boldsymbol{w}} f(boldsymbol{w})=sum_{i=1}^m max left(0,1-y_i boldsymbol{w}^{mathrm{T}} boldsymbol{x}_iright) \ & text { s.t. }|boldsymbol{w}| leqslant Lambda end{aligned}$

由于 hinge 损失并不光滑，需要对梯度进行如下的计算替换，称之为次梯度 (sub-gradient) :

$=sum_{i=1}^m mathbf{g}_i, \ mathbf{g}_i & = begin{cases}-y_i boldsymbol{x}_i, & 1-y_i boldsymbol{w}^{mathrm{T}} boldsymbol{x}_i geqslant 0 \ 0, & 1-y_i boldsymbol{w}^{mathrm{T}} boldsymbol{x}_i<0 end{cases} end{aligned}$

由于目标函数是凸函数，可以将 7.2.1 节中的梯度下降算法来进行求解。具体如下 :

机器学习理论导引

根据定理 7.1 的分析，可以得到如下收敛率。

定理 7.8 优化支持向量机的收敛率 梯度下降求解支持向量机的收敛率为 $O(1T)O(frac{1}{sqrt{T}})$

证明假设 $∥xi∥⩽r,i∈[m]lVertboldsymbol{x}_irVertleqslant r,iin[m]$ ，根据定理 7.1 步长的设置依赖于梯度的上界，梯度上界为

$sum_{i=1}^mleft|y_i boldsymbol{x}_iright| leqslant m r$

可行域的直径为 $Γ = 2Λ$ ，根据定理 7.1，将步长设置为 $η = 2Λ/ (m r T)$ 有

$f(w‾T)−min⁡∥w∥⩽Λf(w)⩽2mrΛT=O(1T)fleft(overline{boldsymbol{w}}_Tright)-min _{|boldsymbol{w}| leqslant Lambda} f(boldsymbol{w}) leqslant frac{2 m r Lambda}{sqrt{T}}=Oleft(frac{1}{sqrt{T}}right)$

定理得证。

7.4.2 对率回归

给定训练数据集 $D={(x1,y1),…,(xm,ym)}D={(boldsymbol{x}_1,y_1),ldots,(boldsymbol{x}_m,y_m)}$ ，对率回归的优化问题如下 :

$_{boldsymbol{w}} f(boldsymbol{w})&=frac{1}{m} sum_{i=1}^m ln left(1+exp left(-y_i boldsymbol{w}^{mathrm{T}} boldsymbol{x}_iright)right) \ text { s.t. }&quad|boldsymbol{w}| leqslant Lambda end{aligned}$

为了计算随机梯度，将在每一轮均匀随机选择 1 个样本作为输入，将 $t$ 轮迭代选取的样本记为 $(xt,yt)(boldsymbol{x}_t,y_t)$ ，则 $f (\cdot)$ 在当前解 $wtboldsymbol{w}_t$ 处的随机梯度可以计算为

$gt=ytexp⁡(−ytwtTxt)1+exp⁡(−ytwiTxt)xtmathbf{g}_t=frac{y_t exp left(-y_t boldsymbol{w}_t^{mathrm{T}} boldsymbol{x}_tright)}{1+exp left(-y_t boldsymbol{w}_i^{mathrm{T}} boldsymbol{x}_tright)} boldsymbol{x}_t$
机器学习理论导引

根据定理 7.4 的分析，可以得到如下收敛率

定理 7.9 优化对率回归的收敛率 随机梯度下降求解对率回归的收敛率为 $O(1T)O(frac{1}{sqrt{T}})$

证明假设 $∥xi∥⩽r,i∈[m]lVertboldsymbol{x}_irVertleqslant r,iin[m]$ ，首先计算随机梯度的上界

$left(-y_t boldsymbol{w}_t^{mathrm{T}} boldsymbol{x}_tright)}{1+exp left(-y_t boldsymbol{w}_t^{mathrm{T}} boldsymbol{x}_tright)} y_t boldsymbol{x}_tright| leqslantleft|boldsymbol{x}_tright| leqslant r$

因为可行域的直径 $Γ = 2Λ$ ，依据定理 7.4，调整步长为 $η = 2Λ/ (r T)$ ，则以至少 $1 - δ$ 的概率有

$f(wˉT)−min⁡∥w∥⩽Λf(w)⩽2ΛrT(1+22log⁡1δ)=O(1T)fleft(bar{boldsymbol{w}}_Tright)-min _{|boldsymbol{w}| leqslant Lambda} f(boldsymbol{w}) leqslant frac{2 Lambda r}{sqrt{T}}left(1+2 sqrt{2 log frac{1}{delta}}right)=Oleft(frac{1}{sqrt{T}}right)$

定理得证

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

机器学习理论导引

《机器学习理论导引》笔记目录

0 感言

7.3 随机优化

7.3.1 凸函数

7.3.2 强凸函数

7.4 实例分析

7.4.1 支持向量机

7.4.2 对率回归

GPT技术在各行业的应用及应对挑战分析

比尔·盖茨发表最新AI文章《人工智能时代已经开始——人工智能与智能手机、互联网一样具有革命性》

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

《机器学习理论导引》笔记目录

0 感言

7.3 随机优化

7.3.1 凸函数

7.3.2 强凸函数

7.4 实例分析

7.4.1 支持向量机

7.4.2 对率回归

GPT技术在各行业的应用及应对挑战分析

比尔·盖茨发表最新AI文章《人工智能时代已经开始——人工智能与智能手机、互联网一样具有革命性》

深入浅出OCR：机器学习基础知识总结

MLflow：机器学习生命周期管理平台初探

机器学习理论导引-笔记目录

决策树算法原理详解