释放双眼，带上耳机，听听看~！

本文章介绍了机器学习中的划分机制及其一致性，包括划分后的区域足够小以捕捉数据的局部信息，以及划分后的区域包含足够多的训练样本以保证“少数服从多数”方法的有效性。

《机器学习理论导引》笔记目录

第一章 : 预备知识
- 第一章 : 预备知识(上)
- 第一章 : 预备知识(下)
第二章 : 可学性
第三章 : 复杂度
第四章 : 泛化界
第五章 : 稳定性
第六章 : 一致性
- 第六章 : 一致性(上)
- 第六章 : 一致性(下)
第七章 : 收敛率
- 第七章 : 收敛率(上)
- 第七章 : 收敛率(下)
第八章 : 遗憾界
- 第八章 : 遗憾界(上)
- 第八章 : 遗憾界(下)

6.3 划分机制

一些机器学习方法可看作是将样本空间𝒳划分成多个互不相容的区域，然后在各区域中对正例和反例分别计数，以多数的类别作为区域中样本的标记，这被称为划分机制。常见的基于划分机制的机器学习方法包括最近邻、决策树、随机森林等。

具体而言，给定训练集 $Dm={(x1,y1),(x2,y2),…,(xm,ym)}mathcal{D}_m={(x_1,y_1),(x_2,y_2),ldots,(x_m,y_m)}$ ，基于某种划分机制将样本空间 $X$ 划分成多个互不相容的区域 $Ω1,Ω2,…,ΩnOmega_1,Omega_2,ldots,Omega_n$ ，然后对每个区域中正例和反例进行计数，按“少数服从多数”原则确定区域中样本的标记，即有

$∑xi∈Ω(x)I(yi=+1)<∑xi∈Ω(x)I(yi=−1)h_m(x)= begin{cases}+1 & text { 如果 } sum_{x_i in Omega(x)} mathbb{I}left(y_i=+1right) geq sum_{x_i in Omega(x)} mathbb{I}left(y_i=-1right) \ -1 & text { 如果 } sum_{x_i in Omega(x)} mathbb{I}left(y_i=+1right)<sum_{x_i in Omega(x)} mathbb{I}left(y_i=-1right)end{cases}$

其中 $Ω (x)$ 表示样本 $x$ 所在的区域。

定义 6.3 划分机制一致性

随着训练数据规模 $m \to \infty$ ，若基于划分机制的输出函数 $h_m(x)$ 满足 $R(hm)→R∗R(h_m)rightarrow R^*$ ，则称该划分机制具有一致性。

直观上看，划分机制具有一致性需要满足两个条件:

划分后的区域足够小，从而保证能够捕捉数据的局部信息
划分后的区域应包含足够多的训练样本，从而确保“少数服从多数”方法的有效性

给定区域 $Ω$ ，用 $Diam (Ω)$ 表示区域 $Ω$ 的直径，即 $Diam(Ω)=sup⁡x,x′∈Ω∥x−x′∥text{Diam}(Omega)=sup_{x,x’inOmega}lVert x-x’rVert$ ，给定样本 $x \in X$ ，设 $N(x)=∑i=1mI(xi∈Ω(x))N(x)=sum_{i=1}^mmathbb{I}(x_iinOmega(x))$ ，代表落入区域 $Ω (x)$ 的样本数

引理 6.4

设 $X1,X2,…,XmX_1,X_2,ldots,X_m$ 是 $m$ 个独立同分布的 Bernoulli 随机变量，且满足 $Xi∼Bernoulli(p)X_isimtext{Bernoulli}(p)$ ，则有

$E[∣1m∑i=1mXi−E[Xi]∣]⩽p(1−p)mmathbb{E}left[leftlvertfrac{1}{m}sum_{i=1}^mX_i-mathbb{E}[X_i]rightrvertright]leqslantsqrt{frac{p(1-p)}{m}}$

证明

根据 Jensen 不等式有

$sum_{i=1}^m X_i-mathbb{E}left[X_iright]right]leqslantsqrt{mathbb{E}left[frac{1}{m} sum_{i=1}^m X_i-mathbb{E}left[X_iright]right]^2}\ =sqrt{frac{1}{m^2} sum_{i=1}^m mathbb{E}left[X_i-mathbb{E}left[X_iright]right]^2}=sqrt{frac{vleft(X_1right)}{m}}=sqrt{frac{p(1-p)}{m}}$

引理得证。

定理 6.4

假设条件概率 $η (x)$ 在样本空间 $X$ 上连续，若划分后的每个区域满足 : 当 $m \to \infty$ 时有 $Diam (Ω (x)) \to 0$ 和 $N (x) \to \infty$ 依概率成立，则该划分机制具有一致性。

其中依概率成立 (比极限更弱) 是指 : 对 $∀ϵ>0,lim⁡m→∞P((Diam(Ω)−0)⩾)=0forallepsilon>0,lim_{mrightarrowinfty}P((text{Diam}(Omega)-0)geqslant)=0$ ，对 $N>0,lim_{mrightarrowinfty}P(N(x)>N)=1$

证明

对任意样本 $x \in X$ ，设 $η^(x)=∑xi∈Ω(x)I(yi=+1)N(x)hat{eta}(x)=sum_{x_iinOmega(x)}frac{mathbb {I}(y_i=+1)}{N(x)}$ ，根据划分机制得到分类器 $hm(x)=2I(η^(x)⩾12)−1h_m(x)=2mathbb{I}left(hat{eta}(x)geqslantfrac{1}{2}right)-1$ ，由引理 6.2， $R(hm)−R∗⩽2E[∣η^(x)−η(x)∣]R(h_m)-R^*leqslant2mathbb{E}[lverthat{eta}(x)-eta(x)rvert]$ ，设区域 $Ω (x)$ 的条件概率的期望为 $\overset{η}{ˉ} (x) = E [η (x^{'}) ∣ x^{'} \in Ω (x)]$

利用三角不等式有 $E[∣η^(x)−η(x)∣]⩽E[∣η^(x)−ηˉ(x)∣]+E[∣ηˉ(x)−η(x)∣]mathbb{E}[lverthat{eta}(x)-eta(x)rvert]leqslantmathbb{E}[lverthat{eta}(x)-bar{eta}(x)rvert]+mathbb{E}[lvertbar{eta}(x)-eta(x)rvert]$ ，根据 $η (x)$ 的连续性，以及当 $m \to \infty$ 时有 $Diam (Ω (x)) \to 0$ 依概率成立，从而得到 $E [∣ \overset{η}{ˉ} (x) - η (x)∣] \to 0$ 。

下面只需证明 $E[∣η^(x)≤−ηˉ(x)∣]→0mathbb{E}[lverthat{eta}(x)leq-bar{eta}(x)rvert]rightarrow0$

给定 $x,x1,…,xmx,x_1,ldots,x_m$ ，有

$E[∣η^(x)−ηˉ(x)∥x,x1,…,xm]=E[∣η^(x)−ηˉ(x)∥N(x)=0,x,x1,…,xm]P(N(x)=0)+E[∣η^(x)−ηˉ(x)∥N(x)>0,x,x1,…,xm]P(N(x)>0)⩽P(N(x)=0∣x,x1,…,xm)+E[∣∑xi∈Ω(x)I(yi=+1)−ηˉ(x)N(x)∥N(x)>0,x,x1,…,xm]begin{aligned} & mathbb{E}left[mid hat{eta}(x)-bar{eta}(x) | x, x_1, ldots, x_mright] \ =&mathbb{E}left[mid hat{eta}(x)-bar{eta}(x) | N(x)=0, x, x_1, ldots, x_mright] P(N(x)=0)+ \ & mathbb{E}left[mid hat{eta}(x)-bar{eta}(x) | N(x)>0, x, x_1, ldots, x_mright] P(N(x)>0) \ leqslant & Pleft(N(x)=0 mid x, x_1, ldots, x_mright)\ +&mathbb{E}left[mid sum_{x_i in Omega(x)} frac{mathbb{I}left(y_i=+1right)-bar{eta}(x)}{N(x)} | N(x)>0, x, x_1, ldots, x_mright]\ end{aligned}$

$N(x)η^(x)N(x)hat{eta}(x)$ 表示区域 $Ω (x)$ 中正例的个数，其服从二项分布 $B(N(x),η^(x))mathcal{B}(N(x),hat{eta}(x))$ ，由引理 6.4，有

$sum_{x_i in Omega(x)} frac{mathbb{I}left(y_i=+1right)-bar{eta}(x)}{N(x)} | N(x)>0, x, x_1, ldots, x_mright] \ & leqslant mathbb{mathbb{E}}left[sqrt{frac{bar{eta}(x)(1-bar{eta}(x))}{N(x)}} mathbb{I}(N(x)>0) mid x, x_1, ldots, x_mright] \ & leqslant frac{1}{2} Pleft(1 leqslant N(x) leqslant k mid x, x_1, ldots, x_mright)+frac{1}{2 sqrt{k}} Pleft(N(x)>k mid x, x_1, ldots, x_mright) \ & leqslant frac{1}{2} Pleft(1 leqslant N(x) leqslant k mid x, x_1, ldots, x_mright)+frac{1}{2 sqrt{k}} end{aligned}$

结合以上两个不等式，有

$E[∣η^(x)−ηˉ(x)∣∣x,x1,…,xm]⩽P(N(x)=0∣x,x1,…,xm)+12P(1⩽N(x)⩽k∣x,x1,…,xm)+12kbegin{aligned} & mathbb{E}left[|hat{eta}(x)-bar{eta}(x)| mid x, x_1, ldots, x_mright] \ & leqslant Pleft(N(x)=0 mid x, x_1, ldots, x_mright)+frac{1}{2} Pleft(1 leqslant N(x) leqslant k mid x, x_1, ldots, x_mright)+frac{1}{2 sqrt{k}} end{aligned}$

对 $x,x1,…,xmx,x_1,ldots,x_m$ 取期望有

$E[∣η^(x)−ηˉ(x)∣]⩽P(N(x)=0)+12P(1⩽N(x)⩽sk)+12kmathbb{E}[|hat{eta}(x)-bar{eta}(x)|] leqslant P(N(x)=0)+frac{1}{2} P(1 leqslant N(x) leqslant sk)+frac{1}{2 sqrt{k}}$

取 $k = N (x)$ ，根据条件 $N (x) \to \infty$ 依概率成立，有 $E[∣η^(x)≤−ηˉ(x)∣]→0mathbb{E}[lverthat{eta}(x)leq-bar{eta}(x)rvert]rightarrow0$ ，代入三角不等式定理得证。

随机森林 (Random Forest)

随机森林 (Random Forest) 是一种重要的集成学习方法 (ensemble learning)，通过对数据集进行有放回采样 (bootstrap sampling) 产生多个训练集，然后基于每个训练集产生随机决策树，最后通过投票法对随机决策树进行集成，这些随机决策树是在决策树生成过程中，对划分节点、划分属性及划分点引入随机选择而产生的。

对随机决策树，可以引入一个新的随机变量 $Z \in Z$ ，用以刻画决策树的随机性，即用 $h_m(x,Z)$ 表示随机决策树，这里 $m$ 表示训练集的大小。假设产生 $n$ 棵随机决策树 $hm(x,Z1),hm(x,Z2),…,hm(x,Zn)h_m(x,Z_1),h_m(x,Z_2),ldots,h_m(x,Z_n)$ ，然后根据这些决策树进行投票，从而构成随机森林 $hˉm(x;Z1,…,Zn)bar{h}_m(x;Z_1,ldots,Z_n)$ ，即

$∑i=1nhm(x,Zi)<0bar{h}_mleft(x ; Z_1, ldots, Z_nright)= begin{cases}+1 & text { 如果 } sum_{i=1}^n h_mleft(x, Z_iright) geq 0 \ -1 & text { 如果 } sum_{i=1}^n h_mleft(x, Z_iright)<0end{cases}$

引理 6.5

对随机决策树 $h_m(x,Z)$ 和随机森林 $hˉm(x;Z1,…,Zn)bar{h}_m(x;Z_1,ldots,Z_n)$ ，有

$EZ1,…,Zn[R(hˉm(x;Z1,…,Zn))]−R∗≤2(EZ[R(hm(x,Z))]−R∗)E_{Z_1, ldots, Z_n}left[Rleft(bar{h}_mleft(x ; Z_1, ldots, Z_nright)right)right]-mathrm{R}^* leq 2left(E_Zleft[Rleft(h_m(x, Z)right)right]-R^*right)$

此引理表明，若随机决策树 $h_m(x,Z)$ 具有一致性，则由随机决策树构成的随机森林 $hˉm(x;Z1,…,Zn)bar{h}_m(x;Z_1,ldots,Z_n)$ 也具有一致性

证明

根据引理 6.1 可知

$mathbb{E}_Zleft[Rleft(h_m(x, Z)right)right]-R^* &= mathbb{E}_{x sim mathcal{D}_x}left[|1-2 eta(x)| mathbb{I}left(h_m(x, Z) neq h^*(x)right)right] \ &=mathbb{E}_{x sim mathcal{D}_x}left[(1-2 eta(x)) mathbb{I}left(eta(x)<frac{1}{2}right) P_Zleft(h_m(x, Z)=1right)right. \ &left.+(2 eta(x)-1) mathbb{I}left(eta(x)>frac{1}{2}right) P_Zleft(h_m(x, Z)=-1right)right] end{aligned}$

进一步得到

$&mathbb{E}_{Z_1, ldots, Z_n}left[Rleft(bar{h}_mleft(x ; Z_1, ldots, Z_nright)right)right]-R^*\ =mathbb{E}_{x sim D_x} & {left[(1-2 eta(x)) mathbb{I}left(eta(x)<frac{1}{2}right) P_{Z_1, ldots Z_n}left(bar{h}_mleft(x ; Z_1, ldots, Z_nright)=1right)right.} \ & left.+(2 eta(x)-1) mathbb{I}left(eta(x)>frac{1}{2}right) P_{Z_1, ldots, Z_n}left(bar{h}_mleft(x ; Z_1, ldots, Z_nright)=-1right)right] end{aligned}$

对任意样本 $x \in X$ ，当 $η (x) < 1/2$ 时，只需证明 $PZ1,…,Zn(hˉm(x;Z1,…,Zn)=1)⩽2PZ(hm(x,Z)=1)P_{Z_1, ldots, Z_n}left(bar{h}_mleft(x ; Z_1, ldots, Z_nright)=1right) leqslant 2 P_Zleft(h_m(x, Z)=1right)$ 即可

$&P_{Z_1, ldots, Z_n}left(bar{h}_mleft(x ; Z_1, ldots, Z_nright)=1right)=P_{Z_1, ldots, Z_n}left(sum_{i=1}^nmathbb{I}(h_m(x,Z_i)=1)geqslantfrac{n}{2}right)\ &(text{由 Markov 不等式})leqslantfrac{2}{n}sum_{i=1}^nmathbb{E}[mathbb{I}(h_m(x,Z_i)=1)]=2P(h_m(x,Z_i)=1)\ end{aligned}$

同理可证 $η (x) ⩾ 1/2$ 的情况，引理得证

定理 6.5

当训练集规模 $m \to \infty$ 时，如果每棵随机决策树的迭代轮数 $k = k (m) \to \infty$ 且 $km→0frac{k}{m}rightarrow0$ ，则随机森林具有一致性

证明

首先研究随机决策树的一致性，随机决策树本质上是基于划分机制的一种分类方法。考虑样本空间 $X=[0,1]dmathcal{X}=[0,1]^d$ ，对任意 $x \in X$ ，令 $Ω (x, Z)$ 表示样本 $x$ 所在的区域， $N (x, Z)$ 表示落入 $Ω (x, Z)$ 中的训练样本数，即 $N(x,Z)=∑i=1mI(xi∈Ω(x,Z))N(x,Z)=sum_{i=1}^mmathbb{I}(x_iinOmega(x,Z))$

首先证明当 $m \to \infty$ 时 $N (x, Z) \to \infty$ 依概率几乎处处成立。设 $Ω1,Ω2,…,Ωk+1Omega_1,Omega_2,ldots,Omega_{k+1}$ 为随机决策树通过 $k$ 轮迭代后得到的 $k + 1$ 个区域，且设 $N1,N2,…,Nk+1N_1,N_2, ldots,N_{k+1}$ 分别为训练集 $Dmmathcal{D}_m$ 落入这些区域的样本数。给定训练集 $Dmmathcal{D}_m$ 和随机变量 $Z$ ，样本 $x$ 落入区域 $ΩiOmega_i$ 的概率为 $N_i/m$ 。

对任意给定 $t > 0$

$P(N(x,Z)<t)=E[P(N(x,Z)<t∣Dm,Z)]=E[∑i:Ni<tNim]⩽(t−1)k+1m→0P(N(x,Z)<t)=mathbb{E}[P(N(x,Z)<t|D_m,Z)]=mathbb{E}left[sum_{i:N_i<t}frac{N_i}{m}right]leqslant(t−1)frac{k+1}{m} rightarrow 0$

其次证明当 $k \to \infty$ 时区域 $Ω (x, Z)$ 的直径 $Diam (Ω (x, Z)) \to 0$ 依概率几乎处处成立。令 $T_m$ 表示区域 $Ω (x, Z)$ 被划分的次数，根据随机决策树的构造可知 $Tm=∑i=1kξiT_m=sum_{i=1}^kxi_i$ ，其中 $ξi∼Bernoulli(1/i)xi_isimtext{Bernoulli}(1/i)$ 。于是有
，代入mathbb{E}

$E[Tm]=∑i=1k1i≥ln⁡k,V(Tm)=∑i=1k1i(1−1i)≤ln⁡k+1mathbb{E}left[T_mright]=sum_{i=1}^k frac{1}{i} geq ln k, Vleft(T_mright)=sum_{i=1}^k frac{1}{i}left(1-frac{1}{i}right) leq ln k+1$

根据 Chebyshev 不等式可知，当 $k \to \infty$ 时有

$P(∣Tm−E[Tm]∣≥E[Tm]2)≤4V(Tm)E[Tm]2≤4ln⁡k+1ln⁡2k→0Pleft(left|T_m-mathbb{E}left[T_mright]right| geq frac{mathbb{E}left[T_mright]}{2}right) leq 4 frac{Vleft(T_mright)}{mathbb{E}left[T_mright]^2} leq 4 frac{ln k+1}{ln ^2 k} rightarrow 0$

故 $P(Tm⩽E[Tm]2)→0Pleft(T_mleqslantfrac{mathbb{E}[T_m]}{2}right)rightarrow 0$ ，代入 $E[Tm]⩾ln⁡kmathbb{E}[T_m]geqslantln k$ 可得 $P(Tm⩾ln⁡k2)→1Pleft(T_m geqslantfrac{ln k}{2}right)rightarrow 1$

令 $L_j$ 表示区域 $Ω (x, Z)$ 中第 $j$ 个属性的边长，根据随机决策树的构造可知

$E[Lj]≤E[E[∏i=1Kjmax⁡(Ui,1−Ui)∣Kj]]mathbb{E}left[L_jright] leq mathbb{E}left[mathbb{E}left[prod_{i=1}^{K_j} max left(U_i, 1-U_iright) mid K_jright]right]$

这里的随机变量 $kj∼B(Tm,1/d)k_jsimmathcal{B}(T_m,1/d)$ 表示随机决策树构造中的第 $j$ 个属性被选用划分的次数，随机变量 $Ui∼U(0,1)U_isim U(0,1)$ 表示第 $j$ 个属性被划分的位置。根据 $Ui∼U(0,1)U_isim U(0,1)$ 有

$left(U_i, 1-U_iright)right]=2 int_{1 / 2}^1 U_i d U_i=frac{3}{4}$

由此可得

$E(Lj)=E[E[Πi=1Kjmax⁡(Ui,1−Ui)∣Kj]]=E[(34)Kj]mathbb{E}left(L_jright)=mathbb{E}left[mathbb{E}left[Pi_{i=1}^{K_j} max left(U_i, 1-U_iright) mid K_jright]right]=mathbb{E}left[left(frac{3}{4}right)^{K_j}right]$

再根据 $kj∼B(Tm,1/d)k_jsimmathcal{B}(T_m,1/d)$ 有

$Eleft[L_jright]=Eleft[left(frac{3}{4}right)^{K_j}right] & =Eleft[sum_{k_{j=0}=0}^{T_m}left(frac{3}{4}right)^{K_j}left(T_{k_m}^{K_j}right)left(frac{1}{a}right)^{K_j}left(1-frac{1}{d}right)^{T_m-K_j}right]\&=Eleft[sum_{k_{j=}=0}^{T_{T_m}}left(T_mright)left(frac{3}{4 d}right)^{K_j}left(1-frac{1}{d}right)^{T_m-K_j}right] \ & =Eleft[left(1-frac{1}{d}+frac{3}{4 d}right)^{T_m}right]=Eleft[left(1-frac{1}{4 d}right)^{T_m}right] end{aligned}$

又因为 $P(Tm⩾ln⁡k2)→1Pleft(T_mgeqslantfrac{ln k}{2}right)rightarrow 1$ ，当 $k \to \infty$ 时有 $E[Lj]→0mathbb{E}[L_j]rightarrow 0$ ，进而有 $E [Diam (Ω (x, Z))] \to 0$

根据 $Diam (Ω (x, Z)) ⩾ 0$ 和 $E Diam (Ω (x, Z)) \to 0$ 可知 $P (Ω (x, Z) ⩾ ϵ) \to 0$ ，即 $Diam (Ω (x, Z)) \to 0$ 依概率成立

根据定理 6.2 可得随机决策树具有一致性。

再根据引理 6.5 可知由随机决策树集成的随机森林也具有一致性。

定理得证。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

机器学习理论导引：划分机制及一致性

《机器学习理论导引》笔记目录

6.3 划分机制

随机森林 (Random Forest)

CharCNN模型在中文情感分类中的应用

深度学习中的卷积算法及人工智能记忆过程

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

《机器学习理论导引》笔记目录

6.3 划分机制

随机森林 (Random Forest)

CharCNN模型在中文情感分类中的应用

深度学习中的卷积算法及人工智能记忆过程

Diffusers库的道德守则和安全特性

GPT原理与使用技巧

如何选择ChatGPT API方式？比较ChatGPT API和ChatGPT Unofficial ProxyAPI

Meta发布Llama 2开源大动作，AI领域再次掀起风暴