机器学习理论导引:划分机制及一致性

释放双眼,带上耳机,听听看~!
本文章介绍了机器学习中的划分机制及其一致性,包括划分后的区域足够小以捕捉数据的局部信息,以及划分后的区域包含足够多的训练样本以保证“少数服从多数”方法的有效性。

《机器学习理论导引》笔记目录

6.3 划分机制

  一些机器学习方法可看作是将样本空间𝒳划分成多个互不相容的区域,然后在各区域中对正例和反例分别计数,以多数的类别作为区域中样本的标记,这被称为划分机制。常见的基于划分机制的机器学习方法包括最近邻、决策树、随机森林等。

  具体而言,给定训练集 Dm={(x1,y1),(x2,y2),…,(xm,ym)}mathcal{D}_m={(x_1,y_1),(x_2,y_2),ldots,(x_m,y_m)},基于某种划分机制将样本空间 Xmathcal{X} 划分成多个互不相容的区域 Ω1,Ω2,…,ΩnOmega_1,Omega_2,ldots,Omega_n,然后对每个区域中正例和反例进行计数,按“少数服从多数”原则确定区域中样本的标记,即有

hm(x)={+1 如果 ∑xi∈Ω(x)I(yi=+1)≥∑xi∈Ω(x)I(yi=−1)−1 如果 ∑xi∈Ω(x)I(yi=+1)<∑xi∈Ω(x)I(yi=−1)h_m(x)= begin{cases}+1 & text { 如果 } sum_{x_i in Omega(x)} mathbb{I}left(y_i=+1right) geq sum_{x_i in Omega(x)} mathbb{I}left(y_i=-1right) \ -1 & text { 如果 } sum_{x_i in Omega(x)} mathbb{I}left(y_i=+1right)<sum_{x_i in Omega(x)} mathbb{I}left(y_i=-1right)end{cases}

  其中 Ω(x)Omega(x) 表示样本 xx 所在的区域。

定义 6.3 划分机制一致性

  随着训练数据规模 m→∞mrightarrowinfty,若基于划分机制的输出函数 hm(x)h_m(x) 满足 R(hm)→R∗R(h_m)rightarrow R^*,则称该划分机制具有一致性。

  直观上看,划分机制具有一致性需要满足两个条件:

  • 划分后的区域足够小,从而保证能够捕捉数据的局部信息
  • 划分后的区域应包含足够多的训练样本,从而确保“少数服从多数”方法的有效性

  给定区域 ΩOmega,用 Diam(Ω)text{Diam}(Omega) 表示区域 ΩOmega 的直径,即 Diam(Ω)=sup⁡x,x′∈Ω∥x−x′∥text{Diam}(Omega)=sup_{x,x’inOmega}lVert x-x’rVert,给定样本 x∈Xxinmathcal{X},设 N(x)=∑i=1mI(xi∈Ω(x))N(x)=sum_{i=1}^mmathbb{I}(x_iinOmega(x)),代表落入区域 Ω(x)Omega(x) 的样本数

引理 6.4

  设 X1,X2,…,XmX_1,X_2,ldots,X_mmm 个独立同分布的 Bernoulli 随机变量,且满足 Xi∼Bernoulli(p)X_isimtext{Bernoulli}(p),则有

E[∣1m∑i=1mXi−E[Xi]∣]⩽p(1−p)mmathbb{E}left[leftlvertfrac{1}{m}sum_{i=1}^mX_i-mathbb{E}[X_i]rightrvertright]leqslantsqrt{frac{p(1-p)}{m}}

证明

  根据 Jensen 不等式有

E[1m∑i=1mXi−E[Xi]]⩽E[1m∑i=1mXi−E[Xi]]2=1m2∑i=1mE[Xi−E[Xi]]2=v(X1)m=p(1−p)mmathbb{E}left[frac{1}{m} sum_{i=1}^m X_i-mathbb{E}left[X_iright]right]leqslantsqrt{mathbb{E}left[frac{1}{m} sum_{i=1}^m X_i-mathbb{E}left[X_iright]right]^2}\
=sqrt{frac{1}{m^2} sum_{i=1}^m mathbb{E}left[X_i-mathbb{E}left[X_iright]right]^2}=sqrt{frac{vleft(X_1right)}{m}}=sqrt{frac{p(1-p)}{m}}

  引理得证。

定理 6.4

  假设条件概率 η(x)eta(x) 在样本空间 Xmathcal{X} 上连续,若划分后的每个区域满足 : 当 m→∞mrightarrowinfty 时有 Diam(Ω(x))→0text{Diam}(Omega(x))rightarrow0N(x)→∞N(x)rightarrowinfty 依概率成立,则该划分机制具有一致性。

  其中依概率成立 (比极限更弱) 是指 : 对 ∀ϵ>0,lim⁡m→∞P((Diam(Ω)−0)⩾)=0forallepsilon>0,lim_{mrightarrowinfty}P((text{Diam}(Omega)-0)geqslant)=0,对 ∀N>0,lim⁡m→∞P(N(x)>N)=1forall N>0,lim_{mrightarrowinfty}P(N(x)>N)=1

证明

  对任意样本 x∈Xxinmathcal{X},设 η^(x)=∑xi∈Ω(x)I(yi=+1)N(x)hat{eta}(x)=sum_{x_iinOmega(x)}frac{mathbb
{I}(y_i=+1)}{N(x)}
,根据划分机制得到分类器 hm(x)=2I(η^(x)⩾12)−1h_m(x)=2mathbb{I}left(hat{eta}(x)geqslantfrac{1}{2}right)-1,由引理 6.2,R(hm)−R∗⩽2E[∣η^(x)−η(x)∣]R(h_m)-R^*leqslant2mathbb{E}[lverthat{eta}(x)-eta(x)rvert],设区域 Ω(x)Omega(x) 的条件概率的期望为 ηˉ(x)=E[η(x′)∣x′∈Ω(x)]bar{eta}(x)=mathbb{E}[eta(x’)|x’inOmega(x)]

  利用三角不等式有 E[∣η^(x)−η(x)∣]⩽E[∣η^(x)−ηˉ(x)∣]+E[∣ηˉ(x)−η(x)∣]mathbb{E}[lverthat{eta}(x)-eta(x)rvert]leqslantmathbb{E}[lverthat{eta}(x)-bar{eta}(x)rvert]+mathbb{E}[lvertbar{eta}(x)-eta(x)rvert],根据 η(x)eta(x) 的连续性,以及当 m→∞mrightarrowinfty 时有 Diam(Ω(x))→0text{Diam}(Omega(x))rightarrow0 依概率成立,从而得到 E[∣ηˉ(x)−η(x)∣]→0mathbb{E}[lvertbar{eta}(x)-eta(x)rvert]rightarrow0

  下面只需证明 E[∣η^(x)≤−ηˉ(x)∣]→0mathbb{E}[lverthat{eta}(x)leq-bar{eta}(x)rvert]rightarrow0

  给定 x,x1,…,xmx,x_1,ldots,x_m,有

E[∣η^(x)−ηˉ(x)∥x,x1,…,xm]=E[∣η^(x)−ηˉ(x)∥N(x)=0,x,x1,…,xm]P(N(x)=0)+E[∣η^(x)−ηˉ(x)∥N(x)>0,x,x1,…,xm]P(N(x)>0)⩽P(N(x)=0∣x,x1,…,xm)+E[∣∑xi∈Ω(x)I(yi=+1)−ηˉ(x)N(x)∥N(x)>0,x,x1,…,xm]begin{aligned}
& mathbb{E}left[mid hat{eta}(x)-bar{eta}(x) | x, x_1, ldots, x_mright] \
=&mathbb{E}left[mid hat{eta}(x)-bar{eta}(x) | N(x)=0, x, x_1, ldots, x_mright] P(N(x)=0)+ \
& mathbb{E}left[mid hat{eta}(x)-bar{eta}(x) | N(x)>0, x, x_1, ldots, x_mright] P(N(x)>0) \
leqslant & Pleft(N(x)=0 mid x, x_1, ldots, x_mright)\
+&mathbb{E}left[mid sum_{x_i in Omega(x)} frac{mathbb{I}left(y_i=+1right)-bar{eta}(x)}{N(x)} | N(x)>0, x, x_1, ldots, x_mright]\
end{aligned}

  N(x)η^(x)N(x)hat{eta}(x) 表示区域 Ω(x)Omega(x) 中正例的个数,其服从二项分布 B(N(x),η^(x))mathcal{B}(N(x),hat{eta}(x)),由引理 6.4,有

E[∣∑xi∈Ω(x)I(yi=+1)−ηˉ(x)N(x)∥N(x)>0,x,x1,…,xm]⩽E[ηˉ(x)(1−ηˉ(x))N(x)I(N(x)>0)∣x,x1,…,xm]⩽12P(1⩽N(x)⩽k∣x,x1,…,xm)+12kP(N(x)>k∣x,x1,…,xm)⩽12P(1⩽N(x)⩽k∣x,x1,…,xm)+12kbegin{aligned}
& mathbb{E}left[mid sum_{x_i in Omega(x)} frac{mathbb{I}left(y_i=+1right)-bar{eta}(x)}{N(x)} | N(x)>0, x, x_1, ldots, x_mright] \
& leqslant mathbb{mathbb{E}}left[sqrt{frac{bar{eta}(x)(1-bar{eta}(x))}{N(x)}} mathbb{I}(N(x)>0) mid x, x_1, ldots, x_mright] \
& leqslant frac{1}{2} Pleft(1 leqslant N(x) leqslant k mid x, x_1, ldots, x_mright)+frac{1}{2 sqrt{k}} Pleft(N(x)>k mid x, x_1, ldots, x_mright) \
& leqslant frac{1}{2} Pleft(1 leqslant N(x) leqslant k mid x, x_1, ldots, x_mright)+frac{1}{2 sqrt{k}}
end{aligned}

  结合以上两个不等式,有

E[∣η^(x)−ηˉ(x)∣∣x,x1,…,xm]⩽P(N(x)=0∣x,x1,…,xm)+12P(1⩽N(x)⩽k∣x,x1,…,xm)+12kbegin{aligned}
& mathbb{E}left[|hat{eta}(x)-bar{eta}(x)| mid x, x_1, ldots, x_mright] \
& leqslant Pleft(N(x)=0 mid x, x_1, ldots, x_mright)+frac{1}{2} Pleft(1 leqslant N(x) leqslant k mid x, x_1, ldots, x_mright)+frac{1}{2 sqrt{k}}
end{aligned}

  对 x,x1,…,xmx,x_1,ldots,x_m 取期望有

E[∣η^(x)−ηˉ(x)∣]⩽P(N(x)=0)+12P(1⩽N(x)⩽sk)+12kmathbb{E}[|hat{eta}(x)-bar{eta}(x)|] leqslant P(N(x)=0)+frac{1}{2} P(1 leqslant N(x) leqslant sk)+frac{1}{2 sqrt{k}}

  取 k=N(x)k=sqrt{N(x)},根据条件 N(x)→∞N(x)rightarrowinfty 依概率成立,有 E[∣η^(x)≤−ηˉ(x)∣]→0mathbb{E}[lverthat{eta}(x)leq-bar{eta}(x)rvert]rightarrow0,代入三角不等式定理得证。

随机森林 (Random Forest)

  随机森林 (Random Forest) 是一种重要的集成学习方法 (ensemble learning),通过对数据集进行有放回采样 (bootstrap sampling) 产生多个训练集,然后基于每个训练集产生随机决策树,最后通过投票法对随机决策树进行集成,这些随机决策树是在决策树生成过程中,对划分节点、划分属性及划分点引入随机选择而产生的。

  对随机决策树,可以引入一个新的随机变量 Z∈ZZinmathcal{Z},用以刻画决策树的随机性,即用 hm(x,Z)h_m(x,Z) 表示随机决策树,这里 mm 表示训练集的大小。假设产生 nn 棵随机决策树 hm(x,Z1),hm(x,Z2),…,hm(x,Zn)h_m(x,Z_1),h_m(x,Z_2),ldots,h_m(x,Z_n),然后根据这些决策树进行投票,从而构成随机森林 hˉm(x;Z1,…,Zn)bar{h}_m(x;Z_1,ldots,Z_n),即

hˉm(x;Z1,…,Zn)={+1 如果 ∑i=1nhm(x,Zi)≥0−1 如果 ∑i=1nhm(x,Zi)<0bar{h}_mleft(x ; Z_1, ldots, Z_nright)= begin{cases}+1 & text { 如果 } sum_{i=1}^n h_mleft(x, Z_iright) geq 0 \ -1 & text { 如果 } sum_{i=1}^n h_mleft(x, Z_iright)<0end{cases}

引理 6.5

  对随机决策树 hm(x,Z)h_m(x,Z) 和随机森林 hˉm(x;Z1,…,Zn)bar{h}_m(x;Z_1,ldots,Z_n),有

EZ1,…,Zn[R(hˉm(x;Z1,…,Zn))]−R∗≤2(EZ[R(hm(x,Z))]−R∗)E_{Z_1, ldots, Z_n}left[Rleft(bar{h}_mleft(x ; Z_1, ldots, Z_nright)right)right]-mathrm{R}^* leq 2left(E_Zleft[Rleft(h_m(x, Z)right)right]-R^*right)

  此引理表明,若随机决策树 hm(x,Z)h_m(x,Z) 具有一致性,则由随机决策树构成的随机森林 hˉm(x;Z1,…,Zn)bar{h}_m(x;Z_1,ldots,Z_n) 也具有一致性

证明

  根据引理 6.1 可知

EZ[R(hm(x,Z))]−R∗=Ex∼Dx[∣1−2η(x)∣I(hm(x,Z)≠h∗(x))]=Ex∼Dx[(1−2η(x))I(η(x)<12)PZ(hm(x,Z)=1)+(2η(x)−1)I(η(x)>12)PZ(hm(x,Z)=−1)]begin{aligned}
mathbb{E}_Zleft[Rleft(h_m(x, Z)right)right]-R^* &= mathbb{E}_{x sim mathcal{D}_x}left[|1-2 eta(x)| mathbb{I}left(h_m(x, Z) neq h^*(x)right)right] \
&=mathbb{E}_{x sim mathcal{D}_x}left[(1-2 eta(x)) mathbb{I}left(eta(x)<frac{1}{2}right) P_Zleft(h_m(x, Z)=1right)right. \
&left.+(2 eta(x)-1) mathbb{I}left(eta(x)>frac{1}{2}right) P_Zleft(h_m(x, Z)=-1right)right]
end{aligned}

  进一步得到

EZ1,…,Zn[R(hˉm(x;Z1,…,Zn))]−R∗=Ex∼Dx[(1−2η(x))I(η(x)<12)PZ1,…Zn(hˉm(x;Z1,…,Zn)=1)+(2η(x)−1)I(η(x)>12)PZ1,…,Zn(hˉm(x;Z1,…,Zn)=−1)]begin{aligned}
&mathbb{E}_{Z_1, ldots, Z_n}left[Rleft(bar{h}_mleft(x ; Z_1, ldots, Z_nright)right)right]-R^*\
=mathbb{E}_{x sim D_x} & {left[(1-2 eta(x)) mathbb{I}left(eta(x)<frac{1}{2}right) P_{Z_1, ldots Z_n}left(bar{h}_mleft(x ; Z_1, ldots, Z_nright)=1right)right.} \
& left.+(2 eta(x)-1) mathbb{I}left(eta(x)>frac{1}{2}right) P_{Z_1, ldots, Z_n}left(bar{h}_mleft(x ; Z_1, ldots, Z_nright)=-1right)right]
end{aligned}

  对任意样本 x∈Xxinmathcal{X},当 η(x)<1/2eta(x)<1/2 时,只需证明 PZ1,…,Zn(hˉm(x;Z1,…,Zn)=1)⩽2PZ(hm(x,Z)=1)P_{Z_1, ldots, Z_n}left(bar{h}_mleft(x ; Z_1, ldots, Z_nright)=1right) leqslant 2 P_Zleft(h_m(x, Z)=1right) 即可

PZ1,…,Zn(hˉm(x;Z1,…,Zn)=1)=PZ1,…,Zn(∑i=1nI(hm(x,Zi)=1)⩾n2)(由 Markov 不等式)⩽2n∑i=1nE[I(hm(x,Zi)=1)]=2P(hm(x,Zi)=1)begin{aligned}
&P_{Z_1, ldots, Z_n}left(bar{h}_mleft(x ; Z_1, ldots, Z_nright)=1right)=P_{Z_1, ldots, Z_n}left(sum_{i=1}^nmathbb{I}(h_m(x,Z_i)=1)geqslantfrac{n}{2}right)\
&(text{由 Markov 不等式})leqslantfrac{2}{n}sum_{i=1}^nmathbb{E}[mathbb{I}(h_m(x,Z_i)=1)]=2P(h_m(x,Z_i)=1)\
end{aligned}

  同理可证 η(x)⩾1/2eta(x)geqslant1/2 的情况,引理得证

定理 6.5

  当训练集规模 m→∞mrightarrowinfty 时,如果每棵随机决策树的迭代轮数 k=k(m)→∞k=k(m)rightarrowinftykm→0frac{k}{m}rightarrow0,则随机森林具有一致性

证明

  首先研究随机决策树的一致性,随机决策树本质上是基于划分机制的一种分类方法。考虑样本空间 X=[0,1]dmathcal{X}=[0,1]^d,对任意 x∈Xxinmathcal{X},令 Ω(x,Z)Omega(x,Z) 表示样本 xx 所在的区域,N(x,Z)N(x,Z) 表示落入 Ω(x,Z)Omega(x,Z) 中的训练样本数,即 N(x,Z)=∑i=1mI(xi∈Ω(x,Z))N(x,Z)=sum_{i=1}^mmathbb{I}(x_iinOmega(x,Z))

  首先证明当 m→∞mrightarrowinftyN(x,Z)→∞N(x,Z)rightarrowinfty 依概率几乎处处成立。设 Ω1,Ω2,…,Ωk+1Omega_1,Omega_2,ldots,Omega_{k+1} 为随机决策树通过 kk 轮迭代后得到的 k+1k+1 个区域,且设 N1,N2,…,Nk+1N_1,N_2, ldots,N_{k+1} 分别为训练集 Dmmathcal{D}_m 落入这些区域的样本数。给定训练集 Dmmathcal{D}_m 和随机变量 ZZ,样本 xx 落入区域 ΩiOmega_i 的概率为 Ni/mN_i/m

  对任意给定 t>0t>0

P(N(x,Z)<t)=E[P(N(x,Z)<t∣Dm,Z)]=E[∑i:Ni<tNim]⩽(t−1)k+1m→0P(N(x,Z)<t)=mathbb{E}[P(N(x,Z)<t|D_m,Z)]=mathbb{E}left[sum_{i:N_i<t}frac{N_i}{m}right]leqslant(t−1)frac{k+1}{m}
rightarrow 0

  其次证明当 k→∞krightarrowinfty 时区域 Ω(x,Z)Omega(x, Z) 的直径 Diam(Ω(x,Z))→0text{Diam}(Omega(x,Z))rightarrow 0 依概率几乎处处成立。令 TmT_m 表示区域 Ω(x,Z)Omega(x, Z) 被划分的次数,根据随机决策树的构造可知 Tm=∑i=1kξiT_m=sum_{i=1}^kxi_i,其中 ξi∼Bernoulli(1/i)xi_isimtext{Bernoulli}(1/i)。于是有
,代入mathbb{E}

E[Tm]=∑i=1k1i≥ln⁡k,V(Tm)=∑i=1k1i(1−1i)≤ln⁡k+1mathbb{E}left[T_mright]=sum_{i=1}^k frac{1}{i} geq ln k, Vleft(T_mright)=sum_{i=1}^k frac{1}{i}left(1-frac{1}{i}right) leq ln k+1

  根据 Chebyshev 不等式可知,当 k→∞krightarrowinfty 时有

P(∣Tm−E[Tm]∣≥E[Tm]2)≤4V(Tm)E[Tm]2≤4ln⁡k+1ln⁡2k→0Pleft(left|T_m-mathbb{E}left[T_mright]right| geq frac{mathbb{E}left[T_mright]}{2}right) leq 4 frac{Vleft(T_mright)}{mathbb{E}left[T_mright]^2} leq 4 frac{ln k+1}{ln ^2 k} rightarrow 0

  故 P(Tm⩽E[Tm]2)→0Pleft(T_mleqslantfrac{mathbb{E}[T_m]}{2}right)rightarrow 0,代入 E[Tm]⩾ln⁡kmathbb{E}[T_m]geqslantln k 可得 P(Tm⩾ln⁡k2)→1Pleft(T_m geqslantfrac{ln k}{2}right)rightarrow 1

  令 LjL_j 表示区域 Ω(x,Z)Omega(x, Z) 中第 jj 个属性的边长,根据随机决策树的构造可知

E[Lj]≤E[E[∏i=1Kjmax⁡(Ui,1−Ui)∣Kj]]mathbb{E}left[L_jright] leq mathbb{E}left[mathbb{E}left[prod_{i=1}^{K_j} max left(U_i, 1-U_iright) mid K_jright]right]

  这里的随机变量 kj∼B(Tm,1/d)k_jsimmathcal{B}(T_m,1/d) 表示随机决策树构造中的第 jj 个属性被选用划分的次数,随机变量 Ui∼U(0,1)U_isim U(0,1) 表示第 jj 个属性被划分的位置。根据 Ui∼U(0,1)U_isim U(0,1)

E[max⁡(Ui,1−Ui)]=2∫1/21UidUi=34mathbb{E}left[max left(U_i, 1-U_iright)right]=2 int_{1 / 2}^1 U_i d U_i=frac{3}{4}

由此可得

E(Lj)=E[E[Πi=1Kjmax⁡(Ui,1−Ui)∣Kj]]=E[(34)Kj]mathbb{E}left(L_jright)=mathbb{E}left[mathbb{E}left[Pi_{i=1}^{K_j} max left(U_i, 1-U_iright) mid K_jright]right]=mathbb{E}left[left(frac{3}{4}right)^{K_j}right]

  再根据 kj∼B(Tm,1/d)k_jsimmathcal{B}(T_m,1/d)

E[Lj]=E[(34)Kj]=E[∑kj=0=0Tm(34)Kj(TkmKj)(1a)Kj(1−1d)Tm−Kj]=E[∑kj==0TTm(Tm)(34d)Kj(1−1d)Tm−Kj]=E[(1−1d+34d)Tm]=E[(1−14d)Tm]begin{aligned}
Eleft[L_jright]=Eleft[left(frac{3}{4}right)^{K_j}right] & =Eleft[sum_{k_{j=0}=0}^{T_m}left(frac{3}{4}right)^{K_j}left(T_{k_m}^{K_j}right)left(frac{1}{a}right)^{K_j}left(1-frac{1}{d}right)^{T_m-K_j}right]\&=Eleft[sum_{k_{j=}=0}^{T_{T_m}}left(T_mright)left(frac{3}{4 d}right)^{K_j}left(1-frac{1}{d}right)^{T_m-K_j}right] \
& =Eleft[left(1-frac{1}{d}+frac{3}{4 d}right)^{T_m}right]=Eleft[left(1-frac{1}{4 d}right)^{T_m}right]
end{aligned}

  又因为 P(Tm⩾ln⁡k2)→1Pleft(T_mgeqslantfrac{ln k}{2}right)rightarrow 1,当 k→∞krightarrowinfty 时有 E[Lj]→0mathbb{E}[L_j]rightarrow 0,进而有 E[Diam(Ω(x,Z))]→0mathbb{E}left[text{Diam}(Omega(x,Z))right]rightarrow 0

  根据 Diam(Ω(x,Z))⩾0text{Diam}(Omega(x,Z))geqslant 0EDiam(Ω(x,Z))→0mathbb{E}text{Diam}(Omega(x,Z))rightarrow 0 可知 P(Ω(x,Z)⩾ϵ)→0Pleft(Omega(x,Z)geqslantepsilonright)rightarrow 0,即 Diam(Ω(x,Z))→0text{Diam}(Omega(x,Z))rightarrow 0 依概率成立

  根据定理 6.2 可得随机决策树具有一致性。

  再根据引理 6.5 可知由随机决策树集成的随机森林也具有一致性。

  定理得证。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

CharCNN模型在中文情感分类中的应用

2023-12-2 8:30:14

AI教程

深度学习中的卷积算法及人工智能记忆过程

2023-12-2 8:43:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索