机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

释放双眼,带上耳机,听听看~!
本文以图解形式介绍了机器学习知识点AIC、准确率、Adaboost算法及R方调整,帮助读者更形象地理解这些概念。

公众号:尤而小屋
作者:Peter
编辑:Peter

大家好,我是Peter~

最近看到国外一位大神对机器学习知识点绘制的彩图,通过图解的形式来解释一个知识点,比如过拟合、auc、boosting算法等,非常的形象👍,比如:

支持向量机

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

L2正则化过程

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

原地址:machinelearningflashcards.com/,作者:Chris Albon

全图

先看一个比较全面的图形:这里面有Dropout、TF-IDF、SVC等

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

A系列

今天分享A系列的内容。

AIC-赤池信息量准则

赤池信息量准则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。

赤池信息量准则建立在熵的概念基础上。

AIC越小,模型越好,通常选择AIC最小的模型

  • n:观测值
  • σ^2hat sigma ^2:样本方差
  • d:特征值
  • RSS:残差平方和

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

Accuracy-准确率

表示在检测样本中实际值和预测值相等的占比

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

Adaboost算法

AdaBoost全称为Adaptive Boosting,中文名称叫做自适应提升算法

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

  1. 给每个样本分配权重,均为wi=1nw_i=frac{1}{n};其中n为样本数量
  2. 训练一个“弱”模型,通常情况下是决策树DT
  3. 对于每个目标:
  • 如果预测错误,加大权重,w上涨
  • 如果预测正确,降低权重,w下降
  1. 再训练一个新的弱模型,其中权重较大的样本分配较高的优先权
  2. 重复步骤3和4;直到全部样本被完美预测,或者训练出当前规模的决策树

调整R方

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

在这里介绍下R2R^2R^2hat R^2,参考:www.jiqizhixin.com/graph/techn…

决定系数(英语:coefficient of determination,记为R2或r2)在统计学中用于度量因变量的变异中可由自变量解释部分所占的比例,以此来判断统计模型的解释力。

假设一数据集有y1,…yi…,yn y_1,…y_i…,y_nn个观察值(实际值),对应的模型预测值分别为f1,…,fnf_1,…,f_n。那么我们定义残差:

ei=yi−fie_i = y_i − f_i

平均观察值为:

yˉ=1n∑i=1nyibar{y}=frac{1}{n} sum_{i=1}^{n} y_{i}

总的误差平方和TSS:给出了y的变化总量

TSS=∑i(yi−yˉ)2TSS=sum_{i}left(y_{i}-bar{y}right)^{2}

回归平方和:

SSreg =∑i(fi−yˉ)2S S_{text {reg }}=sum_{i}left(f_{i}-bar{y}right)^{2}

残差平方和RSS:RSS给出了实际点到回归线距离的总平方。残差,我们可以说是回归线没有捕捉到的距离。因此,RSS作为一个整体给了我们目标变量中没有被我们模型解释的变化。(实际值和模型预测值的差异,没有被我们捕捉到)

RSS=∑in(yi−fi)2=∑inei2RSS=sum_{i}^nleft(y_{i}-f_{i}right)^{2}=sum_{i}^n e_{i}^{2}

现在,如果TSS给出Y的总变化量,RSS是未被解释的变化量,那么TSS-RSS给出了y的变化,并且这部分变化是被我们的模型解释的!我们可以简单地再除以TSS,得到由模型解释的y中的变化比例。

那么,我们定义R的变化统计量R2R^2为:

R2=TSS−RSSTSS=1−RSSTSSR^{2}=frac{TSS-RSS}{TSS} = 1-frac{RSS}{TSS}

很显然,RSS和R方是负相关的。

调整R方考虑了用于预测目标变量的自变量数量:

Rˉ2=1−(1−R2)n−1n−p−1bar{R}^{2}=1-left(1-R^{2}right) frac{n-1}{n-p-1}

  • n表示数据集中的数据点数量
  • p表示自变量的个数
  • R代表模型确定的R方值

Agglomerative clustering-层次聚类

  • 所有的观察对象先以自己为群组
  • 将满足特定准则的对象聚集在一起
  • 重复上面的过程,群组不断增大,直到某个端点的位置饱和

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

ALPHA

岭回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题。 ridge coefficients ( 岭系数 ) 最小化一个带罚项的残差平方和:

min⁡w∥Xw−y∥22+α∥w∥22min _{w}|X w-y|_{2}^{2}+alpha|w|_{2}^{2}

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

参考资料

www.datacamp.com/tutorial/tu…

blog.csdn.net/guangyacyb/…

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

AVOID over-fitting

如何避免过拟合?

  • 简化模型
  • 交叉验证
  • 正则化
  • 获取更多数据
  • 集成学习

机器学习知识点图解:AIC、准确率、Adaboost算法及R方调整

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

父母孩子十一亲子游,三亚热带探险6天7夜

2023-12-9 14:49:14

AI教程

AI助手Alivia:打磨营销利器,从未如此简单

2023-12-9 15:03:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索