总结:
- 朴素贝叶斯是典型的生成学习方法。基本思想就是由训练数据生成联合概率分布,然后求得后验概率分布。
- 概率估计方法可以是极大似然估计或贝叶斯估计
- 基本假设为条件独立性,这是一个极强的假设
- 后验概率最大等价于0-1损失函数时的期望风险最小化
- 利用贝叶斯定理与学到的联合概率模型进行分类预测
朴素贝叶斯
朴素贝叶斯(naïve Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。
对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。
1. 朴素贝叶斯法的学习与分类
1.1 基本方法
朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
1.2 后验概率最大化的含义
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。
2. 朴素贝叶斯法的参数估计
2.1 极大似然估计
极大似然估计可简单理解为,寻找使取值为A的最大的条件可能性。
2.2 学习与分类算法
2.3 贝叶斯估计
用极大似然估计可能会出现所要估计的概率值为0的情况(某个取值没有取到)。这时会影响到后验概率的计算结果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体地,条件概率的贝叶斯估计是