统计学习方法——朴素贝叶斯-CFANZ编程社区

文章目录

引言

朴素贝叶斯多用于分类问题，实现简单，并且学习和预测的效率都很高。而贝叶斯作为朴素贝叶斯的基础这里就不过多介绍了。

$P(A|B)={\frac{P(B|A)P(A)}{P(B)}}$

朴素贝叶斯

给定训练集 $T={(x_1,y_1),(x_2,y_2),..,(x_N,y_N)}$ ，设类别可选数目为K，即 $c_1,c_2,...,c_K$ ，特征维度为m，即 $x_i=(x_i^1,x_i^2,...x_i^m)$ ，第j维的特征可取值数目为 $S_j$ ，分别为 $a_j^1,a_j^2,...,a_j^{S_j}$ 。

这里的描述比较抽象，我用一个简单的例子来表示：

在这里插入图片描述
这里是统计学习方法p50页的例题，这里我不解答，而是针对里面的内容来简单的表示上面的描述。

可选数目K就是题目中的Y的类别数也就是2， $c_1,c_2,...,c_K$ 可以具体表示为-1和1。
特征维度m对应题目就是 $x=(2,S)^T$ ，此处m=2有两个维度，对应了表格中的 $X^{(1)}$ 和 $X^{(2)}$ 。
特征可取值数目 $S_j$ 就是具体每个特征可能的取值，题目中 $X^{(1)}$ 就三个取值1，2，3，因此 $S_1$ 就为3。

$a_j^1,a_j^2,...,a_j^{S_j}$ 对应了每个取值，此处 $a_1^1=1,a_1^2=2,a_1^3=3$ 。对于 $X^{(2)}$ 来说 $a_1^1=S,a_1^2=M,a_1^3=L$ 。

而我们的目标就是知道x的数据，将x分到正确的类别中。

在有了上面的描述后，我们可以得到以下的先验概率和条件概率：

先验概率为：
$P(Y=c_k),k=1,2,...,K$
条件概率为：
$P(X=x|Y=c_k)=P(X^1=x^1,X^2=x^2,...,X^m=x^m|Y=c_k),k=1,2,...,K$
因此也就得到了联合概率：
$p(X=x,Y=c_k)=P(Y=c_k)P(X=x|Y=c_k)$
为了降低模型的复杂度，朴素贝叶斯作了条件独立性的假设：
$P(X=x|Y=c_k)=P(X^1=x^1,X^2=x^2,...,X^m=x^m|Y=c_k) \\=\prod_{j=1}^mP(X^j=x^j|Y=c_k)$
因为这是一个强假设，朴素贝叶斯由此得名

对于后验概率 $P(Y=c_k|X=x)$ ，由贝叶斯公式有：
$P(Y=c_k|X=x)=\frac{p(X=x,Y=c_k)}{P(X=x)} \\=\frac{P(Y=c_k)P(X=x|Y=c_k)}{P(X=x)} \\=\frac{P(Y=c_k)\prod_{j=1}^mP(X^j=x^j|Y=c_k)}{P(X=x)}$
而我们的目标就是选取使得 $P(Y=c_k|X=x)$ 概率最大的 $c_k$ 类别，因此分母 $P (X = x)$ 并没有太多用处，不影响 $c_k$ 的取值。

因为我的目标就变成了如下的式子：
$y=\arg \max_{c_k}P(Y=c_k)\prod_{j=1}^mP(X^j=x^j|Y=c_k)$
找到一个合适的 $c_k$ 使 $P(Y=c_k|X=x)$ 概率最大。

朴素贝叶斯的参数估计

极大似然估计

对于目标公式中的先验概率 $P(Y=c_k)$ ：
$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N},k=1,2,...,K$
其中 $I(y_i=c_k)$ 为信号函数，成立的时候返回1，不成立返回0

对与目标公式中的条件概率 $P(X^j=x^j|Y=c_k)$ ，设第 $j$ 个特征 $x^j$ 可能的取值集合为 $a_j^1,a_j^2,a_j^3...,a_j^{S_j}$ ，可以得到：
$P(X^{j}=a_j^l|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^j=a_j^l,y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)},l=1,2,...,S_j$
这个举个例子来简单说明下，假设有两个类别(1 , 2)，3个特征(a, b , c)，每个特征都有4个可能的取值，上面那个公式说明的就是在给定具体类别的前提下(1或者2)，每个特征(a\b\c)中每一个可能取值的概率(4个可能取值)，如 $P(a=a_1|Y=1)$ 表示的就是在给定类别1的前提下，特征a的第一个可能取值的概率。因为我们这里用了信号函数，所以可以通过统计数据集直接得到概率。

在得到先验概率和条件概率后，对于给定的数据 $x=(x_i^1,x_i^2,...x_i^m)$ 就可以得到：
$P(Y=c_k)\prod_{j=1}^mP(X^j=x^j|Y=c_k), k=1,2,3,....K$
最后在找到使上面式子最大的 $c_k$ ，就是最后的结果：
$y=\arg \max_{c_k}P(Y=c_k)\prod_{j=1}^mP(X^j=x^j|Y=c_k)$
配合例子肯定更好理解，例子在统计学习方法P50页有，也就是我上面提到的例子，这里附上完整版的。
在这里插入图片描述