NLP——4.朴素贝叶斯

1. 引言

贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。

2. 贝叶斯公式

贝叶斯公式就一行：
$P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) P(Y|X)=frac{P(X|Y)P(Y)}{P(X)}$

而它其实是由以下的联合概率公式推导出来：
$P (Y, X) = P (Y ∣ X) P (X) = P (X ∣ Y) P (Y)$
其中 $P (Y)$ 叫做先验概率， $P (Y ∣ X)$ 叫做后验概率， $P (Y, X)$ 叫做联合概率。

没了，贝叶斯最核心的公式就这么些。

3. 用机器学习的视角理解贝叶斯公式

在机器学习的视角下，我们把 $X$ 理解成“具有某特征”，把 $Y$ 理解成“类别标签”(一般机器学习为题中都是X=>特征, Y=>结果对吧)。在最简单的二分类问题(是与否判定)下，我们将 $Y$ 理解成“属于某类”的标签。于是贝叶斯公式就变形成了下面的样子:
$P ( “ 属于某类 ” ∣ “ 具有某特征 ” ) = P ( “ 具有某特征 ” ∣ “ 属于某类 ” ) P ( “ 属于某类 ” ) P ( “ 具有某特征 ” ) P( “属于某类”|“具有某特征”) = frac{P(“具有某特征”|“属于某类”)P(“属于某类”)}{P(“具有某特征”)}$
我们简化解释一下上述公式：

P(“属于某类”|“具有某特征”)= 在已知某样本“具有某特征”的条件下，该样本“属于某类”的概率。所以叫做『后验概率』。
P(“具有某特征”|“属于某类”)= 在已知某样本“属于某类”的条件下，该样本“具有某特征”的概率。
P(“属于某类”)=（在未知某样本具有该“具有某特征”的条件下，）该样本“属于某类”的概率。所以叫做『先验概率』。
P(“具有某特征”)=(在未知某样本“属于某类”的条件下，)该样本“具有某特征”的概率

而我们二分类问题的最终目的就是要判断 $P (“ 属于某类 ” ∣ “ 具有某特征 ”)$ 是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率，而后者获取方法就简单多了，我们只需要找到一些包含已知特征标签的样本，即可进行训练。而样本的类别标签都是明确的，所以贝叶斯方法在机器学习里属于有监督学习方法。

这里再补充一下，一般『先验概率』、『后验概率』是相对出现的，比如 $P (Y)$ 与 $P (Y ∣ X)$ 是关于 $Y$ 的先验概率与后验概率， $P (X) 与 P (X ∣ Y)$ 是关于 $X$ 的先验概率与后验概率。

4. 垃圾邮件识别

举个例子好啦，我们现在要对邮件进行分类，识别垃圾邮件和普通邮件，如果我们选择使用朴素贝叶斯分类器，那目标就是判断 $P (“ 垃圾邮件 ” ∣ “ 具有某特征 ”)$ 是否大于1/2。现在假设我们有垃圾邮件和正常邮件各1万封作为训练集。需要判断以下这个邮件是否属于垃圾邮件：

“我司可办理正规发票（保真）17%增值税发票点数优惠！”

也就是判断概率 P(“垃圾邮件”|“我司可办理正规发票(保真)17%增值税发票点数优惠！”) 是否大于1/2。

咳咳，有木有发现，转换成的这个概率，计算的方法：就是写个计数器，然后+1 +1 +1统计出所有垃圾邮件和正常邮件中出现这句话的次数啊！！！好，具体点说：

$P (“ 垃圾邮件 ” ∣ “ 我司可办理正规发票（保真） 17 增值税发票点数优惠！ ”)$
$= 垃圾邮件中出现这句话的次数垃圾邮件中出现这句话的次数 + 正常邮件中出现这句话的次数 = frac{垃圾邮件中出现这句话的次数}{垃圾邮件中出现这句话的次数+正常邮件中出现这句话的次数}$

5. 分词

一个很悲哀但是很现实的结论： 训练集是有限的，而句子的可能性则是无限的。所以覆盖所有句子可能性的训练集是不存在的。

所以解决方法是句子的可能性无限，但是词语就那么些！！汉语常用字2500个，常用词语也就56000个(你终于明白小学语文老师的用心良苦了)。按人们的经验理解，两句话意思相近并不强求非得每个字、词语都一样。比如“我司可办理正规发票，17%增值税发票点数优惠！”，这句话就比之前那句话少了“（保真）”这个词，但是意思基本一样。如果把这些情况也考虑进来，那样本数量就会增加，这就方便我们计算了。

于是，我们可以不拿句子作为特征，而是拿句子里面的词语（组合）作为特征去考虑。比如“正规发票”可以作为一个单独的词语，“增值税”也可以作为一个单独的词语等等。

句子“我司可办理正规发票，17%增值税发票点数优惠！”就可以变成（“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”)）。

于是你接触到了中文

来源：少奶奶的猪

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！