【机器学习】贝叶斯十大知识点讲解

一、贝叶斯方法

1、含义
$P ( A ∣ B ) = P ( A , B ) P ( A ) = P ( B ∣ A ) P ( A ) displaystyle P( A|B) = frac{P( A,B)}{P( A)} =frac{P( B|A)}{P( A)}$
其中 $P (A)$ 是先验概率， $P (B ∣ A)$ 是后验概率， $P (A, B)$ 是联合概率。在机器学习中，最简单的二分类问题可以表示为 $P (“ 属于某类 “ ∣ “ 具有某种特征 “)$ 的概率是否大于 $1 2 displaystyle frac{1}{2}$ 。
2、优点：
（1）运行速度快。对于文本分类任务，预测就是分词后进行概率乘积，如取log则直接做加法更快。
（2）在分布独立这个假设成立的情况下，相对于LR需要的样本量也更少一点。
（3）对于类别类的输入特征变量，效果非常好。对于数值型变量特征，默认符合正态分布的。
3、缺点：
（1）如果测试集某个类别变量特征，在训练集里未出现，则后验概率为0，导致预测结果失效。可以对其进行平滑处理，进行缓解。
（2）朴素贝叶斯算出的概率结果，仅适合比较大小，无法体现实际物理含义
（3）朴素贝叶斯有分布独立的假设前提，而实际中是很难完全独立的。

二、垃圾邮件识别

假正常邮件和垃圾邮件个1万作为训练集。需要判断以下邮件是否是垃圾邮件。即判断”P( “垃圾邮件”|“我司可办理正规发票（保真)17%”)是否大于 $1 2 displaystyle frac{1}{2}$ “。
1、在样本量足够多，满足大数定理：
$P ( “ 垃圾邮件 ” ∣ “ 我司可办理正规发票（保真） 17 % 增值税发票点数优惠！ ” ) = 垃圾邮件中出现这句话的次数垃圾邮件中出现这句话的次数 + 正常邮件中出现这句话的次数 displaystyle P( “垃圾邮件”|“我司可办理正规发票（保真）17%增值税发票点数优惠！”) =frac{垃圾邮件中出现这句话的次数}{垃圾邮件中出现这句话的次数+正常邮件中出现这句话的次数}$
训练集是有限的，而句子的可能性则是无限的（无法满足大数定理）。所以覆盖所有句子可能性的训练集是不存在的。但汉子常用字2500个，常用词语56000个。所以可以不拿句子作为特征，而使用句子里的词语（组合）作为特征。
2、分词后结果
$P ( “ 垃圾邮件 ” ∣ “ 我 ” , “ 司 ” , “ 可 ” , “ 办理 ” , “ 正规发票 ” , “ 保真 “ ) = P ( ( “ 我 ” , “ 司 ” , “ 可 ” , “ 办理 ” , “ 正规发票 ” , “ 保真 ” ) ∣ ” 垃圾邮件 ” ) P ( “ 垃圾邮件 ” ) P ( “ 我 ” , “ 司 ” , “ 可 ” , “ 办理 ” , “ 正规发票 ” , “ 保真 ” ) displaystyle P( “垃圾邮件”|“我”,“司”,“可”,“办理”,“正规发票”,“保真“) =frac{P((“我”,“司”,“可”,“办理”,“正规发票”,“保真”)mid”垃圾邮件”)P(“垃圾邮件”)}{P(“我”,“司”,“可”,“办理”,“正规发票”,“保真”)}$
3、条件独立假设
贝叶斯公式 + 条件独立假设 = 朴素贝叶斯方法
注：“垃圾邮件”：S，“正常邮件”：H

来源：马苏比拉米G

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

【机器学习】贝叶斯十大知识点讲解

一、贝叶斯方法

二、垃圾邮件识别

相关推荐