【机器学习】贝叶斯十大知识点讲解

一、贝叶斯方法

1、含义
P ( A ∣ B )   =   P ( A , B ) P ( A ) = P ( B ∣ A ) P ( A ) displaystyle P( A|B) = frac{P( A,B)}{P( A)} =frac{P( B|A)}{P( A)} P(AB) = P(A)P(A,B)?=P(A)P(BA)?
其中 P ( A ) P(A) P(A)是先验概率, P ( B ∣ A ) P( B|A) P(BA)是后验概率, P ( A , B ) P( A,B) P(A,B)是联合概率。在机器学习中,最简单的二分类问题可以表示为 P ( ” 属 于 某 类 ” ∣ ” 具 有 某 种 特 征 ” ) P(“属于某类”|”具有某种特征”) P()的概率是否大于 1 2 displaystyle frac{1}{2} 21?
2、优点:
(1)运行速度快。对于文本分类任务,预测就是分词后进行概率乘积,如取log则直接做加法更快。
(2)在分布独立这个假设成立的情况下,相对于LR需要的样本量也更少一点。
(3)对于类别类的输入特征变量,效果非常好。对于数值型变量特征,默认符合正态分布的。
3、缺点:
(1)如果测试集某个类别变量特征,在训练集里未出现,则后验概率为0,导致预测结果失效。可以对其进行平滑处理,进行缓解。
(2)朴素贝叶斯算出的概率结果,仅适合比较大小,无法体现实际物理含义
(3)朴素贝叶斯有分布独立的假设前提,而实际中是很难完全独立的。

二、垃圾邮件识别

假正常邮件和垃圾邮件个1万作为训练集。需要判断以下邮件是否是垃圾邮件。即判断”P( “垃圾邮件”|“我司可办理正规发票(保真)17%”)是否大于 1 2 displaystyle frac{1}{2} 21?“。
1、在样本量足够多,满足大数定理:
P ( “ 垃 圾 邮 件 ” ∣ “ 我 司 可 办 理 正 规 发 票 ( 保 真 ) 17 % 增 值 税 发 票 点 数 优 惠 ! ” ) = 垃 圾 邮 件 中 出 现 这 句 话 的 次 数 垃 圾 邮 件 中 出 现 这 句 话 的 次 数 + 正 常 邮 件 中 出 现 这 句 话 的 次 数   displaystyle P( “垃圾邮件”|“我司可办理正规发票(保真)17%增值税发票点数优惠!”) =frac{垃圾邮件中出现这句话的次数}{垃圾邮件中出现这句话的次数+正常邮件中出现这句话的次数} P(17%)=+? 
训练集是有限的,而句子的可能性则是无限的(无法满足大数定理)。所以覆盖所有句子可能性的训练集是不存在的。但汉子常用字2500个,常用词语56000个。所以可以不拿句子作为特征,而使用句子里的词语(组合)作为特征。
2、分词后结果
P (   “ 垃 圾 邮 件 ” ∣ “ 我 ” , “ 司 ” , “ 可 ” , “ 办 理 ” , “ 正 规 发 票 ” , “ 保 真 “ ) = P ( ( “ 我 ” , “ 司 ” , “ 可 ” , “ 办 理 ” , “ 正 规 发 票 ” , “ 保 真 ” ) ∣ ” 垃 圾 邮 件 ” ) P ( “ 垃 圾 邮 件 ” ) P ( “ 我 ” , “ 司 ” , “ 可 ” , “ 办 理 ” , “ 正 规 发 票 ” , “ 保 真 ” ) displaystyle P( “垃圾邮件”|“我”,“司”,“可”,“办理”,“正规发票”,“保真“) =frac{P((“我”,“司”,“可”,“办理”,“正规发票”,“保真”)mid”垃圾邮件”)P(“垃圾邮件”)}{P(“我”,“司”,“可”,“办理”,“正规发票”,“保真”)} P( ,,,,,)=P(,,,,,)P((,,,,,))P()?
3、条件独立假设
贝叶斯公式 + 条件独立假设 = 朴素贝叶斯方法
注:“垃圾邮件”:S,“正常邮件”:H
P ( “

来源:马苏比拉米G

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年8月16日
下一篇 2019年8月16日

相关推荐