数学之美番外篇:平凡而又神奇的贝叶斯方法(4)——刘未鹏

模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian Occam’s Razor)

实际上,模型比较就是去比较哪个模型(猜测)更可能隐藏在观察数据的背后。其基本思想前面已经用拼写纠正的例子来说明了。我们对用户实际想输入的单词的猜测就是模型,用户输错的单词就是观测数据。我们通过:

P(h|D)∝P(h)*P(D|h)

来比较哪个模型最为靠谱。前面提到,光靠P(D|h)(即“似然”)是不够的,有时候还需要引入P(h)这个先验概率。奥卡姆剃刀就是说P(h)较大的模型有较大的优势,而最大似然则是说最符合观测数据的(即P(D|h)最大的)最有优势。整个模型比较就是这两方力量的拉锯。我们不妨再举一个简单的例子来说明这一精神:你随便找枚硬币,掷一下,观察一下结果。好,你观察到的结果要么是“正”,要么是“反”(不,不是少林足球那枚硬币:P),不妨假设你观察到的是“正”。现在你要去根据这个观测数据推断这枚硬币掷出“正”的概率是多大。根据最大似然估计的精神,我们应该猜测这枚硬币掷出“正”的概率是1,因为这个才是能最大化P(D|h)的那个猜测。然而每个人都会大摇其头——很显然,你随机摸出一枚硬币这枚硬币居然没有反面的概率是“不存在的”,我们对一枚随机硬币是否一枚有偏硬币,偏了多少,是有着一个先验的认识的,这个认识就是绝大多数硬币都是基本公平的,偏得越多的硬币越少见(可以用一个beta 分布来表达这一先验概率)。将这个先验正态分布p(θ)(其中θ表示硬币掷出正面的比例,小写的p代表这是概率密度函数)结合到我们的问题中,我们便不是去最大化P(D|h),而是去最大化P(D|θ)*p(θ),显然θ=1是不行的,因为P(θ=1)为0,导致整个乘积也为0。实际上,只要对这个式子求一个导数就可以得到最值点。

以上说的是当我们知道先验概率P(h)的时候,光用最大似然是不靠谱的,因为最大似然的猜测可能先验概率非常小。然而,有些时候,我们对于先验概率一无所知,只能假设每种猜测的先验概率是均等的,这个时候就只有用最大似然了。实际上,统计学家和贝叶斯学家有一个有趣的争论,统计学家说:我们让数据自己说话。言下之意就是要摒弃先验概率。而贝叶斯支持者则说:数据会有各种各样的偏差,而一个靠谱的先验概率则可以对这些随机噪音做到健壮。事实证明贝叶斯派胜利了,胜利的关键在于所谓先验概率其实也是经验统计的结果,譬如为什么我们会认为绝大多数硬币是基本公平的什么我们认为大多数人的肥胖适中什么我们认为肤色是种族相关的,而体重则与种族无关验概率里面的“先验”并不是指先于一切经验,而是仅指先于我们“当前”给出的观测数据而已,在硬币的例子中先验指的只是先于我们知道投掷的结果这个经验,而并非“先天”。

  然而,话说回来,有时候我们必须得承认,就算是基于以往的经验,我们手头的“先验”概率还是均匀分布,这个时候就必须依赖用最大似然,我们用前面留下的一个自然语言二义性问题来说明这一点:

The girl saw the boy with a telescope.

到底是The girl saw-with-a-telescope the boy这一语法结构,还是The girl saw the-boy-with-a-telescope呢种语法结构的常见程度都差不多(你可能会觉得后一种语法结构的常见程度较低,这是事后偏见,你只需想想The girl saw the boy with a book就知道了。当然,实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点,但是绝对不足以解释我们对第一种结构的强烈倾向)。那么到底为什么呢/p>

我们不妨先来看看MacKay在书中举的一个漂亮的例子:

数学之美番外篇:平凡而又神奇的贝叶斯方法(4)——刘未鹏

树后面到底有多少个箱子/p>

图中有多少个箱子别地,那棵书后面是一个箱子是两个箱子是三个箱子可能会觉得树后面肯定是一个箱子,但为什么不是两个呢下图:

数学之美番外篇:平凡而又神奇的贝叶斯方法(4)——刘未鹏

两种可能的解释

很简单,你会说:要是真的有两个箱子那才怪了,怎么就那么巧这两个箱子刚刚好颜色相同,高度相同呢/p>

用概率论的语言来说,你刚才的话就翻译为:猜测h不成立,因为P(D|h)太小(太巧合)了。我们的直觉是:巧合(小概率)事件不会发生。所以当一个猜测(假设)使得我们的观测结果成为小概率事件的时候,我们就说“才怪呢,哪能那么巧呢”

现在我们可以回到那个自然语言二义性的例子,并给出一个完美的解释了:如果语法结构是The girl saw the-boy-with-a-telecope的话,怎么那个男孩偏偏手里拿的就是望远镜——一个可以被用来saw-with的东东呢也忒小概率了吧。他咋就不会拿本书呢什么都好。怎么偏偏就拿了望远镜以唯一的解释是,这个“巧合”背后肯定有它的必然性,这个必然性就是,如果我们将语法结构解释为The girl saw-with-a-telescope the boy的话,就跟数据完美吻合了——既然那个女孩是用某个东西去看这个男孩的,那么这个东西是一个望远镜就完全可以解释了(不再是小概率事件了)。

自然语言二义性很常见,譬如这句话就有二义性:

原文地址:http://www.infzm.com/content/80731

 

 

来源:masikkk

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2012年8月17日
下一篇 2012年8月17日

相关推荐