大数据讲堂:贝叶斯异论

大数据讲堂:贝叶斯异论优质

从8世纪的早期,威尼斯共和国是地中海一带的一个主要的强权国家。在其政权鼎盛时期,威尼斯控制了大部分的亚得里亚海岸,以及克里特岛和赛浦路斯岛,同时还垄断了东方通往欧洲的商业贸易路线。威尼斯共和国由一群贵族家族所统治,这些家族之间保持着某种民主的程序。整个国家名义上的领袖是总督,从公元697年该共和国成立起,到1797年被奥地利吞并,总共有150余任总督,有的任期很短,只有1年或不到1年,也有的任期长达34年。在世的总督去世之后,该共和国会遵守一项很复杂的选举程序,他们先从贵族家族的长者当中,以抽签的方式选出一小群元老,这些被选出的元老还会再挑选一些人加入到他们之中,之后再从这一扩大的元老群中以抽签方式选出一小群人。这样的程序进行几次之后,会选出一群最后的总督候选人,总督就在这群人当中产生。 在威尼斯共和国历史的早期,每阶段的抽签都要准备一批大小相同的蜡球,有的蜡球里什么都没有,有的蜡球里面却有一张小纸条,上面写着“元老”二字。到了17世纪,最后几个阶段用的道具是大小完全相同的金球与银球。公元1268年,当多杰·拉伊涅里·泽诺(Doge Rainieri Zeno)总督去世时,在第二阶段有30位元老,于是准备了30个蜡球,其中9个蜡球内藏有“元老”纸条。一个小孩被带过来,他从装有蜡球的篮子中取出一个蜡球,交给第一位元老候选人,这位元老候选人就打开蜡球,看看自己是否能够成为下一阶段的元老候选人。接着,小孩从篮子中取出第二个蜡球,交给第二位元老候选人,第二位再打开蜡球,以此类推。 在小孩选出第一个蜡球前,候选人群中的每个成员被选为下个阶段元老的概率是9/30。如果第一个蜡球是空的,剩下的候选人中每个人有9/29的概率成为下坠估摸元老。但如果第一个蜡球里有纸条,则其余人被选中的机会就剩下8/29。一旦第二个蜡球被选定且被打开,则下一个人被选中成为元老的概率同样会减少或增加,是减少还是增加取决于前次的抽球结果。这样继续抽下去,直到所有的9个纸条都被抽出为止。而在这时,剩下的候选人下一阶段成为元老的概率就降为零。 这是条件概率的一个例子。某一特定候选人被选为下一阶段元老的概率,取决于在他的选择之前被选出的蜡球。J·M·凯恩斯曾指出,所有的概率都是条件概率。用凯恩斯所举的一个例子:从他的图书室的书架上随机地选择一本书,而选中的书是精装本的概率,也是一种条件概率,其条件取决于他的图书室里究竟有多少书,以及他怎样“随机”地选取。一个病人患小细胞肺癌的概率,是以该病人的吸烟史为条件的。对一个控制实验,检验没有处理效果这一零假设所计算出来的P值,是以该实验的设计为条件的。条件概率的重要方面是,某些已知事件(例如在彩票发行过程中,某一组特定数字能赢)的概率,会随前提条件的不同而不同。 在18世纪,为处理条件概率而导出的公式都是根据以下的思想做出的,即条件事件要发生在所研究的事件之前。但是到了18世纪后期,R·T·贝叶斯在摆弄条件概率的公式时,忽然有个惊人的发现,这些公式都是内部对称的! 假设有两个事件在一段时期内发生,就像先洗牌,再发出5张扑克牌。我们称这两个事件分别为“前事件”(the events before)和“后事件”(the events after)。以“前事件”为条件讨论“后事件”的概率是有意义的。如果牌没有洗好,当然会影响玩家得到一对A的概率。贝叶斯发现,我们也可以“后事件”为条件计算“前事件”发生的概率。这是没有道理的。就像玩家已经拿到一对A之后,再来确定整副牌里有4张A的概率。或是已知一个病人已患了肺癌,再来计算他是吸烟者的概率。或者是已经知道了有个叫C·A·史密斯的人是唯一得到大奖的人,然后再计算州立彩票游戏公平不公平的概率。 贝叶斯把这些计算结果搁置起来,没有发表。在他死后,这些论文才被发现,而后才被发表出来。从那里起,贝叶斯定理就困扰着许多统计分析数学家。绝对不是毫无道理,贝叶斯将条件概率倒转过来反倒很有意义。当流行病学家试图想找出某种罕见医学病状的可能原因时,例如雷氏症候群(Reye’s syndrome),他们通常是利用病例控制研究方法(case-control study),在这种研究中,他们首先搜集一组患有该病症的病人,然后拿去与控制组的病人做比较,控制组的病人没有患这种疾病,但在其他方面与患有这种疾病的病人类似。于是,流行病学家在已知控制组病人已患有该疾病的条件下,计算某些先前治疗或先前条件导致该病的概率。吸烟对心脏病和肺癌都有影响,就是这样首次被发现的。镇静剂对新生儿畸形的影响,也是从这种病例控制研究中发现的。 直接应用贝叶斯定理,可以把条件概率反转过来,比这更为重要的,是使用贝叶斯定理估计分布的参数。有一种建议,可以把一项分布的参数本身看作是随机的,然后计算与这些参数相关的概率。例如,我们可能想要比较两种癌症治疗方法,并希望得到结论说“我们有95%的把握认为使用治疗方法A会比使用治疗方法B的5年期存活率高”。我们只要应用贝叶斯定理一两次就可以解决这个问题。 关于“逆概率”的问题 有很多年,以这种方式使用贝叶斯定理被认为是一种不适当的作法。当用于参数时,关于概率代表什么涵义有很多质疑。毕竟皮尔逊革命(Pearsonian revolution)的整个基础在于,科学的测量结果本身不再是我们所感兴趣的问题,相反,正如K·皮尔逊所指出的那样,我们所感兴趣的是这些测量结果的概率分布,而科学的调查研究的目的就是要估计出控制这些分布的那些参数值(固定的但却是未知的)。所以,如果这些参数被视为是随机的(而且以观测的测量结果为条件),那么这种方法就不再有这样清楚的意义了。 在20世纪的早些年,统计学家非常谨慎,避免使用人们所说的“逆概率”。有一次在皇家统计学会上,对费歇尔的一篇早期论文进行讨论时,就有人质疑他使用了逆概率,他坚定地为自己辩护,否认这项可怕的指控。在第一篇关于置信区间的论文里,奈曼似乎使用了逆概率的概念,但只是作为一个数学方法,用来得到一个计算结果,而在他的第二篇论文里,他证明不了不用贝叶斯定理也能得到相同的结果。到了20世纪60年代,为种方法的潜在力量与用途已开始吸引越来越多的研究者跟踪研究,这个贝叶斯异论变得越来越受尊重了。到了20世纪末,它已经达到了如此高的接受水平,如今在一些期刊像《统计年报》(Annals of Statistics)和《生物统计》上,几乎半数以上的文章现在都使用贝叶斯方法。不过,贝叶斯方法的应用仍然会经常遭到质疑,尤其是在医学领域。 在解释贝叶斯异论时碰到的一个困难是,目前有好几种不同的分析方法,而这些方法的应用又至少有两种完全不同的哲学基础。长期以来,看上去好像完全不同的思想却经常贴着相同的标签——贝叶斯。后面我将说明贝叶斯异论的两个种理论:贝叶斯层次模型(Bayesian hierarchal model)和个人概率(personal probability)。 贝叶斯层次模型 20世纪70年代早期,由于弗雷德里克·莫斯特勒(Frederidck Mosteller)和大卫·华莱士(David Wallace)早期的工作和贡献,原文分析的统计方法有了很大的进展,他们俩人曾运用统计方法来判定《联邦主义论文集》(Federalist)中一些匿名文章的作者。自1787年,在纽约州带头鼓动通过新的美国宪法期间,詹姆士·麦迪逊(James Madison)、亚力山大·汉密尔顿(Alexander Hamilton)和约翰·杰伊(John Jay)写了大约70篇文章,支持通过宪法。但这些文章都是匿名发表的。19世纪初,汉密尔顿与麦迪逊两人开始确认这些两个人都声称有著作权的论文,其中有12篇文章他们都认为是自己写的。 在用统计方法对这些署名有争议性的文章进行分析时,莫斯特勒与华莱士找出了几百个无“特定内容”的英文词汇,如“if”、“when”、“because”、“over”、“whilst”、“as”、“and”等。这些字在句子里只有语法上的意义,本身并没有什么特定的含义,这些字的使用主要取决于作者的语言使用习惯。在这上百个没什么特定含义的字里,他们发现,大约有30个字在这两位作者的其他著作中使用频率不同。 例如,麦迪逊使用“upon”这个字的频率,是每千字平均0.23次,但汉密尔顿对这个字的使用频率很高,平均每千字高达3.24次(在12篇署名有争议的文章里,有11篇根本没有用“upon”这个字,而在剩下的那一篇文章中,平均每千字就出现1.1次)。这些平均的频率并不是描述一千字中任何特定组合。这些数值本身并不是整数,这就意味着这些频率并不是在描述任意一个观测的文字序列。这些数值其实是两位不同作者在写作时用字分布的其中一个参数的估计值。 对于某篇文章著作权的争议,所要解决的问题是:这些文章中用词的分布形态,是来自与麦迪逊相联的概率分布呢?还是来自与汉密尔顿相联的概率分布?这些分布各有各有参数,其中能够定义出各自作品的特定参数各不相同。参数值只能根据他们的论文来估计,而且这些估计可能是错的。因此,要想区分哪个分布可应用在一篇署名有争议的文章上,充满了这种不确定性。 估计这种不确定性水平的一种方法是,这两个人的分布参数的确切值,是来自于描述18世纪晚期所有北美洲有教养的人用英文写作时用字习惯的参数分布。例如,汉密尔顿每千字中用到“in”这个字24次,麦迪逊则是每千字用23次,而同时代的其他作家,使用“in”这个字的频率在每千字22至25次之间。 由于受到当时和当地一般用字分布形态的制约,每个人分布的参数是随机的,并且具有一个概率分布。这样一来,制约汉密尔顿和玫迪逊使用这些无特定含义的字的参数本身也有参数,我们可以称之为“超参数”(hyper-parameter)。根据当时和当地其他作者发表的文章来分析,我们就能估计出这些超参数。 英语语言总是随着时间和地域的变化而变化。例如在20世纪的英语文学里,使用in的频率通常是每千字少于20次,这表明从汉密尔顿和麦迪逊的时代到现在的200多年里,英语的用字型态已经 稍微有所转变。我们可以把这些定义18世纪北美用字习惯参数分布的越参数,看作是它们本身也有一个相对于所有时间与空间的概率分布。因此,除了用18世纪的北美作品,我们还可以搜集其它地区和其它时期的英语文献,来估计这些超参数的参数,我们可以称这些参数为“超-超参数”(hyper-hyperparameter)。 通过重复使用贝叶斯定理,我们就能决定这些参数的分布,然后再决定这些超参数的分布。从原则上来说,我们可以用超-超-超参数求出超-超参数的分布,进而把这种层次分析引向深入,依次类推。但在我们的例子里,显然没有必要进一步分析,以免增添更多的不确定性。利用超参数与超-超参数的估计值,莫斯特勒与华莱士就能算出与下面这个陈述有关的概率:是麦迪逊还是汉密尔顿写了这篇文章。 自20世纪80年代早期以来,贝叶斯层次模型已经成功地解决了许多工程上和生物学上的难题。比如,一些数据看上去似乎是来自于两个或两个以上不同的分布,这个问题就属于这类难题。分析家可以建议,有一个未观测到的变量存在,而这个变量可以定义已知的一个观测结果究竟来自于哪个分布。这个差别标识本身是个参数。但它还有一个概率分布(含有超参数),这个概率分布可以纳入到似然函数当中来进行分析。莱尔德和韦尔的EM演算法特别适合于解决这类问题。 统计文献中对贝叶斯方法的广泛使用充满了混淆与争议。大家可以提出得出不同结果的不同方法,但却没有明确的标准来决定哪个是对的。通常,保守肖像统计学家反对使用贝叶斯定理,而贝叶斯学派的人彼此对他们模型的细节看法也不一致。这种混乱的状况亟需另一个像费歇尔这样的天才出现,找出一个统一的原则来解决这些争议。当我们进入21世纪的时候,还没有这样的天才出现。因此,相关的问题还是像在200多年前的贝叶斯时代一样,令人困惑。 个人概率 另外一种贝叶斯方法其基础看上去要坚实得多。这就是个人概率(personal probability)的概念。个人概率的意思自从17世纪贝努里一开始研究概率时就已经产生了。实际上,概率(probability)这个英文字创造的初衷,就是用来处理主观不确定性的。 L·J·萨维奇和布鲁诺·德费奈蒂在20世纪60年代和70年代,推导出了个人概率背后的许多数学模式。我在20世纪60年代末期曾参加一场在北卡罗来纳大学举办的统计学会议,会上萨维奇在演讲中曾阐述他的一部分想法。萨维奇认为,世界上并没有“已被证明的科学事实”这样的事情。有的只是一些陈述,而那些自认为是科学家的人对这些陈述持有很高的赞成概率。他举例说,在场听他演讲的人对“地球是圆的”这项陈述一定持有很高的认同概率,但若我们有机会对全世界的人做一次普查,则我们很可能发现在中国中部的许多农民对上述陈述持有很低的概率。 讲到这里的时候,萨维奇不得不被迫停下来,因为校园晨一群学生正在会堂外游行通过。他们还高喊着口号“停止上课!罢课!罢课!停止上课!”这些学生在要求全校的学生罢课,以抗议越南战争。等到他们走远,四周又恢复平静,萨维奇才看看窗外,然后说:“看来,我们可能是认为地球是圆的人中的最后一代。 个人概率有许多不同的版本。其中一个极端是萨维奇-德费奈蒂的方法,该方法认为每个人都有其自己独特的一套概率。而另一个极端则是凯恩斯的观点,他认为概率是一种信仰程度(the degree of belief),这种信仰是一个在特定的文化环境中一个有教养的人可能期望持有的信念。按照凯恩斯的观点,一个特定文化环境中的所有人(萨维奇所说的科学家或中国中部的农民)对某一特定的陈述,会持有一个一般的概率水平。由于这个概率水平取决于文化和时间,因此从某种绝对的意义上为说,很有可能这个适当的概率水平是错的。 萨维奇和德费奈蒂则主张每个人都有自己特定的一套个人概率,他们还描述怎样运用一种叫做“标准赌博”(standard gamble)的技巧把这种人人概率求出来。为了让整个文化中的人能共享既定的一套概率,凯恩斯不得不弱化相关的数学定义,概率不再是一个精确的数字(例如67%),而是一种将想法排序的方法(例如,明天可能下雨的概率大于可能下雪的概率)。 不管个人概率的概念是如何被准确定义的,贝叶斯定理在个人概率中的应用方式,看上去与大多数的想法相吻合。贝叶斯方法一开始是假设在一个人的头脑中有一组先验概率(a prior set of probabilities),接下来这个人经过观测或实验产生了数据,然后再拿这组数据来修正先验概率(prior probability),生成一组后验概率(a posterior set of probabilities): 先验概率→数据→后验概率 假设这个人想确定是否所有的大乌鸦都是黑的。她首先存有一些关于“这个陈述是真的”概率的先验知识。例如,起初她可能对大乌鸦一无所知,对“所有大乌鸦都是黑的”这句话半信半疑,相信比例是50:50。数据则包括她对大乌鸦的观测。假如她看到了一只大乌鸦,而且这只大乌鸦是黑色的,她的后验概率就会增加。因此下一次她再观测大乌鸦时,她的新的先验概率(也就是上一次的后验概率)就会大于50%,如果她继续观测大乌鸦而且都是黑的,这个概率还会继续上升。 另一方面,一个人也有可能在进行观测之前就已经带着非常强的事前主见,其程度非常强,需要有很大量的数据才能改变这个事前主见。在20世纪80年代,美国宾夕法尼亚州的三里岛核电厂发生了近乎是灾难性的事故。反应炉的操作员面对一个很大的操作盘,通过上面的各种仪表和指示灯来了解反应炉的运转情况。这些指示灯当中有一些是警告灯,其中有的出过问题,以前曾经发出过假的警告。当时操作员有个事先的成见,当他们看见任何一个新的警告灯亮时,总是认为它是假的信号。结果,即使当警告灯的型态及相关的指示器都一致显示反应炉的水位过低时,他们仍然置之不理。他们的先验概率太强了,以至于新的数据也无法使后验概率产生多大的改变。 假定只有两种可能性,就像前面署名有争议的联邦主义论文的例子:它不是麦迪逊写的就是汉密尔顿写的。于是,在应用了贝叶斯定理之后,就会得到了一个先验胜率(prior odds)与后验胜率(posterior odds)之间的简单关系,这里的数据可以归纳成一种称为“贝叶斯因子”(Bayes factor)的东西。这是一种根本不用参考先验胜率来刻画数据的一种数学计算。有了这个计算工具,分析家就可以告诉读者,插入任何他想要的先验胜率,乘以计算出来的贝叶斯因子,再计算后验胜率。莫斯特勒与华莱士对12篇署名有争议的文章,每篇都是这样处理的。 此外,他们对文章里的那些无特定含义的字出现的频率,还进行了两种非贝叶斯分析。这样他们有了四种方法来判断有争议文章的作者:层次贝叶斯模型,计算的贝叶斯因子,以及两个非贝叶斯分析方法。结果如何呢?所有12篇文章都压倒性地指向麦迪逊。实际上,如果使用计算的贝叶斯因子,那么对某几篇文章来说,读者认为是汉密尔顿写的先验胜率可能要大于100000:1才有办法让后验胜率为50:50。

更多热门推荐:
分享到 :
相似文章

发表评论

登录... 后才能评论