贝叶斯统计与经典统计参数估计的差异,贝叶斯参数估计matlab教程

　　http://blog.csdn.net/pipisorry/article/details/51471222

　　贝叶斯和频率学派思想

　　很长一段时间以来，人们对于某件事是否发生只有固定的0和1，即要么发生，要么不发生。他们从不考虑某件事发生或不发生的概率。而且，虽然某件事发生或不发生的概率是未知的，但至少是一个确定的值。

　　比如你问当时的人一个问题：“有一个袋子，里面装着若干个白球和黑球。从袋子里得到白球的概率有多大？”他们会马上告诉你，取出白球的概率是1/2，要么得到白球，要么得不到，也就是只能有一个值，而且不管你取多少次，得到白球的概率永远是1/2，也就是不随观测结果x而变化。

　　这种频率学派的观点在很长一段时间内主导了人们的观念，直到一个名叫托马斯贝叶斯的人物出现。

　　频率学派把要推断的参数看作一个固定的未知常数，即虽然概率未知，但至少是某个值。同时，样本X是随机的，所以频率学派侧重于样本空间，大部分概率计算都是针对样本X的分布；

　　最大似然估计(MLE)和最大后验估计(MAP)都是将待估计的参数视为一个具有固定值的变量，但该值是未知的。通常的估计方法是在对应函数最大化时求参数；相对于MLE，MAP会考虑先验分布的影响，所以MAP也会有超参数，它的超参数代表一种信念，会影响推理的结果。比如抛硬币，如果我先假设它是一枚公平的硬币，这也是一种归纳偏差，那么最终的推断结果就会受到我们预先假设的影响。

　　贝叶斯思想

　　回到上面的例子：“有一个袋子，里面有几个白球和黑球。从袋子里得到白球的概率是多少？”贝叶斯认为得到白球的概率是一个不确定值，因为它包含了机会的成分。比如朋友创业，你明明知道创业有两种结果，就是成功或者失败，但是你还是忍不住去估计他成功的概率。如果你很了解他，而且有方法，思路清晰，有毅力，能团结周围的人，你不禁估计他创业成功的概率可能在80%以上。这种不同于原来“非黑即白，或0或1”的思维方式，就是贝叶斯思维方式。

　　既然贝叶斯将其视为随机变量，那么要计算的分布就得事先知道是无条件分布，也就是在有样本之前(或者观察到X之前)，它是什么样的分布？

　　比如你把球扔在台球桌上，球会落在哪里？如果不偏不倚地把球扔出去，它落在台球桌任意位置的机会都是一样的，即球落在台球桌某一位置的概率服从均匀分布。这种分布，属于实验前的基本前提，叫做先验分布，或者无条件分布。

　　贝叶斯认为待估计的参数是随机变量，服从一定的分布，而样本X是固定的。因为样本是固定的，所以他们关注的是参数的分布。

贝叶斯及贝叶斯派思考问题的固定模式

先验分布样本信息后验分布

　　上述思维模式意味着新观察到的样本信息会修正人们之前对事物的认知。换句话说，在获得新的样本信息之前，人的认知是先验分布，获得新的样本信息之后，人的认知是。

　　其中，先验信息一般来源于经验和历史数据。比如丹琳对阵某一位选手，解说一般会根据丹琳的历次比赛成绩，对这场比赛的胜负做出大致的判断。比如某厂每天对产品进行质量检测，评估产品的不合格率。一段时间后，会积累大量的历史数据，这就是先验知识。有了这些先验知识，就有了决定一个产品是否需要日常质量检测的基础。如果之前的历史数据显示某产品不合格率仅为0.01%，则可视为信得过产品或免检产品，一个月只抽检一到两次，省去了需要。

　　后验分布一般被认为是给定样本下的条件分布，其最大值称为最大后验估计。

　　皮皮博客

　　贝叶斯定理

条件概率

　　条件概率(也叫后验概率)是在另一个事件B已经发生的条件下，事件A的发生概率。概率表示为P(AB)，读作“B条件下A的概率”。

　　联合概率表示两个事件一起发生的概率。A和B的联合概率表示为或。

　　边际概率(也称为先验概率)是事件发生的概率。边际概率是这样得到的：在联合概率中，最终结果中不必要的事件合并到它们的全概率中，并被剔除(总概率由离散随机变量求和得到，总概率由连续随机变量积分得到)，称为边缘化。例如，A的边际概率表示为P(A)，B的边际概率表示为P(B)。

贝叶斯定理

贝叶斯定理是关于随机事件A和b的条件概率和边际概率的定理。

　　在参数估计中，可以写成如下形式：

　　该公式也称为逆概率公式，可以将后验概率转化为基于似然函数和先验概率的计算表达式，即

在贝叶斯定理中，每个名词都有约定俗成的名称：

　　P(A)是A的先验概率或边际概率，它被称为‘先验的’，因为它不考虑任何B因素。

　　P(AB)是已知B发生后A的条件概率(B发生时A发生的可能性)，又因从B得到的值而称为A的后验概率。

　　P(BA)是已知A的发生后B的条件概率，又因从A得到的值而称为B的后验概率。

　　P(B)是B的先验概率或边际概率，也叫归一化常数)。

按这些术语，Bayes定理可表述为：

　　后验概率=(相似度*先验概率)/标准化常数，即后验概率与先验概率和相似度的乘积成正比。另外，比值P(BA)/P(B)有时称为标准相似度，贝叶斯定理可以表示为：

　　后验概率=标准相似度*先验概率

　　贝叶斯估计的例子假设中国的大学只有两种：理工科和文科。这两所学校的人数比例为1:1，其中理工科与男性比例为7:1，文科为1:7。有一天，你被外星人随机扔到一个校园里，问你学校里男女比例可能是多少？然后，你居然在校园里转了一圈，看到的五个人都是男的。这个时候再问你一遍这个校园男女比例是多少？

　　因为当初是有先验知识的，这个学校的男女比例不是7:1就是1:7，也就是P(比例7:1)=1/2，P(比例1:7)=1/2。然后看到5个男生后，重新估算男女比例，其实就是求P(比例7:15个男生)=？p(比例1:75男生)=？利用贝叶斯公式可以得到：P (7:15个男生)=P (7:1)*P(5个男生 7:1)/P(5个男生)。P(5个男生)是5个男生的先验概率，与学校无关，所以是常数；同理，P (1:75男生)=P ((1:7)*P(5男生 1:7)/P(5男生)。最后，通过比较以上两个方程，我们可以得到：P (7:15男生)/P (1:75男生)={P ((7:1)*P(5男生 7:1)}/{P (1:7)*P(5男生频率派与贝叶斯派的区别频率派把待推断的参数看作一个固定的未知常数，即虽然概率未知，但至少是某个值。同时，样本X是随机的，所以频率学派侧重于样本空间，大部分概率计算都是针对样本X的分布；

　　贝叶斯学派的观点则相反。他们认为参数是随机变量，而样本X是固定的。因为样本是固定的，所以他们关注的是参数的分布。

　　两者的本质区别

　　根据贝叶斯法则：

　　posterior=likelihoodpriorevidence

　　也就是

　　p(X)=p(X)p()p(X)

　　在MLE和MAP中，不考虑证据，因为在需要函数的最大值时，证据是一个参数。但在贝叶斯估计中，不再直接取极值，所以也会考虑证据。下面这个积分也是贝叶斯估计中最难处理的部分：

　　p(x)=p(x)p()d

　　证据相当于对所有似然概率(离散时)进行积分或求和，所以也叫边界似然。

　　未知参数估计不同思路的例子我去一个朋友家：按照频率派的思路，我估计他在家的概率是1/2，不在家的概率也是1/2，是一个固定值。

　　按照贝叶斯学派的思想，他待在家里与否的概率不再被视为一个固定值1/2，而是一个随机变量。比如根据我们的经验(比如当天的周末)，猜测他在家的概率是0.6，但这个0.6要么是说，要么是完全确定，也可能是0.7。由此，贝叶斯学派无法给出参数的确定值(0.3，0.4，0.6，0.7，0.8，0.9都有可能)，但至少它知道哪些值(0.6，0.7，0.8，0.9)可能性较大，哪些值(0.3，0.4)可能性较小。再者，在贝叶斯估计中，参数的几个估计值服从某个先验分布，然后根据实践中得到的数据(比如周末不断去他家拜访)，不断修正之前的参数估计，先验分布慢慢转移到后验分布。

　　各种参数估计方法可以参考海因里希论文的第二部分。

　　【【各种参数估计方法的讨论：Gregor Heinrich。文本分析的参数估计*]

　　数理统计简史

　　《统计决策论及贝叶斯分析 James O.Berger著》

　　【概率图模型原理与技术】*

　　【用于机器学习的Python从零实现贝叶斯分类器】】皮皮博客

　　贝叶斯估计

　　贝叶斯估计是MAP的进一步扩展。此时，并不直接估计参数的值，而是允许参数服从一定的概率分布。最大似然估计和最大后验概率估计都计算参数的值，而贝叶斯推断不计算。贝叶斯推理扩展了最大后验概率估计(一个等于，一个约等于)的MAP方法，根据参数的先验分布P()和一系列观测值X计算参数的后验分布P( X)，然后计算的期望值作为其最终值。此外，定义了参数方差来评估参数估计的准确性或置信度。

　　贝叶斯规则

　　现在不要求后验概率要最大，所以要求通过扩展全概率公式可以得到观测证据概率。

　　当观察到新的数据时，后验概率可以相应地自动调整。但通常情况下，寻找全概率的方法是贝叶斯估计的技巧部分。

　　使用贝叶斯估计进行预测。如果要求一个新值的概率，可以用下面的公式计算。

　　此时，第二个因子on的积分不再等于1，这与MLE和MAP有很大的不同。

　　抛硬币伯努利实验的例子和上面最大后验概率的例子是一样的。参数p(即正概率)的先验分布是n次伯努利实验的参数为(5，5)的贝塔分布。然后，我们会根据参数p的先验分布和n次伯努利实验的结果，求出p的后验分布。我们假设先验分布是贝塔分布，但在构造贝叶斯估计时，不要求用最大后验逼近参数值，而是求满足贝塔分布的参数P的期望，即直接写出参数分布，然后求分布期望，有

　　注意：

　　c是所有实验结果的集合，Ci=1或0。

　　这里用的是公式。

　　4推演也可以参考【题目模型：LDA中的数学模型：Beta-二项式共轭部分】。结果显示，根据贝叶斯估计，参数p服从一个新的贝塔分布。回想一下，我们为p选择的先验分布是贝塔分布，那么贝叶斯估计的以p为参数的二项分布的后验概率仍然服从贝塔分布，所以我们说二项分布和贝塔分布是共轭分布。当t是二维时，可以应用于贝塔分布；t多维情境可以应用于奋斗招牌的分布。

　　根据贝塔分布的期望和方差计算公式，我们有

　　可以看出，此时估计的P的期望值与MLE和MAP中得到的不同。此时，如果我们仍然做20个实验，12个阳性，8个阴性，那么Bayes估计的P满足参数为12 5和8 5的Beta分布，其均值和方差分别为17/30=0.567，17 * 13/(31 * 30 2)=0。可以看出，此时得到的p的期望小于MLE和MAP得到的估计值，更接近于0.5。

　　皮皮博客

　　贝叶斯参数估计

　　在贝叶斯方法中，参数被视为影响所有训练样本概率的不可观测变量。所以学习相当于根据观察计算一个新样本的概率。这种学习可以通过计算参数的后验概率来完成(分母也要计算？)并用于预测。

　　而MAP后验估计就是根据最大p( X)计算新样本的概率？

　　图钉和硬币的例子

　　联合概率模型将贝叶斯学习视为包含所有例子和参数中所有变量的元网中的推理问题。计算未来事件的概率相当于在给定前M个观测实例的情况下，执行一个关于第M个实例的后验概率的查询。

　　用一个概率分布来表达参数的先验知识，在和观测数据x上建立一个联合分布(也就是说，把当作一个随机变量，而不是一个待估计的参数)

　　当固定时，不同投掷室的条件是独立的；当未知时，每次投掷都可以传达一些关于参数的信息，不同投掷之间的边独立性不成立。这种直觉和贝叶斯网络的独立性是一致的！

　　注意：x的每个值代表每次投掷的不同结果。

　　以及参数和数据的联合分布。

　　注意：公式和MLE的唯一区别是增加了一个P(theta)。还要注意它和贝叶斯网络的MLE估计的区别[]。

　　联合分布，后验分布，似然性和先验关系。