概率和贝叶斯公式推导

原创 2018-06-14 17:18 阅读(177)次

概率和贝叶斯公式的推导

其中一部分来自知乎猴子的文章

https://www.zhihu.com/question/26895086/answer/224503078

https://www.zhihu.com/question/27462939

和 

http://blog.chinaunix.net/uid-26548237-id-3853399.html   这个也是转载的,不过原地址文章图片有部分无法显示了,所以我还是注明是chinaunix这个地址吧。


我们经常会在生活中听到这句话:选择比努力更重要相信。你也无数次听过这句话,但是有没有想过:这句话背后的真实含义是什么呢?我们每天拥有固定的时间和精力,注意这里“固定”是指你的资源和时间都是有限的。在这个前提下,把它们投入到哪些方向上能够取得最佳的效果,这是我们每天都要思考的问题。

举个具体的例子,假如你刚毕业,已经拿到3家公司的offer,一家传统企业的职位,一家创业公司的职位,一家上市互联网公司的职位,你选哪个?因为你的时间和精力是有限的,所以你不能同时到这3个公司去上班赚钱,不然你就是孙悟空72变了。你只能在有限的资源和时间下,做一个最佳选择,这个选择代表你去哪家公司工作,未来3年内能让你赚钱能力提升的可能性最大。

这里我们提到可能性,但是只知道可能性是无法做出判断的。例如我告诉你腾讯股票明天上涨的可能性很大,同时我也告诉你阿里巴巴股票明天上涨的可能性很大。但是你的钱是有限的,只能选择其中1个来购买。然而不幸的是,我只告诉你两个股票都可能上涨,但是你却没办法判断出买哪支股票是最好的选择。所以只知道可能性是不行的,这时候数学家就出来吼了一嗓子:如果用某种办法计算出可能性,并用数值来表示这种可能性,不就解决了。还是刚才的例子,我告诉你腾讯股票上涨的可能性是70%,阿里巴巴上涨的肯能新是90%,两个可能性的数值一比较,你立马知道该怎么选择了。

这里用数值来衡量可能性就是下面图片里描述的概率。




概率就是用数值来表示某件事发生的可能性。 当你知道了概率这个数值,就代表你可以预测未来,因为你能通过概率来判断出哪种情况发生的可能性最大。

例如你在玩抛硬币游戏,正面朝上的可能性是多少呢?由于硬币只有两面,也就是落地后有两种结果,要不正面朝上,要不就是反面朝上,所以抛硬币正面朝上的可能性用数值来表示,概率就是50%,你看,概率就在我们的日常生活中。只要你面临选择的问题,概率就会用数值表达哪种可能性最大,然后帮助你做出最好的选择。

概率的值永远在0-1范围之间。如果某件事不可能发生,则其概率为0,对应的就是这条直线上最左端的位置。如果某件事肯定会发生,则其概率为1,,对应的就是这条直线上最右端的位置,也就是那个点赞的大拇指。大多数时候,你所面临的都是介于0和1之间的概率事件。

如何计算概率?
在理解了概率的本质含义后,我们一起聊下如何计算概率。
概率计算分为2种,一种是客观概率,一种是主观概率。


1)客观概率的计算
客观概率可以根据历史统计数据或是大量的试验来推定。比如抛硬币,你可以重复的做实验。

例如你在玩抛筛子游戏,想知道筛子落下来后正面朝上数字为1的概率是多大?我们来想想这个过程,一个筛子有6个面,6个面的数字分别是1到6这6个数值,所以筛子落下来总共有6种可能的结果。筛子正面朝上数字为1的情况只有1种,那么筛子正面朝上为1的概率=正面朝上数字为1的可能数目/所有可能结果的数目=1/6。这里分母是6表示跑筛子这个事情总共有6种结果,分子是1表示正面朝上数字为1的可能结果只有1中,所以是1/6。我们可以用一种更通用的方法表示以上情况,对于事件A的概率=发生事件A的可能个数/所有可能的结果总数。在统计概率中用“事件”表示某件事情。例如刚才抛筛子上面朝上数值为1就是一个事件。在一定条件下,可能发生,可能不发生的事件叫做随机事件。例如我们抛骰子就是一个随机事件。
当然这是最简单的概率计算,有时候概率计算很复杂。假如你不知道某件事情发生的可能结果,就没办法计算概率了。这时候该怎么办呢?我这里给出两个经常用的求概率的办法。第1个计算概率的办法是寻找这个行业里的权威机构或者网上查资料去了解,一般会有前人计算出的概率给你参考。

但是如果网上查不到前人计算的概率值,该怎么办呢?可以用第2中计算概率的办法:数据分析。这里我们举一个例子,你就明白啦。保险公司在提出一个保险项目之前,都会有一名保险商计算出该项目的发送概率,一旦确定了确定了发生概率,保险商就能决定该项保险的投保费用是多少。投保费用的计算我之后的文章会详细讲,这里我们重点来看下保险商是如何计算概率的。例如林志玲小姐经常在高尔夫球场附近跑步,为了防止被突然飞过来的高尔夫球打破自己漂亮的脸蛋,她就去买保险。这时候保险商就要计算出一个高尔夫球场打伤1个人的概率是多少。
如何计算概率呢?保险商要做的第一件事,就是去咨询一下职业高尔夫协会,了解一下一年里面有多少人被飞来的高尔夫球打的受伤。咨询后得知一年有35人被打伤。第2步,保险商获取到全国高尔夫球的数据,然后统计出全国有20万的高尔夫球场。第3步,该保险商用我们前面介绍的计算概率的公式,发生该事件的个数35,除以高尔夫球场的总数20万,就得到一个高尔夫球场打伤1个人的概率了。

同样的道理,在复杂的数据分析中,计算概率也是想办法从数据中找到发生某件事情的数目,然后除以总数目。

2)主观概率
主观概率无法用试验或统计的方法来检验其正确性。比如天气预报说明天下雨的概率是30%,你不可能把明天过上100次,然后说30天下雨。
贝叶斯定理就是一种计算主观概率的方法。

聪明的人会使用这类数据为自己的事业,生活,和投资指明方向。牛人就是持续对大概率事件下注,并同时有意识预防那些足以毁掉你生活的风险。


1 什么是相关事件?

聪明的人会使用这类数据为自己的事业,生活,和投资指明方向。牛人就是持续对大概率事件下注,并同时有意识预防那些足以毁掉你生活的风险。

雷军在创业之初,用了两年半的时间,把手机从零做到了中国出货量第一,全球出货量第三。然而在过去的两年,小米也遇到了坎坷。2016年的时候,小米手机全球出货量跌出了前5名。

雷军经过了一些列的调整,小米在2017年第二季度业绩实现了逆转,走出了低谷,重回全球第5的位置

雷军说:我们一直专注线上,但错过了县乡市场的线下换机潮电商只占商品零售总额的10%,小米就算线上市场100%都是自己的,也只占整个零售市场10%。意识到这一点之后,雷军做了一系列战略调整,就是建立了线下零售店铺~小米之家。再次重整旗鼓。

这里雷军说的事情A(小米手机销量),与事件B(电商只占商品零售总额的10%),就是相关事件。

2 什么是条件概率?

相关事件的概率也叫叫条件概率,什么是条件概率呢?

就是说事件A(雷军卖手机)在另外一个事件B(电商只占商品零售总额的10)已经发生条件下的发生概率。

所以,到今天为止90%的人买东西还是在线下买,也就是说就算线上100%是你的,即使你全部占有也只有10%的市场

讲到条件概率不得不提到下面有名的红球蓝球实验

布袋里有 2颗蓝色球和 3颗红色球 。每次随机冲布袋里拿一颗,记住拿完子弹就不放回布袋了。连续2次拿到 蓝球的概率是多少?在计算概率之前,我们需要弄清楚,第1次拿球和第2次拿球是相关事件还是独立事情。

1)第1次随机拿一颗,拿到蓝色的概率是多少?可能性是 五分之二

2)但拿掉一颗之后情形便不同了,所以拿第二个的时候:
如果第一次拿的是红的(对应图中的红色箭头),剩下的球里面是2颗篮球,2颗红球。所以第二次拿到蓝球的可能性是四分之二

如果第一次拿到是蓝的(对应图中的蓝色箭头),剩下的球里面是1颗篮球,3颗红球,所以第二次拿到蓝球的可能性是四分之一。

你看,这是一个相关事件,因为第1次拿球的结果,会影响第2次拿球的概率,他们是互相影响的。

相关事件的概率也叫“条件概率”。条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。

3 如何用决策树表示条件概率


我们通常用决策树来辅助计算。下图我们用决策树来表示刚才的例子。

我们先看第1张图:拿第1颗球的可能情况:

有 2/5 的概率会拿到蓝球,3/5 的概率会拿到红球

我们再来看第2张图:拿第二颗球时的情形。



若先拿的是蓝色,第二颗是蓝色的概率是 1/4,第二颗是红色的概率是 3/4。 

若先拿的是红色,第二颗是蓝色的概率是 2/4,第二颗是红色的概率是 2/4

现在我们可以尝试解答像这样的问题了:“拿到2颗蓝球的概率是多少?"

我们把第2张图里第1次拿到篮球的概率2/5,乘以第2次拿到蓝球的概率1/4相乘就可以了。

好了,我们通过决策树已经计算出了条件概率,下面图片我们进一步看条件概率在数学上的表示就立马明白了。

P(A) 的意思是 “事件 A 的概率”。在以上的例子,事件 A 是 “第一次拿到蓝球的概率”是 2/5,所以这里P(A) = 2/5。事件 B 是 “第二次拿到蓝求的概率”是1/4,这里用p(B|A)来表示。这里的竖杆"|"来"在事件 A 发生的条件下,事件 B 发生的概率"。换句话说,事件 A 已经发生了,现在事件 B 发生的可能性是多少。

P(B|A) 也叫在A 发生的情况下 B 发生的 "条件概率"


贝叶斯推断及其互联网应用



   
一、什么是贝叶斯推断
贝叶斯推断是一种统计学方法,用来估计统计量的某种性质。
它是贝叶斯定理的应用。英国数学家托马斯贝叶斯在1793年发表的一篇论文中,首先提出了这个定理。


贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断的修正。正是因为它的主观性太强,曾经遭到许多统计学家的诟病。
        贝叶斯推断需要大量的计算,因此历史上很长一段时间,无法得到广泛应用。只有在计算机诞生之后,它才获得真正的重视。人们发现,许多统计量是无法事先进行客观判断的,而互联网时代出现的大型数据集,再加上高速运算能力,为验证这些统计量提供了方便,也为应用贝叶斯推断创造了条件,它的威力正在日益显现。


二、贝叶斯定理
要理解贝叶斯推断,必须先了解贝叶斯定理。后者实际上就是计算”条件概率“的公式。
所谓”条件概率“,就是指在时间B发生的情况下,事件A发生的概率,用P(A|B)来表示。
    


    根据文氏图,可以很清楚的看到在事件B发生的情况下,事件A发生的概率就是P(AB)除以P(B)。
     同理 P(B|A) = P(A∩B)/P(A)


    因此,


    
同理 P(A∩B) = P(B|A)P(A)

    所以,


    
    即

    这就是条件概率的计算公式。


三、全概率公式
    由于后面要用到,所以除了条件概率值之外,这里还要推导全概率公式。
    假定样本空间S,是两个事件A和A'的和。


    
    上图中,红色部分是事件A,绿色部分是事件A',它们共同构成了样本空间S。
    在这种情况下,事件B可以划分为两个部分。

    即
    


    在上一节的推导当中,我们已知


    
    所以,


    
    这就是全概率公式。它的含义是:如果A和A‘构成样本空间的一个划分,那么事件B的概率,就等于A和A'的概率分别乘以B对这两个事件的条件概率之和。
    将这个公式代入上一节的条件概率公式,就得到了条件概率的另一种写法:
    


四、贝叶斯推断的含义
    对条件概率公式进行变形,可以得到如下形式:


    
    我们把P(A)称为”先验概率“,即在B事件发生之前,我们对A事件概率的一个判断。P(A|B)称为”后验概率“,即在事件B发生之后,我们队A事件的重新评估。P(B|A)/P(B)称为”可能性函数“,这是一个调整因子,使得预估概率更接近真实概率。
    所以,条件概率可以理解为下面的式子:


    
    这就是贝叶斯推断的含义。我们先预估一个”先验概率“,然后加入实验结果,看这个实验到底是增强还是消弱了”先验概率“,由此得到更接近事实的”后验概率“。
    在这里,如果”可能性函数“P(B|A)/P(B)>1,意味着”先验概率“增强,事件A的发生的可能性变大;如果”可能性函数“P(B|A)/P(B)=1,意味着B事件无助于事件A的可能性;如果”可能性函数“P(B|A)/P(B)<1,意味着”先验概率“被消弱,事件A发生的可能性变小。
    
五、【例子】水果糖问题
    为了加深对贝叶斯推断的理解,我们看下面两个例子。
    


   
    两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?
    我们假定,H1表示一号碗,H2表示二号碗。由于这两个碗是一样的,所以P(H1)=P(H2),也就是说,再取出水果糖之前,这两个碗被选中的概率相同。因此,P(H1)=0.5,我们把这个概率叫做”先验概率“,即没有做实验之前,来自一号碗的概率是0.5。
    再假定,E表示水果糖,所以问题就变成了在已知E的情况下,来自一号碗的概率有多少?即求P(H1|E)。我们把这个概率叫做”后验概率“,即在事件E发生之后,对P(H1)的修正。
    根据条件概率公式,得到:


    
    已知,P(H1)等于0.5,P(E|H1)为一号碗中取出水果糖的概率,等于0.75,那么求出P(E)就可以得到答案。根据全概率公式:
    
    
    所以,将数字代入原方程,得到


    
    这表明,来自一号碗的概率是0.6。也就是说,取出水果糖之后,H1事件的可能性得到了增强。


六、【例子】假阳性问题
    第二个例子是一个医学的常见问题,与现实生活关系密切。
    


     已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?
    假定A事件表示得病,那么P(A)为0.001。这就是"先验概率",即没有做试验之前,我们预计的发病率。再假定B事件表示阳性,那么要计算的就是P(A|B)。这就是"后验概率",即做了试验以后,对发病率的估计。
    根据条件概率公式,


    用全概率公式改写分母:


    
    将数字代入,


    
    我们得到一个惊人的结果,P(A|B)约等于0.019。也就是说,即使检验呈现阳性,病人得病的概率:也只从0.1%增加到了2%左右。这就是所谓的“假阳性”,即阳性结果完全不足以说明病人得病。
    为什么会这样?为什么这种检验的准确率高达99%,但是可信度却不到2%?答案是与它的误报率太高和发病率低有关。




    最后,再次感谢作者。


本文完


本站文字和内容为本站编辑或翻译,部分内容属本站原创,所以转载前务必通知本站并以超链接形式注明内容来自本站,否则以免带来不必要的麻烦。

本站内容欢迎分享,但拒绝有商业目的的转载!





上一篇:Flink基本概念
下一篇:OLTP和OLAP