条件概率、全概率与贝叶斯公式

条件概率、全概率与贝叶斯公式

什么是概率

概率是一个介于 0 和 1 之间的数,表示一个事件发生的可能性。

计算方法

所有的概率都只可以用一个公式来表示,即概率的古典定义:P(A)=n(A)n(S)P(A) = \frac{n(A)}{n(S)}P(A)=n(S)n(A)​

其中,n(A)n(A)n(A) 表示事件 A 发生的次数,n(S)n(S)n(S) 表示样本空间 S 中所有可能事件的总次数。

表示形式

事件 A 发生的概率记作 P(A)P(A)P(A),如果事件 A 不发生,则记作 P(A‾)P(\overline{A})P(A)

事件 A 和 B 同时发生的概率记作 P(A∩B)P(A \cap B)P(A∩B),也可记作 P(AB)P(AB)P(AB)

事件 A 或 B 发生的概率记作 P(A∪B)P(A \cup B)P(A∪B),也可记作 P(A+B)P(A + B)P(A+B)

事件 A 在事件 B 发生的条件下发生的概率记作 P(A∣B)P(A|B)P(A∣B)

概率公式

概率公式只是为了方便整理我们的思路,更专业地写解题过程。这里主要分析三个核心公式:

条件概率公式

条件概率顾名思义就是在某个条件下计算事件发生的概率。

事件 A 在事件 B 发生的条件下发生的概率记作 P(A∣B)P(A|B)P(A∣B),其计算公式为:P(A∣B)=P(A∩B)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)}P(A∣B)=P(B)P(A∩B)​

通过概率的计算方法,我们可以将其改写为:P(A∣B)=n(A∩B)n(B)P(A|B) = \frac{n(A \cap B)}{n(B)}P(A∣B)=n(B)n(A∩B)​

这个表示方法还是不够直观,可以用 venn 图表示如下:

要研究概率首先要确定样本空间和符合条件的事件。因为 P(A∣B)P(A|B)P(A∣B) 是在事件 B 发生的条件下计算事件 A 的概率,所以样本空间就是 B ,而符合条件的事件就是 A 和 B 的交集

所以 P(A∣B)=n(A∩B)n(B)=P(A∩B)P(B)=P(A∩B)P(B)P(A|B) = \frac{n(A \cap B)}{n(B)}=\frac{P(A\cap B)}{P(B)}=\frac{P(A \cap B)}{P(B)}P(A∣B)=n(B)n(A∩B)​=P(B)P(A∩B)​=P(B)P(A∩B)​

我们将这个公式变形可以得到:P(A∩B)=P(A∣B)P(B)P(A \cap B) = P(A|B)P(B)P(A∩B)=P(A∣B)P(B) 即概率的乘法原理,这两个公式本质是不同的,如何理解呢?

一件事情发生的概率等于造成这件事发生的接连发生的事件概率的乘积,如果要让A,B同时发生,那么就让其中一个先发生,不妨设为

A 吧,A 发生以后 B 再发生,这样子的话,A,B 就会同时发生

但是你们可能就会疑惑了,印象中的乘法公式不是 P(A∩B)=P(A)P(B)P(A \cap B) = P(A)P(B)P(A∩B)=P(A)P(B)吗?为什么这里变成了 P(A∩B)=P(A∣B)P(B)P(A \cap B) = P(A|B)P(B)P(A∩B)=P(A∣B)P(B) 呢?

其实是因为如果事件 A 与 B 相互独立,互不影响,那么 P(A∣B)=P(A)P(A|B) = P(A)P(A∣B)=P(A),所以 P(A∩B)=P(A∣B)P(B)=P(A)P(B)P(A \cap B) = P(A|B)P(B) = P(A)P(B)P(A∩B)=P(A∣B)P(B)=P(A)P(B)

而平时做的题目中,事件 A 和 B 往往是相互独立的,所以我们经常会用到 P(A∩B)=P(A)P(B)P(A \cap B) = P(A)P(B)P(A∩B)=P(A)P(B) 这个公式

如果事件 A 和 B 不是相互独立的,那么就不能使用 P(A∩B)=P(A)P(B)P(A \cap B) = P(A)P(B)P(A∩B)=P(A)P(B) 这个公式,而是要使用 P(A∩B)=P(A∣B)P(B)P(A \cap B) = P(A|B)P(B)P(A∩B)=P(A∣B)P(B) 这个公式

全概率公式

所谓全概率公式就是将“全”部概率 P(B)P(B)P(B) 划分成很多部分的和。理论和实用意义在于:在较复杂的情况下直接算 P(B)P(B)P(B) 不容易,但是 B 总是随着某个 AiA_iAi​ 出现,适当去构造这一组 AiA_iAi​ 往往可以简化计算

其实就是一个分类讨论的加法原理,上文提到过概率公式只是为了方便整理我们的思路:P(B)=∑i=1nP(Ai)P(B∣Ai)P(B) = \sum_{i=1}^{n} P(A_i)P(B|A_i)P(B)=∑i=1n​P(Ai​)P(B∣Ai​)

比如当 n=3n=3n=3 时,P(B)=P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)P(B) = P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + P(A_3)P(B|A_3)P(B)=P(A1​)P(B∣A1​)+P(A2​)P(B∣A2​)+P(A3​)P(B∣A3​),而这个式子就是我们分析题目、整理树状图的公式表现,也可以理解成加法原理

根据上图可知 B 事件可以表示为 B=A1B∪A2B∪A3BB=A_1B \cup A_2B \cup A_3BB=A1​B∪A2​B∪A3​B,而

A1BA_1BA1​B、A2BA_2BA2​B、A3BA_3BA3​B 互不相交,所以 P(B)=P(A1B)+P(A2B)+P(A3B)P(B) = P(A_1B) + P(A_2B) +

P(A_3B)P(B)=P(A1​B)+P(A2​B)+P(A3​B)

而我们知道 AiBA_iBAi​B 表示两件事情同时发生,所以 P(AiB)=P(Ai)P(B∣Ai)P(A_iB) = P(A_i)P(B|A_i)P(Ai​B)=P(Ai​)P(B∣Ai​)

则 P(B)=P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)P(B) = P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + P(A_3)P(B|A_3)P(B)=P(A1​)P(B∣A1​)+P(A2​)P(B∣A2​)+P(A3​)P(B∣A3​)

相信你也注意到了,全概率公式中的一组 AiA_iAi​ 需要满足以下条件:

互斥:Ai∩Aj=∅A_i \cap A_j = \emptysetAi​∩Aj​=∅,即不同的 AiA_iAi​ 之间没有交集

完备:A1∪A2∪...∪An=SA_1 \cup A_2 \cup ... \cup A_n = SA1​∪A2​∪...∪An​=S,即所有的 AiA_iAi​ 的并集等于样本空间 S

这样的一组 AiA_iAi​ 可以将样本空间 S 划分成互不相交的部分,从而使得全概率公式成立。将 AiA_iAi​ 称作完备事件组

贝叶斯公式

对于贝叶斯公式,很多人都觉得它很难理解,其实它就是全概率公式的变形,贝叶斯公式的核心思想是通过已知结果去推过程

比如对于一个完备事件组 A1,A2,...,AnA_1, A_2, ..., A_nA1​,A2​,...,An​,我们可以通过全概率公式计算出事件 B 的概率:P(B)=∑i=1nP(Ai)P(B∣Ai)P(B) = \sum_{i=1}^{n} P(A_i)P(B|A_i)P(B)=∑i=1n​P(Ai​)P(B∣Ai​)

那么现在如果问你事件 BBB 属于事件 AiA_iAi​ 的概率是多少?或者问你在已知事件 BBB 发生的条件下,事件 AiA_iAi​ 发生的概率

要求的是在已知事件 BBB 发生的条件下,事件 AiA_iAi​ 发生的概率,这不就是条件概率的公式吗

所以 P(Ai∣B)=P(AiB)P(B)P(A_i|B) = \frac{P(A_iB)}{P(B)}P(Ai​∣B)=P(B)P(Ai​B)​,而 P(AiB)=P(Ai)P(B∣Ai)P(A_iB) = P(A_i)P(B|A_i)P(Ai​B)=P(Ai​)P(B∣Ai​),所以 P(Ai∣B)=P(Ai)P(B∣Ai)P(B)P(A_i|B) = \frac{P(A_i)P(B|A_i)}{P(B)}P(Ai​∣B)=P(B)P(Ai​)P(B∣Ai​)​

而 P(B)P(B)P(B) 又可以用全概率公式表示为:P(B)=∑i=1nP(Ai)P(B∣Ai)P(B) = \sum_{i=1}^{n} P(A_i)P(B|A_i)P(B)=∑i=1n​P(Ai​)P(B∣Ai​)

所以贝叶斯公式就是:P(Ai∣B)=P(Ai)P(B∣Ai)∑i=1nP(Ai)P(B∣Ai)P(A_i|B) = \frac{P(A_i)P(B|A_i)}{\sum_{i=1}^{n} P(A_i)P(B|A_i)}P(Ai​∣B)=∑i=1n​P(Ai​)P(B∣Ai​)P(Ai​)P(B∣Ai​)​

生物遗传概率题

在一个大型随机交配的种群中,某常染色体隐性遗传病由等位基因 A 和 a 控制,其中 a 是致病等位基因。已知等位基因 a 的频率为 0.02,等位基因 A 的频率为 0.98。基因型 aa 表现为患病,基因型 AA 或 Aa 表现为正常(其中 Aa 为携带者)

条件概率应用

随机抽取一个人,已知他不患病(表型正常),求他是携带者(基因型 Aa)的概率

这道题明显要用条件概率:已知不患病,求是携带者的概率

根据题意,事件 A 为不患病,事件 B 为携带者,则所求即是 P(B∣A)P(B|A)P(B∣A)

根据条件概率公式:P(B∣A)=P(A∩B)P(A)P(B|A) = \frac{P(A \cap B)}{P(A)}P(B∣A)=P(A)P(A∩B)​

P(A∩B)P(A \cap B)P(A∩B) 表示同时满足不患病和携带者的概率,也就是 Aa。P(A)P(A)P(A) 表示不患病的概率,也就是 AA 和 Aa 的概率之和

所以 P(A∩B)=P(基因型是 Aa)=2pq=2×4950×150=982500P(A \cap B)=P(\text{基因型是 Aa})=2pq=2 \times \frac{49}{50} \times \frac{1}{50} = \frac{98}{2500}P(A∩B)=P(基因型是 Aa)=2pq=2×5049​×501​=250098​

P(A)=P(基因型是 AA)+P(基因型是 Aa)=p2+2pq=49502+2×4950×150=24992500P(A)=P(\text{基因型是 AA})+P(\text{基因型是 Aa})=p^2+2pq=\frac{49}{50}^2+2 \times \frac{49}{50} \times \frac{1}{50} = \frac{2499}{2500}P(A)=P(基因型是 AA)+P(基因型是 Aa)=p2+2pq=5049​2+2×5049​×501​=25002499​

因此,P(B|A) 的计算为:

P(B∣A)=P(A∩B)P(A)=982499=251P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{98}{2499} = \frac{2}{51}P(B∣A)=P(A)P(A∩B)​=249998​=512​

全概率公式应用

求患病的概率

设 BBB 为事件“患病”(基因型 aa)。

使用基因型作为完备事件组:设 G1G_1G1​ = 基因型 AA,G2G_2G2​ = 基因型 Aa,G3G_3G3​ = 基因型 aa。这些事件互斥且完备

根据全概率公式,P(B)=P(G1)P(B∣G1)+P(G2)P(B∣G2)+P(G3)P(B∣G3)P(B) = P(G_1)P(B|G_1) + P(G_2)P(B|G_2) + P(G_3)P(B|G_3)P(B)=P(G1​)P(B∣G1​)+P(G2​)P(B∣G2​)+P(G3​)P(B∣G3​)

完备事件组各基因型概率条件概率G1G_1G1​ (基因型为 AA)P(G1)=p2=49502=24012500P(G_1) = p^2 = \frac{49}{50}^2 = \frac{2401}{2500}P(G1​)=p2=5049​2=25002401​P(B∣G1)=0P(B\mid G_1) = 0P(B∣G1​)=0 (AA 不患病)G2G_2G2​ (基因型为 Aa)P(G2)=2pq=2×4950×150=982500P(G_2) = 2pq = 2 \times \frac{49}{50} \times \frac{1}{50} = \frac{98}{2500}P(G2​)=2pq=2×5049​×501​=250098​P(B∣G2)=0P(B\mid G_2) = 0P(B∣G2​)=0 (Aa 不患病)G3G_3G3​ (基因型为 aa)P(G3)=q2=1502=12500P(G_3) = q^2 = \frac{1}{50}^2 = \frac{1}{2500}P(G3​)=q2=501​2=25001​P(B∣G3)=1P(B\mid G_3) = 1P(B∣G3​)=1 (aa 患病)所以,P(B)=24012500×0+982500×0+12500×1=12500P(B) = \frac{2401}{2500} \times 0 + \frac{98}{2500} \times 0 + \frac{1}{2500} \times 1 = \frac{1}{2500}P(B)=25002401​×0+250098​×0+25001​×1=25001​

贝叶斯公式应用

已知患病个体,求父母都是携带者的概率

设 CCC 为事件“孩子患病”(基因型 aa)。

设 DDD 为事件“父母都是携带者”(父母基因型均为 Aa)

则所求为 P(D∣C)P(D|C)P(D∣C),根据贝叶斯公式:P(D∣C)=P(D)P(C∣D)P(C)P(D|C) = \frac{P(D)P(C|D)}{P(C)}P(D∣C)=P(C)P(D)P(C∣D)​

先计算 P(D)P(C∣D)P(D)P(C|D)P(D)P(C∣D),

由于父母都是携带者的概率为 P(D)=P(Aa)×P(Aa)=2pq×2pq=(2×4950×150)2=96046250000P(D) = P(Aa) \times P(Aa) = 2pq \times 2pq = (2 \times \frac{49}{50} \times \frac{1}{50})^2 = \frac{9604}{6250000}P(D)=P(Aa)×P(Aa)=2pq×2pq=(2×5049​×501​)2=62500009604​

P(C∣D)P(C|D)P(C∣D) 表示在父母都是携带者的情况下,孩子患病的概率。根据孟德尔遗传定律,父母都是 Aa 的情况下,孩子患病的概率为 P(C∣D)=14P(C|D) = \frac{1}{4}P(C∣D)=41​

所以,P(D)P(C∣D)=96046250000×14=24016250000P(D)P(C|D) = \frac{9604}{6250000} \times \frac{1}{4} = \frac{2401}{6250000}P(D)P(C∣D)=62500009604​×41​=62500002401​

接下来计算 P(C)P(C)P(C),即孩子患病的概率,P(C)=q2=1502=12500P(C) = q^2 = \frac{1}{50}^2 = \frac{1}{2500}P(C)=q2=501​2=25001​

最后带入贝叶斯公式:P(D∣C)=2401625000012500=24012500P(D|C) = \frac{\frac{2401}{6250000}}{\frac{1}{2500}} = \frac{2401}{2500}P(D∣C)=25001​62500002401​​=25002401​

简便方法(配子法)

以上三个小题其实都有简便方法来计算,即生物学的角度,计算过程如下:

1、条件概率题(已知不患病,求是携带者)

生物学思路:

表型正常的个体只能由配子组合形成 AA 或 Aa 基因型。携带者(Aa)在正常个体中的比例,本质是计算 含 a 等位基因的正常个体占比。

配子法步骤:

正常个体的形成方式:

AA 型:需雄配子 A + 雌配子 A

Aa 型:可雄配子 A + 雌配子 a 或 雄配子 a + 雌配子 A

计算比例:

正常个体总概率 = p2p^2p2 (AA) + 2pq2pq2pq (Aa)

携带者 (Aa) 概率 = 2pq2pq2pq

所求概率 = Aa 概率正常个体总概率=2pqp2+2pq\dfrac{\text{Aa 概率}}{\text{正常个体总概率}} = \dfrac{2pq}{p^2 + 2pq}正常个体总概率Aa 概率​=p2+2pq2pq​

代入数值:

2×4950×150(4950)2+2×4950×150=98250024012500+982500=982401+98=982499=251\dfrac{2 \times \dfrac{49}{50} \times \dfrac{1}{50}}{\left( \dfrac{49}{50} \right)^2 + 2 \times \dfrac{49}{50} \times \dfrac{1}{50}} = \dfrac{\dfrac{98}{2500}}{\dfrac{2401}{2500} + \dfrac{98}{2500}} = \dfrac{98}{2401 + 98} = \dfrac{98}{2499} = \dfrac{2}{51}(5049​)2+2×5049​×501​2×5049​×501​​=25002401​+250098​250098​​=2401+9898​=249998​=512​

答案:251\dfrac{2}{51}512​

2、全概率公式题(求患病概率)

生物学思路:

患病个体基因型为 aa,只需两个 a 配子结合。直接利用配子随机结合原理。

配子法步骤:

种群中雄配子 a 频率 = q=150q = \dfrac{1}{50}q=501​

种群中雌配子 a 频率 = q=150q = \dfrac{1}{50}q=501​

患病概率 = 雄配子 a × 雌配子 a = q×q=q2q \times q = q^2q×q=q2

代入数值:

(150)2=12500 \left( \dfrac{1}{50} \right)^2 = \dfrac{1}{2500}(501​)2=25001​

答案:12500\dfrac{1}{2500}25001​

3、贝叶斯公式题(已知患病个体,求父母都是携带者)

生物学思路:

患病孩子基因型为 aa ⇒ 必然从父母各继承一个 a 等位基因。

要求父母均为携带者(Aa),等价于:在父母各提供一个 a 配子的条件下,父母均非患者(即排除 aa 型)。

配子法步骤:

父母提供 a 配子的概率:

父亲提供 a 配子概率 = P(父亲a)=q=150P(\text{父亲}a) = q = \dfrac{1}{50}P(父亲a)=q=501​

母亲提供 a 配子概率 = P(母亲a)=q=150P(\text{母亲}a) = q = \dfrac{1}{50}P(母亲a)=q=501​

关键简化:

父亲提供 a 配子时,其基因型可能是 Aa 或 aa。

父亲是 Aa 的概率(已知提供 a 配子)= P(Aa)×P(Aa→a)P(提供a)=2pq×12q=pqq=p\dfrac{P(\text{Aa}) \times P(\text{Aa} \to a)}{P(\text{提供}a)} = \dfrac{2pq \times \frac{1}{2}}{q} = \dfrac{pq}{q} = pP(提供a)P(Aa)×P(Aa→a)​=q2pq×21​​=qpq​=p

(分子:Aa 概率 × 提供 a 概率;分母:总提供 a 概率 = q)

因此:

父亲是携带者(Aa)的概率(已知提供 a 配子)= ppp

母亲是携带者(Aa)的概率(已知提供 a 配子)= ppp

父母独立 ⇒ 两者均为携带者的概率 = p×p=p2p \times p = p^2p×p=p2

代入数值:

(4950)2=24012500 \left( \dfrac{49}{50} \right)^2 = \dfrac{2401}{2500}(5049​)2=25002401​

答案:24012500\dfrac{2401}{2500}25002401​

文章分类在技术笔记#统计与概率#数学#高考

相关推荐

宁波全面取消限购,停止执行住房上市交易限制年限规定
韩乔生总结世界杯:诸神黄昏下的狂欢,感谢卡塔尔的激情与温热
为什么利润越来越高,但股价就是不涨 估值系列第三弹“如果你投资的公司本身不赚钱,你也很难赚到钱——巴菲特”,注意,不是“你不可能赚钱”,而是说“你很难赚到钱...