Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983...

39
统计与数据分析 统计与数据分析统计与数据分析 统计与数据分析Statistics & Data Analysis Statistics & Data Analysis Statistics & Data Analysis Statistics & Data Analysis §2 概率理论基础 概率理论基础 §2 2 概率理论基础 概率理论基础 (Part I) (Part I) h ii h ii Zhu Huaiqiu @Peking University Zhu Huaiqiu @Peking University “概率论是生活真正的领路人,如果没有对概率的 某种估计 那么我们就寸步难行 无所作为 某种估计, 那么我们就寸步难行无所作为英国经济学家W. S. Jevons 英国经济学家W. S. Jevons (1835-1882)

Transcript of Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983...

Page 1: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

《《统计与数据分析统计与数据分析》》《《统计与数据分析统计与数据分析》》Statistics & Data AnalysisStatistics & Data AnalysisStatistics & Data AnalysisStatistics & Data Analysis

§§22 概率理论基础概率理论基础§§2 2 概率理论基础概率理论基础(Part I)(Part I)

h i ih i iZhu Huaiqiu@Peking University

Zhu Huaiqiu@Peking University

“概率论是生活真正的领路人,如果没有对概率的某种估计 那么我们就寸步难行 无所作为 ”某种估计, 那么我们就寸步难行、无所作为。”

——英国经济学家W. S. Jevons英国经济学家W. S. Jevons(1835-1882)

Page 2: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

概率(机率 或然率 机会率)( b b l ) 概率(机率、或然率、机会率)(probability)

——The likelihood or chance that something is the——The likelihood or chance that something is the case or will happen.

“对于生活中的大部分 最重要的问“对于生活中的大部分,最重要的问题实际上只是概率问题。你可以说几乎我们所掌握的所有知识都是不确定乎我们所掌握的所有知识都是不确定的,只有一小部分我们能确定地了解。甚至数学科学本身,归纳法、类推法数学科学本身,归纳法 类推法和发现真理的首要手段都是建立在概率论的基础之上的。因此,整个的人类知识系统是与这 理论相联系的 ”类知识系统是与这一理论相联系的。”

——Pierre-Simon Laplace(1749-1827)(1749 1827)

医学博士 英王御医出身医学博士、英王御医出身

第一个系统地推算概率:第 个系统地推算概率:16世纪的Girolamo Cardano

《Liber de Ludo Aleae》( 论赌博游戏 )(《论赌博游戏》)

Page 3: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

首次提出系统研究概率

——掷骰子问题和比赛奖金应分配问题。

Blaise Pascal(1623-1662)

Pierre de Fermat(1601-1665)

§§2 12 1 概率概率§§2.1 2.1 概率概率

【E l 】在六合彩(49选6)中 共有13 983 816种可能【Example】在六合彩(49选6)中,一共有13,983,816种可能性,普遍认为,如果每周都买一个不相同的号,最晚可以在13 983 816/52(周)=268 919年后获得头等奖。13,983,816/52(周) 268,919年后获得头等奖。

香港赛马会投注站门外的六合彩广告,六合彩搅珠结果也会在该版展示 六合彩彩票前面和背面

Page 4: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example】在一个足球场上有23个人(2×11个运动员和1个裁判员),在这23人当中至少有两个人的生日是在同一天个裁判员),在这23人当中至少有两个人的生日是在同 天的概率很小。

12%10

p(n)n

70%30

41%20

12%10

99.99996%100

97%50

1 − (3 × 10−131

)350

1 − (7 × 10−73

)300

99.9999999999999999999999999998%200

100%≥366

1 (3 × 10 )350

【Example】轮盘游戏:在游戏中玩家普遍认为,在连续出现多次红色后 出现黑色的概率会越来越大现多次红色后,出现黑色的概率会越来越大。

Page 5: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example】三门问题:在电视台举办的猜隐藏在门后面的汽车的游戏节目中 在参赛者的对面有三扇关闭的门 其中汽车的游戏节目中,在参赛者的对面有三扇关闭的门,其中只有一扇门的后面有一辆汽车,其它两扇门后是山羊。游戏规则是,参赛者先选择一扇他认为其后面有汽车的门,但是规则是,参赛者先选择 扇他认为其后面有汽车的门,但是这扇门仍保持关闭状态,紧接着主持人(完全知道门后的情况)打开没有被参赛者选择的另外两扇门中后面有山羊的一扇门,这时主持人问参赛者,要不要改变主意,选择另一扇门,以使得赢得汽车的概率更大一些?

§§2.1.12.1.1 随机事件随机事件§§2.1.1 2.1.1 随机事件随机事件

确定性现象——在一定的条件下必然发生或必然不发生的现象——在 定的条件下必然发生或必然不发生的现象

(标准大气压下、100,水必然沸腾,必然不结冰)——经典数学理论和方法

(线性代数、微积分、微分方程……)

随机现象随机现象——在一定条件下可能发生也可能不发生的现象

(投掷骰子、硬币、产品质量控制、疾病诊断)——非经典数学理论和方法

(概率、统计、机器学习、模式识别……)

Page 6: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

随机试验 E (Random experiment E )

试验 E (Experiment E )

——在相同的条件下,对随机现象进行大量重复的观察、观测或各种各样的科学实验,以获得随机现象内在的统计规律。

——用字母E或E1, E2等表示

——随机试验的特征:随机试验的特征:(1)试验在相同的条件可以重复进行;(2)每次试验的可能结果不止一个,且不能准确预言;

有 能结 在 验前 确 的 每次 验 有其中(3)所有可能结果在试验前是明确已知的,每次试验必有其中之一出现,且仅有一个结果出现。

讨论:确定性系统的混沌现象

基本事件 ( i l t)基本事件ω (generic element)

——随机试验所观察到的每一个最基本的直接结果 也称样本——随机试验所观察到的每 个最基本的直接结果,也称样本点

——记作ω

样本空间Ω ( )样本空间Ω (sample space)

全体基本事件的集合——全体基本事件的集合

——记作Ω记作Ω

——有限集、无限集、(无限)可数集、(无限)不可数集

Page 7: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example 2.1】E1:掷骰子的点数。

【Example 2.2】E2:投掷硬币,观察出现正反面的情况。

【 】 基因组 的某 核苷酸位点测定结果【Example 2.3】E3:基因组DNA的某一核苷酸位点测定结果。

【Example 2 4】E :显微镜目镜中的细胞数目。【Example 2.4】E4:显微镜目镜中的细胞数目。

【Example 2.5】E5:乙肝病毒血清标志物化验包括5项内容:① ②①表面抗原(HBsAg)(体内是否存在乙肝病毒);②表面抗体(抗-HBs)(是否有保护性);③е抗原(HBeAg)(病毒是否复制及具有传染性) ④е抗体(抗 HBe)(病毒复制是否受否复制及具有传染性);④е抗体(抗-HBe)(病毒复制是否受到抑制);⑤核心抗体(抗-HBc)(是否感染过乙肝病毒)。化验结果有3项呈阳性的可能情况。验结果有3项呈阳性的可能情况。

【Example 2.6】E6:用于毛细管电泳仪的氘灯的使用寿命(正常工作时间 如规定光强度降低到 即不能正常工作)(正常工作时间,如规定光强度降低到50%即不能正常工作)测试。

随机事件A (Random event A)事件A (Event A)

——满足某一条件的基本事件构成的样本空间Ω的子集

记作A B C 或A A——记作A, B, C, 或A1, A2, …

特殊的随机事件:特殊的随机事件:

样本空间Ω:必然事件空集 Ω:不可能事件空集 Ω:不可能事件

【Example 2.1】E1 掷骰子的点数。p 1

点数为偶数的事件

点数不小于3的事件点数不小于3的事件

Page 8: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example 2.2】E2 投掷硬币,观察出现正(H)反(T)面的情况。【 p e 】 2 投掷硬币,观察出现正( )反( )面的情况

连续投掷3次,出现正面(H)的事件

【Example 2.3】E3 基因组DNA的某一核苷酸位点测定结果。

连续测3个核苷酸,可以形成编码亮氨酸的密码子的事件

【Example 2.5】E5 乙肝病毒血清标志物化验包括5项内容:①表面抗原(HBsAg)(体内是否存在乙肝病毒);②表面抗体(抗-HBs)(是否有保护性);③е抗原(HBeAg)(病毒是否复制及具有传染性);④е抗体(抗-HBe)(病毒复制是否受到抑制) ⑤核心抗体(抗 HB )(是否感染过乙肝病毒) 化到抑制);⑤核心抗体(抗-HBc)(是否感染过乙肝病毒)。化验结果有3项呈阳性的可能情况。

可以判断感染乙肝病毒的3项呈阳性的事件可以判断感染乙肝病毒的3项呈阳性的事件。

随机事件间的关系和运算

设Ω是给定的一个随机试验的样本空间,事件A, B, C, Ak (k=1, 2, …) Ω 。

1、包含关系

ΩΩΩΩ

2、相等关系

Page 9: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

3、和事件3、和事件

ΩΩ

4、积事件 ΩΩ4、积事件 ΩΩ

5、差事件 ΩΩΩΩ

6、互斥事件(互不相容事件)ΩΩΩΩ

Page 10: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

7、逆事件

ΩΩ

事件运算规则

(1)交换律:A∪B=B∪A,AB=BA

结合律(2)结合律:(A∪B)∪C=A∪(B∪C),(AB)C=A(BC)

(3)分配律:A∪(BC)=(A∪B)(A∪C),A(B∪C)=AB∪AC( )分配律 ( ) ( )( ), ( )

(4)对偶(De Morgan)律: ,A B AB AB A B

(5)双重否定律:

(6)排中律:

A A

A A (6)排中律:

(7)矛盾律:

A A

A A

(8)差积转换律:

事件运算的先后顺序 括号最优先 先求逆运算 再求积运算

( )A B A B A A B

事件运算的先后顺序:括号最优先,先求逆运算,再求积运算,再求和、差运算。

Page 11: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example 2.7】给定电路(a)、(b),设Ai =第i个开关闭合,p ( ) ( ) 请用Ai表示事件A=L至R导通。

( )L R

1

(a)2 3

3

4

R1

3

(b)L R4

2 5

样本空间的划分 完备事件组 (Complete events)样本空间的划分——完备事件组 (Complete events)

设Ω被划分成n个事件Ai (i=1, 2, …, n),它们满足:设Ω被划分成n个事件Ai (i 1, 2, …, n),它们满足:

(1)AiAj= ( i ≠ j, i, j = 1, 2, …, n);j(2)A1∪A2∪…∪An = Ω,

则称这 个事件A (i 1 2 )构成样本空间Ω的 个完备事件则称这n个事件Ai (i=1, 2, …, n)构成样本空间Ω的一个完备事件组(或一个划分, partition)。

1A2A

A A3A1nA L nA

Page 12: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

§§2.1.22.1.2 随机事件的概率随机事件的概率§§2.1.2 2.1.2 随机事件的概率随机事件的概率

概率论作为数概率论作为数学学科,可以而且应该从公而且应该从公理开始建设,和几何 代数和几何、代数的路一样。

——Kolmogorov

(Kolmogorov,1903-1987)

σσ域域 或或 σσ代数代数:(:( σσ--field or σfield or σ--AlgebraAlgebra))

设Ω为集合,满足以下条件的Ω的子集的集合族F Ω称为Ω上的一个σ域:

F CA A CA F A F

( )N A F A F

U1

( , )n nn

n N A F A F

U域对集合的交 并 补 可列交 可列并运算都是封闭的 可σ域对集合的交、并、补、可列交、可列并运算都是封闭的。可

以在σ域上定义可测空间。

σ域是Ω的子集的集合的子集!

Page 13: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

KolmogorovKolmogorov公理公理((Probability AxiomsProbability Axioms))KolmogorovKolmogorov公理公理((Probability AxiomsProbability Axioms))

假设一个基础集Ω(即样本空间), F Ω为其子集的σ域,给FΩ假设 个基础集Ω(即样本空间), F Ω为其子集的σ域,给FΩ

的元素(即Ω的子集)指定一个实数的函数P,或者给FΩ的元素定义测度P。FΩ的元素是Ω的子集,称为“事件”。

第一公理:对于任意一个集合A∈FΩ ,即对于任意的事件,有P(A)∈[0 1]P(A)∈[0, 1]。

第二公理:P(Ω)=1.第二公理:P(Ω) 1.

第三公理:任意两两不相交事件A1 , A2, ...的可数序列满足

1 2( ...) ( )iP A A P A

概率的公理化定义概率的公理化定义

设Ω是给定的试验E的样本空间,FΩ为其子集的σ域,对任一事件A∈ FΩ,有函数P(A)∈R+,R+为非负实数。若P(A)满足:件A FΩ ,有函数P(A) R ,R 为非负实数。若P(A)满足:

第一公理(非负性):P(A)∈[0, 1]

第二公理(规范性):P(Ω)=1

第三公理(可数可加性):当可数个事件A1 , A2, ...两两互斥时,有有

1 1

( ) ( )i ii i

P A P A

则称P(A)为事件A的概率。

概率空间Ω F P(A) 统计模型Ω F Φ概率空间Ω,FΩ,P(A) ------ 统计模型Ω,FΩ,Φ

Page 14: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

概率的若干性质概率的若干性质概率的若干性质概率的若干性质

性质1 不可能事件的概率为零,即P()=0性质1 不可能事件的概率为零,即P() 0

性质2 有限可加性,即当有限个事件A1 , A2, ... An两两互斥时,有

( ) ( )n n

i iP A P A

性质3 对任意事件A,有

1 1i i

( ) 1 ( )P A P A 性质3 对任意事件A,有

性质4 若AB,有P(A-B)=P(A)-P(B)

( ) ( )

性质5 设A, B是任意二事件,有P(A∪B)=P(A)+P(B)-P(AB)( 般加法公式 可推广到有限多个事件的情况)(一般加法公式,可推广到有限多个事件的情况)

一 概率的统计定义(统计概型)一、概率的统计定义(统计概型)

频率:频率:频率:频率:

英国逻辑学家John Venn (1834-1923)和奥地利数学家Richard英国逻辑学家John Venn (1834 1923)和奥地利数学家Richard Von Mises (1883-1953)提出。

设nA是n次试验中事件A发生的次数,称为事件A发生的频数,比值nA/n称为事件A发生的频率,记为fn(A)。

频率的性质:

(1)0 fn(A) 1;(2)fn(Ω)=1;(3)若AB= ,则fn(A+B)= fn(A)+ fn(B)。

Page 15: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

频率频率ffnn(A)(A)的趋稳定性:的趋稳定性:

实验者

历史上频数nA 与频率fn(A) 的掷硬币试验记录:

实验者 n nH fn(H)

De Morgan 2048 1061 0.5181

Buffon 4040 2048 0.5069

K. Pearson 12000 6019 0.5016

K. Pearson 24000 12012 0.5005

频数nA 与频率f (A) 的掷骰子试验记录:扔掷数 获得 6 点的绝对频率 获得 6 点的相对频率

1 1 1.00000

频数nA 与频率fn(A) 的掷骰子试验记录:

2 1 0.500003 1 0.333334 1 0 250004 1 0.250005 2 0.40000

10 2 0.2000020 5 0 2500020 5 0.25000100 12 0.12000200 39 0.19500300 46 0.15333400 72 0.18000500 76 0.15200600 102 0.17000700 120 0.17143

1000 170 0.170001000 170 0.170002000 343 0.171503000 560 0.16867

Page 16: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

fn(A)

nn

概率的统计定义概率的统计定义

设随机试验E的重复次数n充分大时,事件A发生的频率fn(A)总在常数p∈[0, 1]附近涨落并逐渐稳定于p,则称常数p为事件A发生的概率 记为P(A)生的概率,记为P(A)。

——概率的统计定义肯定了随机事件的概率存在,提供了估算概率的统计定义肯定了随机事件的概率存在,提供了估算方法,即用足够大的n的fn(A)近似代替p。

——P(A)的性质:(1)0 P(A) 1;(2)P(Ω)=1;(2)P(Ω)=1;(3)若AB= ,则P(A+B)=P(A)+P(B)。

性质3可推广到k个互斥事件的情况。

Page 17: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

概率与频率的关系概率与频率的关系

频率频率:(1)在一定程度上反映了随机事件发生的可能性;(2)依赖于试验本身(试验者) 试验次数(2)依赖于试验本身(试验者)、试验次数。

概率概率:(1)反映随机事件发生的可能性 是随机事件本身固有的性(1)反映随机事件发生的可能性,是随机事件本身固有的性

质;(2)不依赖于具体的试验;(2)不依赖于具体的试验;(3)以频率稳定性为基础,并通过大量试验中的频率稳定性

来表现

讨论:讨论:

1 频率定义概率(统计概率)的理论基础是大数定律;

2 统计概率在实践中具有重要意义 它是数理统计的基础2 统计概率在实践中具有重要意义,它是数理统计的基础;

3 概率的统计定义需要大量重复试验 在实际应用中具有限制3 概率的统计定义需要大量重复试验,在实际应用中具有限制性。

Page 18: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

二 概率的古典定义(古典概型)二、概率的古典定义(古典概型)

古典型随机试验古典型随机试验((LaplaceLaplace试验或古典试验或古典概型)概型)::古典型随机试验古典型随机试验((LaplaceLaplace试验或古典试验或古典概型)概型)::

Laplace提出,如果一个随机试验所包含的单位事件是有限的,Laplace提出,如果 个随机试验所包含的单位事件是有限的,且每个单位事件发生的可能性均相等,则这个随机试验E叫做Laplace试验或古典概型。

古典概型的两个特征:(1)有限性:样本空间Ω是有限集 即Ω=ω ω ω ;(1)有限性:样本空间Ω是有限集,即Ω=ω1, ω2, …, ωn;(2)等可能性:每个基本事件(样本点)发生的可能性相等,即P(ω1)=P(ω2)=…=P(ωn)=1/n。即 (ω1) (ω2) … (ωn) / 。

概率的古典定义(古典概率)概率的古典定义(古典概率)::

设古典概型试验(Laplace试验)E的样本空间Ω有n(有限)个样本点,若事件A包含其中m个样本点,则事件A发生的概率P(A)定义为P(A)定义为 :

( )m

P A ( )P An

讨论:古典概率可以推广到无限可数个样本点的情况讨论:古典概率可以推广到无限可数个样本点的情况

Page 19: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

古典概率P(A)的性质:

(1)0 P(A) 1(1)0 P(A) 1;

(2)P(Ω)=1;(2)P(Ω) 1;

(3)若事件A与事件B互斥,即AB=Φ,则P(A+B)=P(A)+P(B)。

性质3可推广到k个互斥事件的情况。

【Example 2.8】Simpson’s paradox:选中红色球有奖p p p

A

BB

C

Page 20: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

排列组合常用公式排列组合常用公式::

(1)加法原则 设完成一件事共有s (s≥1)类不同的方法,第i类有ri种不同的情况,i=1, 2, …, s。只要选择任何一类中的任何一种方法即可完成这件事 则完成此事的方法有 + + + 种方法即可完成这件事,则完成此事的方法有r1+r2+…+rs种。

(2)乘法原则 设完成一件事共有s (s≥1)个步骤,第i步有ri种方(2)乘法原则 设完成 件事共有s (s≥1)个步骤,第i步有ri种方法,i=1, 2, …, s。完成此事须经过所有步骤,则完成此事的方法有r1×r2×…×rs种。

(3)排列(3)排列

选排列:从n个不同的元素中,每次不带放回地取一个,连续取选排列:从n个不同的元素中,每次不带放回地取 个,连续取m (m ≤ n)次,依次排成一列,排列数为

!( 1)( 2)...( 1)

( )mn

nA n n n n m

全排列:m=n时的选排列

( )( ) ( )( )!n n m

可重复的排列:从n个不同的元素中,每次有放回地取一个,连续取m (m ≤ n)次,依次排成一列,排列数为nm;续取m (m ≤ n)次,依次排成 列,排列数为n ;

环形排列:从n个不同的元素中,每次不带放回地取一个,连续取m (m ≤ n)次,依次排成一个圆圈,排列数为

( 1)( 2)...( 1) !mn

n n n n m nR

( )!n m m n m

Page 21: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

(4)组合

从 个不同的元素中 每次不带放回地取 个 连续取 ( ≤ )从n个不同的元素中,每次不带放回地取一个,连续取m (m ≤ n)次,不考虑抽取顺序,组合数为

( 1)( 2) ( 1) !( 1)( 2)...( 1) !

( 1)...1 !( )!mn

n n n n m nC

m m m n m

几个重要公式:m n mn nC C n n

11

m m mn n nC C C

0 1 ... 2n nn n nC C C

m

1 2 1 20

m k m kn n n n

k

C C C

【Example 2.9】生物学家的车牌号

(1)可以为多少生物学家每人发一个车牌号?

(2)获得无任何重复字符的车牌号的概率?

A F CA F C 0 1 20 1 220个标准氨基酸符号

10个数字

AFCUDNEQ基酸符号

0123410个数字

QGHLIKOMPR

0123456789

STVWY

Page 22: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example 2.10】 假定1年为365天

生日问题1:工学院有n个博士生,至少有两人同生日的概率有多大?

生日问题2:生命科学院有n个博士生,其中至少有一人与工学院博士生小明同生日的概率有多大?

【Example 2.11】生物统计应用:

野生种群数目估算方法——Capture/recapture method。

为估算可可西里国家级自然保护区野生藏羚羊的数目,调查为估算 家 自然保护 野 藏羚羊 数队从保护区第一次捕获100只,标记后放回保护区。两周后调查队再次捕获500只,发现其中5只带有标记。据此估算保护区内野生藏羚羊的数目区内野生藏羚羊的数目n。

Page 23: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

三 概率的几何定义(几何概型)三、概率的几何定义(几何概型)

几何概型随机试验几何概型随机试验::几何概型随机试验几何概型随机试验::

若一个试验满足若 个试验满足

(1)样本空间Ω是几何空间上某一有限可测区域,含有无限不可数个样本点;

(2)每个样本点的发生具有某种等可能性(2)每个样本点的发生具有某种等可能性,

则称该试验为几何概型试验。则称该试验为几何概型试验。

概率的几何定义概率的几何定义::

设试验的每个样本点等可能地落入区域Ω(即样本空间),则样本点落入子域A(即事件)的概率为:

( )( )

( )

D AP A

D

A( )( )D

D(Ω) 区域Ω的测度

A

ΩD(Ω):区域Ω的测度D(A):子域A的测度

随机点落在Ω内任意可测区域AΩ上的概率只与A的测度成正比,与子区域A的几何形状、空间位置无关。

Page 24: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

几何概率几何概率P(A)P(A)的性质的性质::

(1)0 P(A) 1;

(2)P(Ω) 1(2)P(Ω)=1;

(3)若事件A与事件B互斥 即AB=Φ 则P(A+B)=P(A)+P(B)。(3)若事件A与事件B互斥,即AB Φ,则P(A+B) P(A)+P(B)。性质3可推广到k个互斥事件的情况。

Buffon's needle:

在平面上画有 组间距在平面上画有一组间距为D的平行线,将一根长度为L(L<D)的针任意掷在这个平面上任意掷在这个平面上,则此针与平行线中任一条 相 交 的 概 率 是p=2L/(πD),π即为圆周p 2L/(πD),π即为圆周率。

1901年意大利数学家1901年意大利数学家Mario Lazzarini重复了这个试验。他总共投掷了3408次针,得到π的了 次针,得到 的值为355/113,已经精确到了小数点的第6位。

Page 25: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example 2.12】会面问题:

两人相约在[0, T]时间间隔内会面,先到者等候时间t (t≤T)后即可离去,则两人能够会面的概率是多少?

y

T

t

xTt0

计算几何计算几何概率的关键概率的关键

——样本空间Ω与事件A的几何关系(即:测度上的比例关系)

“等可能性”的保证——“等可能性”的保证

Page 26: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example 2.13】Bertrand paradox:

在半径为1的圆内随机地取一条弦,则其长超过该圆内接等边三角形的边长的概率是多少?

Page 27: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

§§2.1.32.1.3 概率的基本理论概率的基本理论§§2.1.3 2.1.3 概率的基本理论概率的基本理论

【 】 (洋地黄)临床上常用于治疗充血【Example 2.14】Digitalis(洋地黄)临床上常用于治疗充血性心力衰竭,但也有可能导致Digitalis中毒,且这种副作用临床上较难诊断 为观察药物疗效 医院能够检测出患者血临床上较难诊断。为观察药物疗效,医院能够检测出患者血液中的Digitalis浓度T。Beller等(1971年)以135名患者为样本,调查Digitalis浓度T与Digitalis中毒的关系。本 g 度 g 中毒 关

D+ D- Total D+ 患者出现中毒D+ D Total

T+ 25 (0.185) 14 (0.104) 39 (0.289)

T 18 (0 133) 78 (0 578) 96 (0 711)

D+:患者出现中毒

D-:患者未中毒

T+ 浓度高(阳性)T- 18 (0.133) 78 (0.578) 96 (0.711)

Total 43 (0.318) 92 (0.682) 135

T+:浓度高(阳性)

T-:浓度底(阴性)

Beller, G. et al. (1971). Digitalis intoxication: A prospective clinic study with serum level correlations. New England J. Med., 284: 989-997.

Page 28: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

一 条件概率(Conditional probability)一、条件概率(Conditional probability)

条件概率的定义条件概率的定义::条件概率的定义条件概率的定义::

设E的样本空间为Ω,对任意二事件A, B,其中P(A)>0,称设E的样本空间为Ω,对任意二事件A, B,其中P(A) 0,称( )

( | )( )

P A BP B A

P A

为已知事件A发生的条件下事件B发生的条件概率。

( )P A

本质:减小样本空间Ω,在某样本子空间A上考察某事件B的

A BAB样本子空间A上考察某事件B的概率。

类似地,可定义P(A|B) 。

条件概率的条件概率的33个重要性质个重要性质::

(1) 0 ( | ) 1P B A (1)

(2)P(Ω|A)=1 P(|A)=0;

0 ( | ) 1P B A

(2)P(Ω|A)=1, P(|A) 0;

(3)设A1, A2, …, 是两两互斥事件,则有

( | ) ( | )i iP B A P B A U条件概率也是概率。

概率的公理化定义已经提出了条件概率的自然概念:对于每一个非零概率A都可以在空间上定义另外一个概率。

Page 29: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

重要性质重要性质::

1 2 1 2 1 2( | ) ( | ) ( | ) ( | )P A A B P A B P A B P AA B 1 2 1 2 1 2( | ) ( | ) ( | ) ( | )P A A B P A B P A B P AA B

( ) 1 ( )P B A P B A ( ) 1 ( )P B A P B A

二 乘法公式(Multiplication law)二、乘法公式(Multiplication law)

由条件概率的定义立即得到由条件概率的定义立即得到:

)0)(()|()()( APABPAPABP )0)(()|()()( APABPAPABP

)0)(()|()()( BPBAPBPABP

利用乘法公式可计算两个事件同时发生的概率

)0)(()|()()( BPBAPBPABP

利用乘法公式可计算两个事件同时发生的概率。

法 式 广 多 事 情讨论:乘法公式可推广到多个事件的情况

P(ABC)=P(A)P(B|A)P(C|AB)P(ABC)=P(A)P(B|A)P(C|AB)P(A1A2…An)=P(A1)P(A2|A1)…P(An|A1A2…An-1)

Page 30: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example 2.15】毛细管电泳仪所用的氘灯需定期更换。某公司生产的氘灯按设计要求使用寿命超过1500小时的概率为公司生产的氘灯按设计要求使用寿命超过1500小时的概率为0.8,超过2000小时的概率为0.5。试求该氘灯在使用1500小时后,将在500小时内损坏的概率。

【Example 2.16】罐中有3只黑球,1只红球。不放回地从中依次任取2球,试求都是黑球的概率。

【Example 2.17】Poloya模型:

罐中有b只黑球,r只红球,随机地取一只之后,把原球放回,并加进与刚取出的球同色之球c只,再摸第二次,这样下去共摸 次 问前 次出现黑球 后面 次出现红球概率是摸n次。问前n1次出现黑球,后面n2=n-n1次出现红球概率是多少?

Poloya模型是曾用于描述传染病的数学模型。

思考题:在Poloya模型中,取n次,问正好出现n2次红球概率y 2是多少?

Page 31: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

三 全三 全概率(概率(Total probabilityTotal probability))三、全三、全概率(概率(Total probabilityTotal probability))

定理 全概率定理:全概率

设试验E的样本空间为Ω 事件A A A 构成样本空间Ω的完设试验E的样本空间为Ω,事件A1, A2, …, An构成样本空间Ω的完备事件组,且P(Ai)>0 (i=1, 2, …, n),则对任一事件B,有

n

1

( ) ( ) ( | )n

i ii

P B P A P B A

关键:找出样本空间的一个恰当的完备事件组

1i

样本空间的划分 完备事件组 (Complete events)样本空间的划分——完备事件组 (Complete events)

设Ω被划分成n个事件Ai (i=1, 2, …, n),它们满足:设Ω被划分成n个事件Ai (i 1, 2, …, n),它们满足:

(1)AiAj= ( i ≠ j, i, j = 1, 2, …, n);j(2)A1∪A2∪…∪An = Ω,

则称这 个事件A (i 1 2 )构成样本空间Ω的 个完备事件则称这n个事件Ai (i=1, 2, …, n)构成样本空间Ω的一个完备事件组(或一个划分, partition)。

1A2A

A A3A1nAL nA

Page 32: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

基本思想:将事件B投影到样本空间Ω的一个n维正交坐标系上,坐标轴是完备事件组A1, A2, …, A ,条件概率P(B|Ai)是上,坐标轴是完备事件组A1, A2, …, An,条件概率P(B|Ai)是坐标轴上的投影值。

1A2A

B

A A3A1nAL nA

【Example 2.18】后代职位变迁调查分析:

假定社会职位分为高(U)、中(M)、低(L)三个层次。U1表示父辈的职位为高(U)层次,U2表示第二代的职位为高(U)层次 Glass和Hall(1954年)对England和Wales地高(U)层次。Glass和Hall(1954年)对England和Wales地区进行调查,结果如见表所示。该表被称为转移概率矩阵(Transition probability matrix),每一元素其实就是一个条(Transition probability matrix),每 元素其实就是 个条件概率。现假设父辈10%是U,40%是M,50%是L,试求第二代中U、M、L的比例。

U M L

Transition probability matrix

U2 M2 L2

U1 0.45 0.48 0.07U: upper level

M: middle levelM1 0.05 0.70 0.25

L1 0.01 0.50 0.49 L: lower level

Glass, D., & Hall, J. (1954). A study of intergeneration changes in status. In Social Mobility in Britain.

Page 33: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

四四 B iB i 概率概率四、四、BayesianBayesian概率概率

【Example 2.18】后代职位变迁调查分析:

已知第二代某人职位是U层次 问其父辈职位也是U层次的概已知第二代某人职位是U层次,问其父辈职位也是U层次的概率?

T iti b bilit t i

U2 M2 L2

Transition probability matrix

U: upper levelU1 0.45 0.48 0.07

M1 0.05 0.70 0.25

U: upper level

M: middle levelM1 0.05 0.70 0.25

L1 0.01 0.50 0.49 L: lower level

Glass, D., & Hall, J. (1954). A study of intergeneration changes in status. In Social Mobility in Britain.

定理定理 B iB i 概率概率定理:定理:BayesianBayesian概率概率

设试验E的样本空间为Ω 事件A A A 构成样本空间Ω的完设试验E的样本空间为Ω,事件A1, A2, …, An构成样本空间Ω的完备事件组,且P(Ai)>0 (i=1, 2, …, n),则对任一事件B,P(B)>0,有有

( ) ( | )( | ) i i

i

P A P B AP A B

1

( | )( ) ( | )

i n

j jj

P A P B A

1A2A

B

A3A1nA L nA

Page 34: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

讨论:讨论:如果把事件B看作一个试验结果,把构成样本空间划分的事件组A A A 看作导致B发生的各种原因 则Bayes概的事件组A1, A2, …, An看作导致B发生的各种原因,则Bayes概率用于推测事件B发生的原因。

( ) ( | )( | )

( ) ( | )

i ii n

P A P B AP A B

P A P B A

1

( ) ( | )j jj

P A P B A

P(A ) 完备事件组A 的先验概率 (prior probabilit )P(Ai): 完备事件组Ai的先验概率 (prior probability)P(B): 事件B的先验概率 (prior probability)P(Ai|B): 后验概率 (posterior probability)

1A2A

P(Ai|B): 后验概率 (posterior probability)

Bayes概率在机器学习、人工智能知识发现领域中有极其广泛的应

B

2知识发现领域中有极其广泛的应用,是工程数据分析、生物医学信息学等的基本方法之一。

3A1nAL nA

信息学等的基本方法之 。

Page 35: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

Structure of Bayesian network. Labeled ovals represent nodes; arrows (arcs) represent conditionaldependence relationships. Each node is a data structure that contains conditional probability tables toquantify probabilistic relationships between variables. Cacalcifications, FCfibrocystic change, FHxfamilyhistory of breast cancer HRThormone replacement therapy LNlymph node P/A/O present absent orhistory of breast cancer, HRThormone replacement therapy, LNlymph node, P/A/O present, absent, orobscured.Elizabeth et al., (2006) Bayesian Network to Predict Breast Cancer Risk of Mammographic Micro-calcifications and

Reduce Number of Benign Biopsy Results: Initial Experience. Radiology, 240, 666-673.

【Example 2.19】冠状动脉病诊断分析:研究人员试图通过心脏X线透视检查具有胸疼的患者冠状动脉的钙化来确定是心脏X线透视检查具有胸疼的患者冠状动脉的钙化来确定是否患冠状动脉病。检查结果可以分别标记0、1、2、3处冠状动脉已钙化(事件的发生记为T0, T1, T2, T3),对应的结果见0, 1, 2, 3表。

( ) ( | )P D P T D( ) ( | )( | )

( ) ( | ) ( ) ( | )i

ii i

P D P T DP D T

P D P T D P D P T D

i P(Ti|D+) P(Ti|D-)

0 0 42 0 9630-39岁年龄段:P(D+) =0.05

0 0.42 0.96

1 0.24 0.02

2 0 20 0 02

50-59岁年龄段:P(D+) =0.92

2 0.20 0.02

3 0.15 0.00

Diamond, G. & Forrester, J. (1979). Analysis of probability as an aid in the clinical diagnosis of coronary-artery disease. New Eng. J. Med., 300: 1350-1358.

Page 36: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

【Example 2.20】测谎仪的可靠性

测谎仪(Li d t t )以隐蔽的方式被某些公司用于测试员测谎仪(Lie detector)以隐蔽的方式被某些公司用于测试员工对公司的忠诚度,理由是现代测谎仪已经具有较高的可靠性,因为据Gastwirth(1987年)的分析,有P(+|L)=0 88,性,因为据Gastwirth(1987年)的分析,有P(+|L) 0.88,P(-|T)=0.86,这里L表示被测者说谎,T表示被测者没有说谎,+表示测谎仪认定结果为说谎,-表示测谎仪认定结果未说谎。

某公司对大量员工在不知情的情况下进行了测试,且绝大多某公司对大量员工在不知情的情况下进行了测试,且绝大多数员工对测试问题没有必要说谎,即P(T)=0.99,P(L)=0.01。试求该测试结果的可靠性。

Gastwirth, J. (1987). The statistical precision of medical screening procedures. Statistical Science 3: 213-222Science, 3: 213 222.

【Example 2.21】由于随机干扰,在无线电通讯中发出信号【Example 2.21】由于随机干扰,在无线电通讯中发出信号“•”,收到信号“•”,“不清”,“-”的概率分别为0.7,0.2,0.1;发出信号“-”收到信号“•”,“不清”,“-”的概率分别为0.0,0.1,0.9.已知在发出的信号中,“•”和“-”出现的概率分别为0.6和0.4,试分析,当收到信号“不清”时 原发信号为“•”还是“ ”的概率哪个大?清 时,原发信号为 •”还是 - 的概率哪个大?

Page 37: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

五五 随机事件的独立性随机事件的独立性五五、随机事件的独立性、随机事件的独立性

【Example 2.22】设箱子中有6个红球、4个绿球,现有放回地依次取2个球。令A=第一次取到绿球,B=第二次取到绿球 求P(A) P(B) P(AB) P(B|A)球。求P(A),P(B),P(AB),P(B|A)。

事件的相互独立性是概率论中的一个重要概念。

1. 1. 两两个事件相互个事件相互独立独立

对 事 若 称事 相对于事件A与B,若P(AB)=P(A)P(B),则称事件A与B相互独立。

定理:相互独立的充要条件定理:相互独立的充要条件设A, B为两个事件,且P(A)>0,则A, B相互独立的充要条件是P(B|A)=P(B)。( | ) ( )

若P(B)>0,则A, B相互独立的充要条件是P(A|B)=P(A)。

Page 38: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

定理

以下四个命题等价:

(1)事件A与B相互独立(1)事件A与B相互独立;

(2)事件A与 相互独立;B(2)事件A与 相互独立;

(3)事件 与B相互独立;A

B

(4)事件 与 相互独立。A B

2. 多个事件相互独立

对事件A, B, C,若下面四个关系都成立:

P(AB) P(A)P(B)P(AB)=P(A)P(B); P(BC)=P(B)P(C); P(AC)=P(A)P(C);P(AC) P(A)P(C); P(ABC)=P(A)P(B)P(C),

则称事件A, B, C相互独立。

Page 39: Lect02 Probability 1 - PKU · 【ElExample】在六合彩(4949选66)中,一共有13 983 81613,983,816种可能 性,普遍认为,如果每周都买一个不相同的号,最晚可以在

nn个事件相互个事件相互独立独立nn个事件相互个事件相互独立独立

设有n个事件A1, A2, …, A ,若对于任意的整数k (1<k≦n)和任意设有n个事件A1, A2, …, An,若对于任意的整数k (1<k≦n)和任意的k个整数i1, i2, …, ik (1≦i1<i2 <…< ik≦n)都有

P A A A P A P A P A成立,则称这n个事件A1, A2, …, An相互独立。

1 2 1 2

... ...k ki i i i i iP A A A P A P A P A

讨论:

(1)若事件A1, A2, …, An相互独立,其中任意k个(1<k≦n)事件也相互独立;(2)当k=2时,任意两个相互独立;(3)n个事件两两独立不能保证这n个事件相互独立;

n

(4)上式共有 个。2

2 1k nn

k

C n

【Example 2.7】给定电路(a)、(b),设Ai=第i个开关闭合,设每个继电器闭合的概率都为p,且相互独立,试求事件设每个继电器闭合的概率都为p,且相互独立,试求事件A=L至R导通的概率。

( )L R

1

(a)2 3

3

4

R1

3

(b)L R4

2 5