概率论基础
第 2 章从具体的随机试验出发,给出概率空间的公理化定义($S, \mathcal{B}, P$ 三元组),再建立条件概率、全概率公式和贝叶斯定理的推断框架。
随机试验的定义
随机试验(Random Experiment):在相同条件下可重复进行、结果至少两种且事先无法确定哪个结果实现的机制。
注意:这里"试验"泛指观察或测度的过程,不一定是真正实施的实验。
随机试验的两要素:
- 所有可能结果的集合(即样本空间 $S$)
- 每个结果发生的可能性(概率函数 $P$)
现代统计学的主要任务:根据观测数据推断这个概率法则(即"数据生成过程")。
样本空间
样本空间(Sample Space)$S$:随机试验所有可能基本结果的集合。基本结果(basic outcome / sample point)是 $S$ 的最小不可分单位。
样本空间可以是:
- 可数的:抛硬币 $S=\{H,T\}$,掷骰子 $S=\{1,2,3,4,5,6\}$
- 不可数的:气温 $S=\{t: t_0 \leq t \leq t_1\}$(实数区间)
事件
事件(Event)$A$:样本空间 $S$ 中具有共同特征的基本结果所组成的集合。数学上,事件等同于集合。
基本关系:基本结果 $\subseteq$ 事件 $\subseteq$ 样本空间
| 运算 | 符号 | 含义 |
|---|---|---|
| 交集 | $A \cap B$ | $A$ 和 $B$ 同时发生 |
| 并集 | $A \cup B$ | $A$ 或 $B$(或两者)发生 |
| 补集 | $A^c$ | 不在 $A$ 中的基本结果 |
| 差 | $A - B = A \cap B^c$ | 在 $A$ 中但不在 $B$ 中 |
关键概念:
- 互斥(互不相交):$A \cap B = \varnothing$
- 完全穷尽(划分):$\cup_{i=1}^n A_i = S$
- 完全穷尽且互斥的事件集构成样本空间的一个分割(partition),可类比为正交基的完备集
仅用集合运算描述事件还不够——我们需要对事件赋予概率,这要求事件的集合必须构成一个适合概率运算的结构:$\sigma$ 代数。
$\sigma$ 代数($\sigma$ 域)$\mathcal{B}$
$\mathcal{B}$ 是样本空间 $S$ 中满足以下条件的子集(事件)的集合:
- $\varnothing \in \mathcal{B}$(空集封闭)
- 若 $A \in \mathcal{B}$,则 $A^c \in \mathcal{B}$(对补集封闭)
- 若 $A_1, A_2, \cdots \in \mathcal{B}$,则 $\cup_{i=1}^{\infty} A_i \in \mathcal{B}$(对可数并集封闭)
$(S, \mathcal{B})$ 构成可测空间,$\mathcal{B}$ 是概率函数的定义域。
概率函数 $P: \mathcal{B} \to [0,1]$
满足以下条件的映射:
- $0 \leq P(A) \leq 1$(非负性)
- $P(S) = 1$(规范性)
- 若 $A_1, A_2, \cdots$ 互斥,则 $P(\cup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} P(A_i)$(可数可加性)
概率空间 $(S, \mathcal{B}, P)$
概率空间是一个三元组合:
- $S$:随机试验的样本空间
- $\mathcal{B}$:$S$ 的子集(事件)构成的 $\sigma$ 域
- $P: \mathcal{B} \to [0,1]$:概率测度(概率函数)
这个三元组完整描述了随机试验的概率法则。
- 相对频率解释:大量重复试验时结果发生的比例趋于概率。"降水概率 30%"意味着在相同天气条件下,长期记录中约 30% 的类似日子会下雨。
- 主观概率解释:事件发生的主观可能性——用于难以重复的事件(如分析师预测股票)。这引出了金融学中风险中性概率的概念。
| 法则 | 公式 |
|---|---|
| 补公式 | $P(A) = 1 - P(A^c)$ |
| 单调性 | $A \subseteq B \Rightarrow P(A) \leq P(B)$ |
| 包含-排除公式 | $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ |
| 次可加性(布尔不等式) | $P(\cup_i A_i) \leq \sum_i P(A_i)$ |
| 抽样方式 | 有序否 | 放回否 | 计数公式 |
|---|---|---|---|
| (1) 排列 | 有序 | 不放回 | $P_{n,r} = \frac{n!}{(n-r)!}$ |
| (2) 组合 | 无序 | 不放回 | $C_n^r = \binom{n}{r} = \frac{n!}{r!(n-r)!}$ |
| (3) 重复排列 | 有序 | 放回 | $n^r$ |
| (4) 重复组合 | 无序 | 放回 | $C_{r+n-1}^r$ |
$k$ 人班级至少两人生日相同的概率:
| $k$(人数) | 20 | 30 | 40 | 50 |
|---|---|---|---|---|
| $P(A)$ | 0.411 | 0.706 | 0.891 | 0.970 |
仅需 30 人,超过 70% 概率就有相同生日——这违反了直觉,但排列组合计算确认无误。
抛 10 枚均匀硬币恰好 3 次正面的概率:
其中 $\binom{10}{3} = 120$ 是从 10 次抛掷中选出恰好 3 次正面(不计顺序)的方法数。
条件概率定义
给定事件 $B$($P(B) > 0$),事件 $A$ 的条件概率:
条件概率描述的是 $B$ 已发生时对 $A$ 的预测关系,而非因果关系。因果关系需要经济理论来刻画。
条件概率 $P(A \mid B)$ 本身也满足概率函数的所有公理——$(S \cap B, \mathcal{B} \cap B, P(\cdot \mid B))$ 构成一个完整的概率空间。
乘法法则
对 $n$ 个事件:$P(\cap_{i=1}^n A_i) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots$
全概率公式
若 $A_1, \cdots, A_n$ 互斥且完全穷尽,$P(A_i) > 0$,则对任意事件 $B$:
意义:将复杂事件 $B$ 的概率分解为若干互斥情形下的条件概率之和。
贝叶斯定理
其中 $P(A_i)$ 为先验概率(prior)——获得 $B$ 信息之前对原因的判断;$P(A_i \mid B)$ 为后验概率(posterior)——获得 $B$ 信息之后的修正判断。
高风险 $P(H)=0.25$,中风险 $P(M)=0.25$,低风险 $P(L)=0.5$。收到超速罚单条件下高风险的概率:
从先验 $0.25$ 更新到后验 $0.41$——罚单信息显著提高了高风险判断的概率,保险公司据此可以调整保费定价。
箱子中有 60% 的红球、40% 的蓝球。红球中有一半是次品,蓝球中有 10% 是次品。
(1)随机取一球,求取到次品的概率。
设 $A$ 为「取到红球」,$B$ 为「取到次品」。由全概率公式:
(2)已知取到的是次品,求它是蓝球的概率。
由贝叶斯公式:
例 3:三人考核的通过率
三名员工(猴博士、傻狍子、沙垃鸡)被选中的概率各为 $\frac{1}{3}$,通过率分别为 99%、3%、30%。
(1)随机选一人考核,求通过的概率。
设 $E_1, E_2, E_3$ 分别为选中三人,$T$ 为「通过」。由全概率公式:
(2)已知某人通过了考核,求他是傻狍子的概率。
由贝叶斯公式:
尽管三人的先验概率相同,但由于傻狍子通过率极低(3%),在已知通过的条件下,他是傻狍子的后验概率仅为 $\frac{1}{44}$——观察数据大幅修正了先验判断。
独立性的定义
若 $P(A \cap B) = P(A)P(B)$,则 $A$ 与 $B$ 相互独立。
等价条件:$P(A \mid B) = P(A)$——一个事件发生不影响另一个的概率。
例题:互斥且独立
题目:已知事件 $A$ 与 $B$ 互斥且独立,则下列一定成立的是( )
- A. $P(A) = P(B) = 0.5$
- B. $P(A \cap B) = 1$
- C. $P(A \cup B) = 1$
- D. $P(A) = 0$ 或 $P(B) = 0$
- 互斥条件:$P(A \cap B) = 0$
- 独立条件:$P(A \cap B) = P(A) \cdot P(B)$
- 联立:$P(A) \cdot P(B) = 0$,故至少一个概率为 0
答案:D
| 概念 | 公式 |
|---|---|
| 条件概率 | $P(A \mid B) = P(A \cap B) / P(B)$ |
| 乘法法则 | $P(A \cap B) = P(A \mid B) P(B)$ |
| 全概率公式 | $P(B) = \sum_i P(B \mid A_i) P(A_i)$ |
| 贝叶斯定理 | $P(A_i \mid B) = \frac{P(B \mid A_i) P(A_i)}{\sum_j P(B \mid A_j) P(A_j)}$ |
| 独立条件 | $P(A \cap B) = P(A)P(B)$ |
| 组合数 | $C_n^x = \frac{n!}{x!(n-x)!}$ |
| 排列数 | $P_{n,x} = \frac{n!}{(n-x)!}$ |