概率论笔记
概率论的研究对象是随机现象——在相同条件下重复试验时,结果呈现不确定性的现象。我们用样本空间 $\Omega$ 表示所有可能的基本结果,用随机事件 $A$ 表示样本空间的子集。
等可能概型分为古典概型和几何概型两类。当样本空间有限且每个基本事件发生概率相同时,称古典概型:
古典概型
若样本空间 $\Omega$ 含有 $N$ 个等可能的基本事件,事件 $A$ 包含 $N_A$ 个基本事件,则
几何概型则将等可能推广到连续情形:样本点对应一个几何区域,每个点"等可能"意味着落在任意等面积区域的概率相同。典型的几何概型问题包括会面问题和投针问题(布丰投针)。
在已知事件 $B$ 发生的条件下,事件 $A$ 的条件概率定义为:
若 $P(AB) = P(A)P(B)$,则称 $A$ 与 $B$ 相互独立。独立性的本质含义是:一个事件的发生不影响另一个事件的概率。
设 $\{A_1, A_2, \ldots, A_n\}$ 为样本空间的一个完备事件组(两两互斥且并集为 $\Omega$),则全概率公式为:
全概率公式
意义在于:将复杂事件 $B$ 的概率分解为若干互斥情形下的条件概率之和。
由条件概率的定义直接推出贝叶斯公式:
贝叶斯定理
$P(A_i)$ 为先验概率(prior),$P(A_i \mid B)$ 为后验概率(posterior)。贝叶斯定理建立了从结果反推原因的逆概率推理框架。
贝叶斯定理在分类问题中的直接应用。核心假设是特征条件独立:在给定类别 $Y$ 下,各特征 $X_1, X_2, \ldots, X_n$ 相互独立。
分类决策规则:
拉普拉斯平滑用于解决零概率问题——当某个特征值在训练集中从未出现时:
其中 $k$ 为特征 $X_i$ 的可能取值数量。
随机变量是将随机试验的结果映射为实数的函数。离散型随机变量取有限或可列个值;连续型随机变量取不可列个值,用密度函数描述。
| 分布 | 记号 | 概率质量函数 | 应用场景 |
|---|---|---|---|
| 二项分布 | $X \sim B(n, p)$ | $\binom{n}{k}p^k(1-p)^{n-k}$ | n次独立重复试验中成功次数 |
| 泊松分布 | $X \sim P(\lambda)$ | $\frac{\lambda^k e^{-\lambda}}{k!}$ | 单位时间/空间内事件发生次数(交通事故、机器故障) |
| 超几何分布 | $X \sim H(N, K, n)$ | $\frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}$ | 不放回抽样(N件含K件合格品,抽n件得k件合格品的概率) |
| 几何分布 | $X \sim Geom(p)$ | $(1-p)^{k-1}p$ | 首次成功出现所需试验次数 |
| 负二项分布 | $X \sim NB(r, p)$ | $\binom{k-1}{r-1}p^r(1-p)^{k-r}$ | 第r次成功出现时所需的试验总次数 |
泊松分布是二项分布的极限情形($n \to \infty, np = \lambda$ 固定)。其期望与方差相等,均为 $\lambda$:
| 分布 | 记号 | 密度函数 | 应用场景 |
|---|---|---|---|
| 均匀分布 | $X \sim U(a, b)$ | $\frac{1}{b-a}, x \in [a,b]$ | 随机数生成、几何概型的连续化 |
| 指数分布 | $X \sim Exp(\lambda)$ | $\lambda e^{-\lambda x}, x \geq 0$ | 独立事件发生间隔时间(无记忆性) |
| 正态分布 | $X \sim N(\mu, \sigma^2)$ | $\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ | 噪声建模、中心极限定理、自然现象建模 |
给定 $Y = g(X)$,求 $Y$ 的分布:
- 离散型:对每个 $x$ 计算 $y = g(x)$,合并相同取值并相加概率
- 连续型:利用分布函数法,先求 $F_Y(y) = P(Y \leq y) = P(g(X) \leq y)$,再对 $y$ 求导得密度函数
当需要同时描述多个随机变量时,引入联合分布。二维情形下,联合分布函数定义为:
n维情形:$F(x_1, \ldots, x_n) = P(X_1 \leq x_1, \ldots, X_n \leq x_n)$。
从联合分布中"消除"部分变量得到边缘分布:
- 离散型:$P(X = x_i) = \sum_j p_{ij}$(对 $j$ 求和)
- 连续型:$f_X(x) = \int_{-\infty}^{+\infty} f(x, y)\,dy$(对 $y$ 积分)
条件分布刻画在一个变量取某值的条件下,另一个变量的分布规律:
离散型:$P(X=x_i \mid Y=y_j) = \frac{p_{ij}}{p_{\cdot j}}$
连续型:$f_{X\mid Y}(x \mid y) = \frac{f(x, y)}{f_Y(y)}$
协方差度量两个随机变量的联合变异性:
相关系数消除了量纲影响,是标准化后的协方差,取值在 $[-1, 1]$ 之间:
二维正态分布 $N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$ 的边缘分布和条件分布仍是正态分布,这一优良性质使得正态分布在多元统计中具有核心地位。
数学期望是随机变量的加权平均:
- 离散型:$E[X] = \sum_i x_i p_i$
- 连续型:$E[X] = \int_{-\infty}^{+\infty} x f(x)\,dx$
期望的线性性质:$E[aX + b] = aE[X] + b$,且对相互独立的随机变量有 $E[XY] = E[X]E[Y]$。
方差衡量随机变量围绕期望的离散程度:
标准差为方差的算术平方根 $\sigma = \sqrt{\text{Var}(X)}$,与原随机变量同量纲。
$k$ 阶原点矩 $\mu_k' = E[X^k]$;$k$ 阶中心矩 $\mu_k = E[(X - E[X])^k]$。一阶原点矩即期望,一阶中心矩恒为零,二阶中心矩即方差。
相关系数 $\rho_{XY}$ 的性质:$|\rho_{XY}| = 1$ 当且仅当 $Y = aX + b$(线性关系);$|\rho_{XY}| = 0$ 时称 $X, Y$ 不相关。
不依赖分布具体形式的不等式,给出了随机变量偏离期望的概率上界:
切比雪夫不等式
或等价地:$P(|X - \mu| < \epsilon) \geq 1 - \frac{\sigma^2}{\epsilon^2}$。
应用示例:某班数学考试均分 70 分,标准差 10 分,则 $P(50 \leq X \leq 90) \geq 1 - \frac{10^2}{20^2} = 0.75$。
大数定律说明,随着样本量增大,样本均值趋于期望:
- 切比雪夫大数定律:若 $\{X_i\}$ 两两不相关、方差有界,则 $\frac{1}{n}\sum_{i=1}^n X_i$ 依概率收敛于 $\frac{1}{n}\sum_{i=1}^n \mu_i$
- 伯努利大数定律:若 $n_A$ 为 $n$ 次伯努利试验中成功次数,则 $\frac{n_A}{n} \xrightarrow{P} p$($p$ 为单次成功概率)
中心极限定理(CLT)是概率论中最深刻的定理之一:
林德伯格-莱维中心极限定理
设 $\{X_i\}$ i.i.d.,$E[X_i] = \mu$,$\text{Var}(X_i) = \sigma^2$,则
即当 $n$ 充分大时,左端近似服从标准正态分布,与 $X_i$ 的具体分布无关。
CLT 的直观含义:大量微小独立随机因素叠加后,整体呈现正态分布。这也是正态分布在自然界中普遍存在的根本原因。
设 $X_1, \ldots, X_n$ 为来自总体 $X$ 的样本,统计量是样本的函数,不含任何未知参数。三个最重要的抽样分布:
| 分布 | 记号 | 定义 | 自由度 |
|---|---|---|---|
| 卡方分布 | $\chi^2(n)$ | $Z_1^2 + \cdots + Z_n^2$,$Z_i \sim N(0,1)$ i.i.d. | $n$ 个标准正态的平方和 |
| $t$ 分布 | $t(n)$ | $\frac{Z}{\sqrt{U/n}}$,$Z\sim N(0,1)$,$U\sim\chi^2(n)$ | $n$(分母卡方自由度) |
| $F$ 分布 | $F(m, n)$ | $\frac{U/m}{V/n}$,$U\sim\chi^2(m)$,$V\sim\chi^2(n)$ | 分子 $m$,分母 $n$ |
矩估计用样本矩替换总体矩,简单直观。例如用 $\bar{X} = \frac{1}{n}\sum X_i$ 估计 $E[X]$。
极大似然估计(MLE)寻找使样本出现概率最大的参数值。似然函数定义为样本的联合密度/质量函数 $L(\theta) = \prod_{i=1}^n f(X_i; \theta)$,求其最大值点 $\hat{\theta} = \arg\max_\theta L(theta)$。通常通过对数似然求导得到。
MLE 的直观理解
一个箱子中有白球和黑球,其中一种有 1 个,另一种有 99 个。连续两次摸到白球后,我们认为白球有 99 个的概率更大——这正是 MLE 的直觉:寻找使观测结果出现概率最大的假设。
MLE 具有一致性、渐近有效性和渐近正态性,是最常用的参数估计方法。
点估计给出单一数值,区间估计给出一个置信区间——在重复抽样意义下,包含未知参数真值的概率为 $1-\alpha$。例如,总体方差已知时,总体均值的 $95\%$ 置信区间为:
假设检验的基本框架:提出原假设 $H_0$ 和备择假设 $H_1$,构造检验统计量,根据其观测值计算 $p$ 值——即在 $H_0$ 成立时,观测到当前或更极端结果的概率。
- $p < \alpha$:拒绝 $H_0$(证据充分)
- $p \geq \alpha$:不拒绝 $H_0$(证据不足,不能说"接受"$H_0$)