概率论笔记

2026/05/23 20:55:43

数学概率论·13 min read

概率论随机变量统计推断贝叶斯

第一章 · 随机事件与概率

随机事件与概率

概率论的研究对象是随机现象——在相同条件下重复试验时，结果呈现不确定性的现象。我们用样本空间 $\Omega$ 表示所有可能的基本结果，用随机事件 $$A$$ 表示样本空间的子集。

等可能概型

等可能概型分为古典概型和几何概型两类。当样本空间有限且每个基本事件发生概率相同时，称古典概型：

古典概型

若样本空间 $\Omega$ 含有 $$N$$ 个等可能的基本事件，事件 $$A$$ 包含 $$N_A$$ 个基本事件，则

P(A) = \frac{N_A}{N}

几何概型则将等可能推广到连续情形：样本点对应一个几何区域，每个点"等可能"意味着落在任意等面积区域的概率相同。典型的几何概型问题包括会面问题和投针问题（布丰投针）。

条件概率与独立性

在已知事件 $$B$$ 发生的条件下，事件 $$A$$ 的条件概率定义为：

P(A \mid B) = \frac{P(AB)}{P(B)}, \quad P(B) > 0

若 $$P(AB) = P(A)P(B)$$ ，则称 $$A$$ 与 $$B$$ 相互独立。独立性的本质含义是：一个事件的发生不影响另一个事件的概率。

全概率公式与贝叶斯公式

设 $\{A_1, A_2, \ldots, A_n\}$ 为样本空间的一个完备事件组（两两互斥且并集为 $\Omega$ ），则全概率公式为：

全概率公式

P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B \mid A_i)

意义在于：将复杂事件 $$B$$ 的概率分解为若干互斥情形下的条件概率之和。

由条件概率的定义直接推出贝叶斯公式：

贝叶斯定理

P(A_i \mid B) = \frac{P(A_i) \cdot P(B \mid A_i)}{P(B)} = \frac{P(A_i) \cdot P(B \mid A_i)}{\sum_{j=1}^{n} P(A_j) \cdot P(B \mid A_j)}

$$P(A_i)$$ 为先验概率（prior）， $P(A_i \mid B)$ 为后验概率（posterior）。贝叶斯定理建立了从结果反推原因的逆概率推理框架。

朴素贝叶斯分类器

贝叶斯定理在分类问题中的直接应用。核心假设是特征条件独立：在给定类别 $$Y$$ 下，各特征 $X_1, X_2, \ldots, X_n$ 相互独立。

分类决策规则：

\hat{Y} = \arg\max_{Y} \left[ P(Y) \cdot \prod_{i=1}^{n} P(X_i \mid Y) \right]

拉普拉斯平滑用于解决零概率问题——当某个特征值在训练集中从未出现时：

P(X_i \mid Y) = \frac{\text{count}(X_i, Y) + 1}{\text{count}(Y) + k}

其中 $$k$$ 为特征 $$X_i$$ 的可能取值数量。

第二章 · 随机变量及其分布

随机变量及其分布

随机变量是将随机试验的结果映射为实数的函数。离散型随机变量取有限或可列个值；连续型随机变量取不可列个值，用密度函数描述。

常用离散分布

分布	记号	概率质量函数	应用场景
二项分布	$X \sim B(n, p)$	$\binom{n}{k}p^k(1-p)^{n-k}$	n次独立重复试验中成功次数
泊松分布	$X \sim P(\lambda)$	$\frac{\lambda^k e^{-\lambda}}{k!}$	单位时间/空间内事件发生次数（交通事故、机器故障）
超几何分布	$X \sim H(N, K, n)$	$\frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}$	不放回抽样（N件含K件合格品，抽n件得k件合格品的概率）
几何分布	$X \sim Geom(p)$	$(1-p)^{k-1}p$	首次成功出现所需试验次数
负二项分布	$X \sim NB(r, p)$	$\binom{k-1}{r-1}p^r(1-p)^{k-r}$	第r次成功出现时所需的试验总次数

泊松分布的性质

泊松分布是二项分布的极限情形（ $n \to \infty, np = \lambda$ 固定）。其期望与方差相等，均为 $\lambda$ ：

E(X) = \lambda, \quad Var(X) = \lambda

常用连续分布

分布	记号	密度函数	应用场景
均匀分布	$X \sim U(a, b)$	$\frac{1}{b-a}, x \in [a,b]$	随机数生成、几何概型的连续化
指数分布	$X \sim Exp(\lambda)$	$\lambda e^{-\lambda x}, x \geq 0$	独立事件发生间隔时间（无记忆性）
正态分布	$X \sim N(\mu, \sigma^2)$	$\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$	噪声建模、中心极限定理、自然现象建模

正态分布是最重要的连续分布。其密度函数关于均值

\mu

对称，方差

\sigma^2

控制曲线宽窄。标准正态分布

$N(0, 1)$

是所有正态分布的标准化形式：若

X \sim N(\mu, \sigma^2)

，则

Z = (X-\mu)/\sigma \sim N(0,1)

。

随机变量函数的分布

给定 $$Y = g(X)$$ ，求 $$Y$$ 的分布：

离散型：对每个 $$x$$ 计算 $$y = g(x)$$ ，合并相同取值并相加概率
连续型：利用分布函数法，先求 $F_Y(y) = P(Y \leq y) = P(g(X) \leq y)$ ，再对 $$y$$ 求导得密度函数

第三章 · 多维随机变量

多维随机变量及其分布

当需要同时描述多个随机变量时，引入联合分布。二维情形下，联合分布函数定义为：

F(x, y) = P(X \leq x, Y \leq y)

n维情形： $F(x_1, \ldots, x_n) = P(X_1 \leq x_1, \ldots, X_n \leq x_n)$ 。

边缘分布

从联合分布中"消除"部分变量得到边缘分布：

离散型： $P(X = x_i) = \sum_j p_{ij}$ （对 $$j$$ 求和）
连续型： $f_X(x) = \int_{-\infty}^{+\infty} f(x, y)\,dy$ （对 $$y$$ 积分）

条件分布

条件分布刻画在一个变量取某值的条件下，另一个变量的分布规律：

离散型： $P(X=x_i \mid Y=y_j) = \frac{p_{ij}}{p_{\cdot j}}$

连续型： $f_{X\mid Y}(x \mid y) = \frac{f(x, y)}{f_Y(y)}$

协方差与相关系数

协方差度量两个随机变量的联合变异性：

\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]

相关系数消除了量纲影响，是标准化后的协方差，取值在 $$[-1, 1]$$ 之间：

\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)}\sqrt{\text{Var}(Y)}}

注意：

\rho_{XY} = 0

仅说明两个变量不线性相关，不等于它们独立。例如

$(X, Y)$

服从圆域上的均匀分布时，

$X$

与

$Y$

不相关但不独立。

二维正态分布

二维正态分布 $N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$ 的边缘分布和条件分布仍是正态分布，这一优良性质使得正态分布在多元统计中具有核心地位。

第四章 · 数字特征

随机变量的数字特征

数学期望

数学期望是随机变量的加权平均：

离散型： $E[X] = \sum_i x_i p_i$
连续型： $E[X] = \int_{-\infty}^{+\infty} x f(x)\,dx$

期望的线性性质： $$E[aX + b] = aE[X] + b$$ ，且对相互独立的随机变量有 $$E[XY] = E[X]E[Y]$$ 。

方差与标准差

方差衡量随机变量围绕期望的离散程度：

\text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2

标准差为方差的算术平方根 $\sigma = \sqrt{\text{Var}(X)}$ ，与原随机变量同量纲。

$k$

阶矩

$$k$$ 阶原点矩 $\mu_k' = E[X^k]$ ； $$k$$ 阶中心矩 $\mu_k = E[(X - E[X])^k]$ 。一阶原点矩即期望，一阶中心矩恒为零，二阶中心矩即方差。

协方差与相关系数

相关系数 $\rho_{XY}$ 的性质： $|\rho_{XY}| = 1$ 当且仅当 $$Y = aX + b$$ （线性关系）； $|\rho_{XY}| = 0$ 时称 $$X, Y$$ 不相关。

第五章 · 极限定理

大数定律与中心极限定理

切比雪夫不等式

不依赖分布具体形式的不等式，给出了随机变量偏离期望的概率上界：

切比雪夫不等式

P(|X - \mu| \geq \epsilon) \leq \frac{\sigma^2}{\epsilon^2}

或等价地： $P(|X - \mu| < \epsilon) \geq 1 - \frac{\sigma^2}{\epsilon^2}$ 。

应用示例：某班数学考试均分 70 分，标准差 10 分，则 $P(50 \leq X \leq 90) \geq 1 - \frac{10^2}{20^2} = 0.75$ 。

大数定律

大数定律说明，随着样本量增大，样本均值趋于期望：

切比雪夫大数定律：若 $\{X_i\}$ 两两不相关、方差有界，则 $\frac{1}{n}\sum_{i=1}^n X_i$ 依概率收敛于 $\frac{1}{n}\sum_{i=1}^n \mu_i$
伯努利大数定律：若 $$n_A$$ 为 $$n$$ 次伯努利试验中成功次数，则 $\frac{n_A}{n} \xrightarrow{P} p$ （ $$p$$ 为单次成功概率）

中心极限定理

中心极限定理（CLT）是概率论中最深刻的定理之一：

林德伯格-莱维中心极限定理

设 $\{X_i\}$ i.i.d.， $E[X_i] = \mu$ ， $\text{Var}(X_i) = \sigma^2$ ，则

\frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}} \xrightarrow{d} N(0, 1)

即当 $$n$$ 充分大时，左端近似服从标准正态分布，与 $$X_i$$ 的具体分布无关。

CLT 的直观含义：大量微小独立随机因素叠加后，整体呈现正态分布。这也是正态分布在自然界中普遍存在的根本原因。

第六章 · 统计推断

统计量与参数估计

统计量与三大分布

设 $X_1, \ldots, X_n$ 为来自总体 $$X$$ 的样本，统计量是样本的函数，不含任何未知参数。三个最重要的抽样分布：

分布	记号	定义	自由度
卡方分布	$\chi^2(n)$	$Z_1^2 + \cdots + Z_n^2$ ， $Z_i \sim N(0,1)$ i.i.d.	$$n$$ 个标准正态的平方和
$$t$$ 分布	$$t(n)$$	$\frac{Z}{\sqrt{U/n}}$ ， $Z\sim N(0,1)$ ， $U\sim\chi^2(n)$	$$n$$ （分母卡方自由度）
$$F$$ 分布	$$F(m, n)$$	$\frac{U/m}{V/n}$ ， $U\sim\chi^2(m)$ ， $V\sim\chi^2(n)$	分子 $$m$$ ，分母 $$n$$

点估计

矩估计用样本矩替换总体矩，简单直观。例如用 $\bar{X} = \frac{1}{n}\sum X_i$ 估计 $$E[X]$$ 。

极大似然估计（MLE）寻找使样本出现概率最大的参数值。似然函数定义为样本的联合密度/质量函数 $L(\theta) = \prod_{i=1}^n f(X_i; \theta)$ ，求其最大值点 $\hat{\theta} = \arg\max_\theta L(theta)$ 。通常通过对数似然求导得到。

MLE 的直观理解

一个箱子中有白球和黑球，其中一种有 1 个，另一种有 99 个。连续两次摸到白球后，我们认为白球有 99 个的概率更大——这正是 MLE 的直觉：寻找使观测结果出现概率最大的假设。

MLE 具有一致性、渐近有效性和渐近正态性，是最常用的参数估计方法。

区间估计

点估计给出单一数值，区间估计给出一个置信区间——在重复抽样意义下，包含未知参数真值的概率为 $1-\alpha$ 。例如，总体方差已知时，总体均值的 $95\%$ 置信区间为：

\left[\bar{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}},\quad \bar{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\right]

假设检验与

$p$

值

假设检验的基本框架：提出原假设 $$H_0$$ 和备择假设 $$H_1$$ ，构造检验统计量，根据其观测值计算 $$p$$ 值——即在 $$H_0$$ 成立时，观测到当前或更极端结果的概率。

$p < \alpha$ ：拒绝 $$H_0$$ （证据充分）
$p \geq \alpha$ ：不拒绝 $$H_0$$ （证据不足，不能说"接受" $$H_0$$ ）

常见误解：

$p$

值不是"

$H_0$

为真的概率"，而是"在

$H_0$

成立时，数据至少与观测值一样极端的概率"。这一区别在多重检验中尤为重要。

概率论笔记

古典概型

全概率公式

贝叶斯定理

切比雪夫不等式

林德伯格-莱维中心极限定理

MLE 的直观理解

参考来源