抽样理论与极限定理
第 6 章和第 7 章共同构成概率论通向统计推断的关键过渡。
第 6 章回答“给定总体分布,从样本中能构造出什么样的统计量,这些统计量服从什么分布”——这是抽样理论的核心。它从 IID 随机样本出发,推导出样本均值、样本方差的精确分布,进而引出三大抽样分布(χ²、t、F),为后续的参数估计和假设检验提供分布基础。
第 7 章回答“当样本量趋于无穷时,统计量的行为如何”——这是极限理论的核心。它引入四种收敛概念(L² 收敛、依概率收敛、几乎处处收敛、依分布收敛),建立大数定律(保证估计量的一致性)和中心极限定理(给出渐近正态性),并附带 Slutsky 定理和 Delta 方法等实用工具。
二者合在一起构成统计推断的方法论骨架:抽样分布给出有限样本下的精确推断,极限定理给出大样本下的渐近推断。
- 总体:研究对象的全体,其分布函数记为 $F_X(x)$。在参数建模中,通常假设 $f_X(x)=f(x,\theta)$,其中 $\theta$ 未知。
- 随机样本(定义 6.1):$n$ 个随机变量 $X_1,\dots,X_n$ 构成的序列 $\mathbf X_n$。一个实现值 $\mathbf x_n=(x_1,\dots,x_n)$ 称为数据集或样本点。
- IID 随机样本(定义 6.2):若 $X_1,\dots,X_n$ 相互独立且同分布,则称为来自总体 $F_X$ 的 IID 随机样本。“同分布”保证试验的同类可重复性,“独立”保证每次试验提供新信息。
- 统计量(定义 6.3):$T(\mathbf X_n)=T(X_1,\dots,X_n)$,是随机样本的函数,不含未知参数。统计量本身是随机变量,给定数据后可计算具体值。
| 统计量 | 定义 | 用途 |
|---|---|---|
| 样本均值 $\bar X_n$ | $\frac{1}{n}\sum_{i=1}^n X_i$ | 估计总体均值 $\mu$ |
| 样本方差 $S_n^2$ | $\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X_n)^2$ | 估计总体方差 $\sigma^2$ |
| 对数似然函数 $\hat L(\theta\mid\mathbf X_n)$ | $\sum_{i=1}^n \ln f(X_i,\theta)$ | 极大似然估计的基础(不是统计量,因为含未知参数 $\theta$) |
定理 6.2:若 $\mathbf X_n$ 是 IID 随机样本,$E(X_i)=\mu$,$\mathrm{Var}(X_i)=\sigma^2$,则
定理 6.3:若 $\mathbf X_n$ 为 IID $N(\mu,\sigma^2)$,则
4.1 χ² 分布
定义 6.4:若 $Z_1,\dots,Z_\nu$ 独立同分布于 $N(0,1)$,则
自由度为 $\nu$。
性质:
- $E(\chi^2_\nu)=\nu$,$\mathrm{Var}(\chi^2_\nu)=2\nu$;
- 可加性:若 $V_1\sim\chi^2_{\nu_1}$ 与 $V_2\sim\chi^2_{\nu_2}$ 独立,则 $V_1+V_2\sim\chi^2_{\nu_1+\nu_2}$;
- MGF:$M_V(t)=(1-2t)^{-\nu/2}$,$t<1/2$;
- 当 $\nu\to\infty$ 时,$\chi^2_\nu$ 近似 $N(\nu,2\nu)$。
定理 6.5:若 $\mathbf X_n$ 为 IID $N(\mu,\sigma^2)$,则
定理 6.7:在正态总体下,$\bar X_n$ 与 $S_n^2$ 相互独立。这是后续构造 t 统计量的关键。
4.2 学生 t 分布
定义 6.6:若 $U\sim N(0,1)$,$V\sim\chi^2_\nu$,且 $U$ 与 $V$ 独立,则
性质:
- 关于 0 对称;
- 尾部比 $N(0,1)$ 更厚,因此极端值出现概率更大;
- 当 $\nu>2$ 时,均值为 0,方差为 $\nu/(\nu-2)$;
- $\nu=1$ 时退化为柯西分布;
- $\nu\to\infty$ 时,$t_\nu\to N(0,1)$。
定理 6.9:若 $\mathbf X_n$ 为 IID $N(\mu,\sigma^2)$,则
应用:
- 置信区间:$\mu$ 的 $(1-\alpha)\times100\%$ 置信区间为 $\bar X_n\pm \frac{S_n}{\sqrt n}C_{t_{n-1},\alpha/2}$;
- t 检验:检验 $H_0:\mu=\mu_0$,当 $\left|\frac{\bar X_n-\mu_0}{S_n/\sqrt n}\right|>C_{t_{n-1},\alpha/2}$ 时拒绝 $H_0$。
第一类错误(弃真)概率由显著性水平 $\alpha$ 控制;第二类错误(存伪)与检验功效互补。有限样本下,二者通常此消彼长。
4.3 F 分布
定义 6.7:若 $V_1\sim\chi^2_{\nu_1}$,$V_2\sim\chi^2_{\nu_2}$ 且相互独立,则
性质:
- $E(F_{\nu_1,\nu_2})=\frac{\nu_2}{\nu_2-2}$(当 $\nu_2>2$);
- 若 $T\sim t_\nu$,则 $T^2\sim F_{1,\nu}$;
- 当 $\nu_2\to\infty$ 时,$\nu_1F_{\nu_1,\nu_2}\xrightarrow{d}\chi^2_{\nu_1}$。
定义 6.8(因子分解定理 / Neyman-Fisher):$T(\mathbf X_n)$ 是 $\theta$ 的充分统计量,当且仅当联合 PMF / PDF 可分解为
意义:充分统计量包含了样本中关于 $\theta$ 的全部信息。知道 $T$ 之后,原始数据不再额外提供关于参数的有效信息。
重要结论:正态总体下,$(\bar X_n,S_n^2)$ 是 $(\mu,\sigma^2)$ 的充分统计量,这也解释了为什么经典统计推断总围绕这两个量展开。
指数分布族:形如
的大类分布都属于指数分布族。常见的正态、泊松、二项、指数分布都在其中,因此它们的充分统计量往往有很简洁的表达。
层级结构
注意:几乎处处收敛与 $L^2$ 收敛互不推出,它们刻画的是不同维度上的收敛。
依分布收敛像“两张照片越来越像”;依概率收敛像“随机点大概率越来越靠近目标”;几乎处处收敛像“几乎每条样本路径最终都贴近目标”;$L^2$ 收敛像“平均平方误差趋于零”。
定义:对任意 $\epsilon>0$,若
则记作 $Z_n\xrightarrow{p}Z$。
引理 7.5(连续映射定理):若 $g$ 连续且 $Z_n\xrightarrow{p}Z$,则
弱大数定律(Khinchin)
定理 7.1:设 $\mathbf X_n$ 为 IID 随机样本,$E(X_i)=\mu$,$\mathrm{Var}(X_i)=\sigma^2<\infty$,则
证明思路:由 Chebyshev 不等式,
强大数定律(Kolmogorov SLLN)
定理 7.2:在 IID 条件下,若 $E|X_i|<\infty$,则
它比弱大数定律更强,因为它说明几乎每条样本路径都真的会收敛到 $\mu$,而不仅仅是偏离的概率趋于零。
概念辨析:强大数律与弱大数律的关键差别
题目:强大数律(SLLN)与弱大数律(WLLN)的关键差别在于:
- A. 随机变量是否独立
- B. 样本容量
- C. 收敛方式
- D. 矩条件
答案:C
两者的根本区别在于所使用的收敛方式不同:
- 弱大数定律(WLLN):证明的是依概率收敛,即 $\bar X_n \xrightarrow{p} \mu$,意味着对任意 $\epsilon>0$,有 $P(|\bar X_n - \mu| > \epsilon) \to 0$
- 强大数定律(SLLN):证明的是几乎必然收敛,即 $\bar X_n \xrightarrow{a.s.} \mu$,意味着 $P(\lim_{n\to\infty} \bar X_n = \mu) = 1$
定义 7.9:若在 $F(z)$ 的每个连续点处,
则 $Z_n\xrightarrow{d}Z$。
关键性质:
- 依分布收敛只涉及 CDF 的趋近,不要求 $Z_n$ 与 $Z$ 定义在同一概率空间;
- $Z_n\xrightarrow{p}c$ 等价于 $Z_n\xrightarrow{d}c$(当极限是常数时);
- 依概率收敛可推出依分布收敛,反过来一般不成立。
Cramér-Wold 定理说明:多元依分布收敛可归结为任意线性组合的一元依分布收敛,这是多元极限定理中的核心工具。
Lindeberg-Levy CLT(独立同分布)
定理 7.6:设 $\mathbf X_n$ 为 IID 随机样本,$E(X_i)=\mu$,$0<\mathrm{Var}(X_i)=\sigma^2<\infty$,则
等价地,
先看一个最干净的例子:设 $X_i\sim N(0,1)$。这时虽然中心极限定理给出的结论本来就是精确成立的,但它非常适合用来建立直觉:
- 单个样本 $X_i$ 的分布是固定的标准正态;
- 样本均值 $\bar X_n$ 的分布是 $N(0,1/n)$;
- 随着 $n$ 增大,$\bar X_n$ 会越来越集中到 0 附近;
- 而标准化后的 $\sqrt n\,\bar X_n$ 仍然服从 $N(0,1)$。
下面这张图只负责展示“收缩”这件事本身:蓝线是单个样本的密度,橙线是样本均值的密度。滑块放在图底部单独的控制带里,避免遮挡主图内容;公式和推论都写在图外正文里,不依赖图内 LaTeX。
由 CLT 立刻得到的几个常用推论
把中心极限定理写成标准化形式:
于是可立刻得到:
- 左尾概率:$$P\left(\bar X_n\le \mu+\frac{\sigma a}{\sqrt n}\right)\approx \Phi(a).$$
- 右尾概率:$$P\left(\bar X_n>\mu+\frac{\sigma a}{\sqrt n}\right)\approx 1-\Phi(a).$$
- 对称性:标准正态关于 0 对称,所以$$\Phi(a)=1-\Phi(-a).$$
- 双侧区间概率:$$P\left(\left|\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\right|\le a\right)\approx 2\Phi(a)-1.$$
- 样本均值的近似分布:$$\bar X_n\approx N\left(\mu,\frac{\sigma^2}{n}\right).$$
- 样本和的近似分布:若 $S_n=\sum_{i=1}^n X_i$,则$$S_n\approx N(n\mu,n\sigma^2).$$
证明核心:利用特征函数展开,标准化样本均值的特征函数满足
而 $e^{-t^2/2}$ 正是 $N(0,1)$ 的特征函数。
设 $X_1,\dots,X_{2500}$ 独立同分布,表示 2500 个零件的重量,每个零件满足
记总重量为
求总重量大于 $1240\text{ kg}$ 的概率,即 $P(X>1240)$。
解题思路
当 $n=2500$ 很大时,由中心极限定理,随机和 $X=\sum_{i=1}^{2500}X_i$ 近似服从正态分布。先求它的均值和标准差:
因此可近似写成
于是
由标准正态分布函数的对称性,
查表得 $\Phi(2)=0.9772$,所以
Lindeberg-Feller / Liapounov 型 CLT
当 $X_1,\dots,X_n$ 独立但不完全同分布时,只要满足适当的矩条件,标准化和仍然会依分布收敛到正态。这为含异质性的经济数据提供了理论支撑。
CLT 的反例:柯西分布
若 $X_i\sim \mathrm{Cauchy}(0,1)$,则对所有 $n$ 都有 $\bar X_n\sim \mathrm{Cauchy}(0,1)$。因为它连方差都不存在,CLT 的前提被破坏,自然也就谈不上渐近正态。
定理 7.8:若 $X_n\xrightarrow{d}X$ 且 $C_n\xrightarrow{p}c$(常数),则
- $X_n+C_n\xrightarrow{d}X+c$;
- $X_nC_n\xrightarrow{d}cX$;
- 若 $c\neq0$,则 $X_n/C_n\xrightarrow{d}X/c$。
典型应用:已知
则立刻得到
引理 7.11:若
且 $g$ 连续可导、$g'(\mu)\neq0$,则
方法一(协方差法):令 $U_1=\bar X_n-\mu$,$V_r=X_r-\bar X_n$。先证明 $\mathrm{Cov}(U_1,V_r)=0$,再利用联合正态“零协方差推出独立”的性质完成证明。
方法二(矩阵法):令
则
再利用 $\mathbf l'\mathbf M=\mathbf 0$ 与正态向量的线性变换性质得到独立性。
把 t 统计量写成
其中分子服从 $N(0,1)$,分母中的 $(n-1)S_n^2/\sigma^2\sim\chi^2_{n-1}$,并且二者独立,因此完全符合 t 分布的定义。
问题:在 IID 正态样本、$\sigma^2$ 未知的情形下,检验 $H_0:\mu=\mu_0$。
- 构造统计量:$T(\mathbf X_n)=\frac{\bar X_n-\mu_0}{S_n/\sqrt n}$;
- 在 $H_0$ 下:$T(\mathbf X_n)\sim t_{n-1}$;
- 双侧检验拒绝域:$|T(\mathbf X_n)|>C_{t_{n-1},\alpha/2}$;
- 等价地,也可以用 P 值规则决定是否拒绝原假设。
设 $X_i\sim \mathrm{IID}\ U[0,\theta]$,令 $Z_n=\max(X_1,\dots,X_n)$。对 $u\ge0$,
因此
这说明极限分布未必一定是正态,关键要看统计量本身的结构。
若 $Z_n\sim B(n,p)$,则由 CLT 有
因此当 $n$ 足够大且 $p$ 不过分接近 0 或 1 时,可以用正态分布来近似二项分布的概率计算。
| 概念 | 定义 / 公式 | 核心要点 |
|---|---|---|
| IID 随机样本 | 独立 + 同分布 | 统计推断的基础假设 |
| 统计量 | 样本的函数,不含未知参数 | 可计算、有分布 |
| $\bar X_n$ 的分布 | $N(\mu,\sigma^2/n)$(正态总体) | 方差随 $n$ 衰减 |
| $S_n^2$ 的分布 | $(n-1)S_n^2/\sigma^2\sim\chi^2_{n-1}$ | 自由度为 $n-1$ |
| $\bar X_n\perp S_n^2$ | 正态总体下独立 | t 检验的理论基础 |
| $\chi^2_\nu$ | $\sum Z_i^2$,$Z_i\sim N(0,1)$ | 可加,MGF 为 $(1-2t)^{-\nu/2}$ |
| $t_\nu$ | $N(0,1)/\sqrt{\chi^2_\nu/\nu}$ | 厚尾,$\nu\to\infty$ 时趋于正态 |
| $F_{\nu_1,\nu_2}$ | $(\chi^2_{\nu_1}/\nu_1)/(\chi^2_{\nu_2}/\nu_2)$ | 常用于方差比检验 |
| $t_\nu^2=F_{1,\nu}$ | t 与 F 的关系 | 平方后可转成 F 分布 |
| 依概率收敛 | $P(|Z_n-Z|>\epsilon)\to0$ | $p\!\lim$ 可穿透连续函数 |
| 几乎处处收敛 | $P(\lim Z_n=Z)=1$ | 比依概率收敛更强 |
| 依分布收敛 | $F_n(z)\to F(z)$(连续点上) | 只涉及 CDF |
| WLLN | $\bar X_n\xrightarrow{p}\mu$ | Chebyshev 不等式证明 |
| SLLN | $\bar X_n\xrightarrow{a.s.}\mu$ | 比 WLLN 更强 |
| CLT | $\sqrt n(\bar X_n-\mu)/\sigma\xrightarrow{d}N(0,1)$ | 需要有限方差 |
| Slutsky 定理 | 依分布 × 依概率的运算规则 | 四则运算保持渐近收敛 |
| Delta 方法 | $g(\bar X_n)$ 的渐近分布 | 本质是一阶 Taylor 展开 |
1. 资产收益率建模:单日收益率可能明显偏离正态,但长期平均收益率在 CLT 支持下常可近似为正态,这为风险管理和资产定价提供了基础。
2. 参数估计的一致性:WLLN / SLLN 保证 $\bar X_n\to\mu$、$S_n^2\to\sigma^2$,也是 OLS、MLE 等估计量一致性的底层逻辑。
3. 假设检验的渐近理论:当精确有限样本分布难以获得时,可以依靠 CLT 与 Slutsky 定理构造渐近检验统计量。
4. 非参数推断:一致大数定律是经验风险最小化、核估计等非参数方法的重要理论支柱。
5. 统计显著与经济显著:样本非常大时,再微弱的偏差也可能变得“统计显著”,但这不等于它真的有足够强的经济意义。
本笔记基于洪永淼教授课件整理,并结合统计学常见直觉解释补充而成,供复习参考。
参考来源
- 洪永淼《概率论与统计学》第 6 章课件(统计抽样理论导论)
- 洪永淼《概率论与统计学》第 7 章课件(收敛和极限定理)