第6-7章：统计抽样理论与极限定理

2026/05/24 00:32:26·2026/05/26 21:13:30

概述

概述：从概率论到统计推断的桥梁

第 6 章和第 7 章共同构成概率论通向统计推断的关键过渡。

第 6 章回答“给定总体分布，从样本中能构造出什么样的统计量，这些统计量服从什么分布”——这是抽样理论的核心。它从 IID 随机样本出发，推导出样本均值、样本方差的精确分布，进而引出三大抽样分布（χ²、t、F），为后续的参数估计和假设检验提供分布基础。

第 7 章回答“当样本量趋于无穷时，统计量的行为如何”——这是极限理论的核心。它引入四种收敛概念（L² 收敛、依概率收敛、几乎处处收敛、依分布收敛），建立大数定律（保证估计量的一致性）和中心极限定理（给出渐近正态性），并附带 Slutsky 定理和 Delta 方法等实用工具。

二者合在一起构成统计推断的方法论骨架：抽样分布给出有限样本下的精确推断，极限定理给出大样本下的渐近推断。

第6章核心概念

1. 总体、样本与统计量

总体：研究对象的全体，其分布函数记为 $$F_X(x)$$ 。在参数建模中，通常假设 $f_X(x)=f(x,\theta)$ ，其中 $\theta$ 未知。
随机样本（定义 6.1）： $$n$$ 个随机变量 $X_1,\dots,X_n$ 构成的序列 $\mathbf X_n$ 。一个实现值 $\mathbf x_n=(x_1,\dots,x_n)$ 称为数据集或样本点。
IID 随机样本（定义 6.2）：若 $X_1,\dots,X_n$ 相互独立且同分布，则称为来自总体 $$F_X$$ 的 IID 随机样本。“同分布”保证试验的同类可重复性，“独立”保证每次试验提供新信息。
统计量（定义 6.3）： $T(\mathbf X_n)=T(X_1,\dots,X_n)$ ，是随机样本的函数，不含未知参数。统计量本身是随机变量，给定数据后可计算具体值。

直觉理解：总体是“看不见的全貌”，样本是“窥探全貌的窗口”，统计量是“从窗口中提炼出的关键数字指标”。

PDF统计量与抽样分布p.3

正在渲染 PDF 第 3 页…

统计量与抽样分布（PDF 第 3 页） · 打开原文

2. 经典统计量

统计量	定义	用途
样本均值 $\bar X_n$	$\frac{1}{n}\sum_{i=1}^n X_i$	估计总体均值 $\mu$
样本方差 $$S_n^2$$	$\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X_n)^2$	估计总体方差 $\sigma^2$
对数似然函数 $\hat L(\theta\mid\mathbf X_n)$	$\sum_{i=1}^n \ln f(X_i,\theta)$	极大似然估计的基础（不是统计量，因为含未知参数 $\theta$ ）

3. 样本均值的抽样分布

定理 6.2：若 $\mathbf X_n$ 是 IID 随机样本， $E(X_i)=\mu$ ， $\mathrm{Var}(X_i)=\sigma^2$ ，则

E(\bar X_n)=\mu,\qquad \mathrm{Var}(\bar X_n)=\frac{\sigma^2}{n}.

定理 6.3：若 $\mathbf X_n$ 为 IID $N(\mu,\sigma^2)$ ，则

\bar X_n\sim N\left(\mu,\frac{\sigma^2}{n}\right),\qquad \frac{\bar X_n-\mu}{\sigma/\sqrt n}\sim N(0,1).

关键洞见：即使总体并非正态，样本均值的方差也以

$O(1/n)$

的速度衰减。样本越大，均值越集中。第 7 章的中心极限定理会进一步说明：在大样本下，样本均值还会近似服从正态分布。

4. 三大抽样分布

4.1 χ² 分布

定义 6.4：若 $Z_1,\dots,Z_\nu$ 独立同分布于 $$N(0,1)$$ ，则

V=\sum_{i=1}^\nu Z_i^2\sim \chi^2_\nu,

自由度为 $\nu$ 。

性质：

$E(\chi^2_\nu)=\nu$ ， $\mathrm{Var}(\chi^2_\nu)=2\nu$ ；
可加性：若 $V_1\sim\chi^2_{\nu_1}$ 与 $V_2\sim\chi^2_{\nu_2}$ 独立，则 $V_1+V_2\sim\chi^2_{\nu_1+\nu_2}$ ；
MGF： $M_V(t)=(1-2t)^{-\nu/2}$ ， $$t<1/2$$ ；
当 $\nu\to\infty$ 时， $\chi^2_\nu$ 近似 $N(\nu,2\nu)$ 。

定理 6.5：若 $\mathbf X_n$ 为 IID $N(\mu,\sigma^2)$ ，则

\frac{(n-1)S_n^2}{\sigma^2}\sim\chi^2_{n-1}.

自由度为何是 $$n-1$$ ？ 因为

$S_n^2$

中用

\bar X_n

代替了

\mu

，丢失了一个自由度。直观地说：

$n$

个数一旦均值被固定，就只剩下

$n-1$

个能自由变动。

定理 6.7：在正态总体下， $\bar X_n$ 与 $$S_n^2$$ 相互独立。这是后续构造 t 统计量的关键。

4.2 学生 t 分布

定义 6.6：若 $U\sim N(0,1)$ ， $V\sim\chi^2_\nu$ ，且 $$U$$ 与 $$V$$ 独立，则

T=\frac{U}{\sqrt{V/\nu}}\sim t_\nu.

性质：

关于 0 对称；
尾部比 $$N(0,1)$$ 更厚，因此极端值出现概率更大；
当 $\nu>2$ 时，均值为 0，方差为 $\nu/(\nu-2)$ ；
$\nu=1$ 时退化为柯西分布；
$\nu\to\infty$ 时， $t_\nu\to N(0,1)$ 。

定理 6.9：若 $\mathbf X_n$ 为 IID $N(\mu,\sigma^2)$ ，则

\frac{\bar X_n-\mu}{S_n/\sqrt n}\sim t_{n-1}.

直观理解：当

\sigma

未知时，只能用

$S_n$

去替代

\sigma

。这会让分母也带上随机性，于是标准正态分布被“膨胀”为厚尾的 t 分布。样本越少，自由度越低，膨胀越明显。

应用：

置信区间： $\mu$ 的 $(1-\alpha)\times100\%$ 置信区间为 $\bar X_n\pm \frac{S_n}{\sqrt n}C_{t_{n-1},\alpha/2}$ ；
t 检验：检验 $H_0:\mu=\mu_0$ ，当 $\left|\frac{\bar X_n-\mu_0}{S_n/\sqrt n}\right|>C_{t_{n-1},\alpha/2}$ 时拒绝 $$H_0$$ 。

第一类错误（弃真）概率由显著性水平 $\alpha$ 控制；第二类错误（存伪）与检验功效互补。有限样本下，二者通常此消彼长。

4.3 F 分布

定义 6.7：若 $V_1\sim\chi^2_{\nu_1}$ ， $V_2\sim\chi^2_{\nu_2}$ 且相互独立，则

F=\frac{V_1/\nu_1}{V_2/\nu_2}\sim F_{\nu_1,\nu_2}.

性质：

$E(F_{\nu_1,\nu_2})=\frac{\nu_2}{\nu_2-2}$ （当 $\nu_2>2$ ）；
若 $T\sim t_\nu$ ，则 $T^2\sim F_{1,\nu}$ ；
当 $\nu_2\to\infty$ 时， $\nu_1F_{\nu_1,\nu_2}\xrightarrow{d}\chi^2_{\nu_1}$ 。

三大分布的关系图谱

N(0,1)\xrightarrow{\text{平方求和}}\chi^2_\nu\xrightarrow{\text{比值}}F_{\nu_1,\nu_2}.

\frac{N(0,1)}{\sqrt{\chi^2_\nu/\nu}}=t_\nu,\qquad t_\nu^2=F_{1,\nu}.

PDF三大抽样分布p.30

正在渲染 PDF 第 30 页…

三大抽样分布（PDF 第 30 页） · 打开原文

5. 充分统计量

定义 6.8（因子分解定理 / Neyman-Fisher）： $T(\mathbf X_n)$ 是 $\theta$ 的充分统计量，当且仅当联合 PMF / PDF 可分解为

f_{\mathbf X_n}(\mathbf x_n,\theta)=g(T(\mathbf x_n),\theta)\cdot h(\mathbf x_n).

意义：充分统计量包含了样本中关于 $\theta$ 的全部信息。知道 $$T$$ 之后，原始数据不再额外提供关于参数的有效信息。

重要结论：正态总体下， $(\bar X_n,S_n^2)$ 是 $(\mu,\sigma^2)$ 的充分统计量，这也解释了为什么经典统计推断总围绕这两个量展开。

指数分布族：形如

f(x,\theta)=h(x)c(\theta)e^{\sum_j w_j(\theta)t_j(x)}

的大类分布都属于指数分布族。常见的正态、泊松、二项、指数分布都在其中，因此它们的充分统计量往往有很简洁的表达。

PDF充分统计量p.60

正在渲染 PDF 第 60 页…

充分统计量（PDF 第 60 页） · 打开原文

第7章核心概念

1. 四种收敛概念的层级关系

层级结构

\text{几乎处处收敛 (a.s.)}\ \Longrightarrow\ \text{依概率收敛 (p)}\ \Longrightarrow\ \text{依分布收敛 (d)}.

L^2\text{ 收敛 (q.m.)}\ \Longrightarrow\ \text{依概率收敛 (p)}.

注意：几乎处处收敛与 $$L^2$$ 收敛互不推出，它们刻画的是不同维度上的收敛。

类比理解
依分布收敛像“两张照片越来越像”；依概率收敛像“随机点大概率越来越靠近目标”；几乎处处收敛像“几乎每条样本路径最终都贴近目标”；

$L^2$

收敛像“平均平方误差趋于零”。

PDF收敛概念p.3

正在渲染 PDF 第 3 页…

收敛概念（PDF 第 3 页） · 打开原文

2. 依概率收敛与连续映射定理

定义：对任意 $\epsilon>0$ ，若

\lim_{n\to\infty}P(|Z_n-Z|>\epsilon)=0,

则记作 $Z_n\xrightarrow{p}Z$ 。

引理 7.5（连续映射定理）：若 $$g$$ 连续且 $Z_n\xrightarrow{p}Z$ ，则

g(Z_n)\xrightarrow{p}g(Z).

意义：概率极限算子

p\!\lim

可以穿透连续函数，这和微积分中的“极限可穿过连续函数”很像。但期望算子

E(\cdot)

一般并不具备这种直接穿透性。

3. 大数定律

弱大数定律（Khinchin）

定理 7.1：设 $\mathbf X_n$ 为 IID 随机样本， $E(X_i)=\mu$ ， $\mathrm{Var}(X_i)=\sigma^2<\infty$ ，则

\bar X_n\xrightarrow{p}\mu.

证明思路：由 Chebyshev 不等式，

P(|\bar X_n-\mu|>\epsilon)\le \frac{\sigma^2}{n\epsilon^2}\to0.

直观理解：就像反复掷骰子，样本次数越多，平均值越贴近 3.5。大数定律说的不是“每次都准”，而是“平均以后会越来越稳”。

强大数定律（Kolmogorov SLLN）

定理 7.2：在 IID 条件下，若 $E|X_i|<\infty$ ，则

\bar X_n\xrightarrow{a.s.}\mu.

它比弱大数定律更强，因为它说明几乎每条样本路径都真的会收敛到 $\mu$ ，而不仅仅是偏离的概率趋于零。

PDF大数定律p.30

正在渲染 PDF 第 30 页…

大数定律（PDF 第 30 页） · 打开原文

概念辨析：强大数律与弱大数律的关键差别

题目：强大数律（SLLN）与弱大数律（WLLN）的关键差别在于：

A. 随机变量是否独立
B. 样本容量
C. 收敛方式
D. 矩条件

答案：C

两者的根本区别在于所使用的收敛方式不同：

弱大数定律（WLLN）：证明的是依概率收敛，即 $\bar X_n \xrightarrow{p} \mu$ ，意味着对任意 $\epsilon>0$ ，有 $P(|\bar X_n - \mu| > \epsilon) \to 0$
强大数定律（SLLN）：证明的是几乎必然收敛，即 $\bar X_n \xrightarrow{a.s.} \mu$ ，意味着 $P(\lim_{n\to\infty} \bar X_n = \mu) = 1$

关键区别：依概率收敛只要求“偏离的概率趋于零”，但无法保证某条具体的样本路径一定收敛；几乎必然收敛则要求“几乎每一条样本路径最终都贴近期望值”——这是更强的承诺。从收敛层级来看，几乎处处收敛

\Longrightarrow

依概率收敛，反之不成立。

4. 依分布收敛

定义 7.9：若在 $$F(z)$$ 的每个连续点处，

\lim_{n\to\infty}F_n(z)=F(z),

则 $Z_n\xrightarrow{d}Z$ 。

关键性质：

依分布收敛只涉及 CDF 的趋近，不要求 $$Z_n$$ 与 $$Z$$ 定义在同一概率空间；
$Z_n\xrightarrow{p}c$ 等价于 $Z_n\xrightarrow{d}c$ （当极限是常数时）；
依概率收敛可推出依分布收敛，反过来一般不成立。

Cramér-Wold 定理说明：多元依分布收敛可归结为任意线性组合的一元依分布收敛，这是多元极限定理中的核心工具。

5. 中心极限定理（CLT）

Lindeberg-Levy CLT（独立同分布）

定理 7.6：设 $\mathbf X_n$ 为 IID 随机样本， $E(X_i)=\mu$ ， $0<\mathrm{Var}(X_i)=\sigma^2<\infty$ ，则

\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\xrightarrow{d}N(0,1).

等价地，

\sqrt n(\bar X_n-\mu)\xrightarrow{d}N(0,\sigma^2).

直观理解：无论总体分布是偏态、双峰还是均匀，只要方差有限，样本均值标准化后都会趋向正态。这就是正态分布在统计推断里如此核心的原因：它是“平均”操作的极限形态。

JSXGraph 演示：以正态总体为例看样本均值如何收缩

先看一个最干净的例子：设 $X_i\sim N(0,1)$ 。这时虽然中心极限定理给出的结论本来就是精确成立的，但它非常适合用来建立直觉：

单个样本 $$X_i$$ 的分布是固定的标准正态；
样本均值 $\bar X_n$ 的分布是 $$N(0,1/n)$$ ；
随着 $$n$$ 增大， $\bar X_n$ 会越来越集中到 0 附近；
而标准化后的 $\sqrt n\,\bar X_n$ 仍然服从 $$N(0,1)$$ 。

下面这张图只负责展示“收缩”这件事本身：蓝线是单个样本的密度，橙线是样本均值的密度。滑块放在图底部单独的控制带里，避免遮挡主图内容；公式和推论都写在图外正文里，不依赖图内 LaTeX。

中心极限定理：正态总体下样本均值分布的收缩JSXGraph

中心极限定理：正态总体下样本均值分布的收缩

怎么读这张图？ 蓝线表示单个观测值的分布，宽而平；橙线表示样本均值的分布，随着

$n$

增大越来越窄、越来越高。这正是在说：平均会消除波动。而把

\bar X_n

再乘上

\sqrt n

做标准化后，它又回到稳定的标准正态尺度上，这就是 CLT 公式里那项

\sqrt n

的意义。

由 CLT 立刻得到的几个常用推论

把中心极限定理写成标准化形式：

P\left(\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\le a\right)\approx \Phi(a).

于是可立刻得到：

左尾概率： $P\left(\bar X_n\le \mu+\frac{\sigma a}{\sqrt n}\right)\approx \Phi(a).$
右尾概率： $P\left(\bar X_n>\mu+\frac{\sigma a}{\sqrt n}\right)\approx 1-\Phi(a).$
对称性：标准正态关于 0 对称，所以 $\Phi(a)=1-\Phi(-a).$
双侧区间概率： $P\left(\left|\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\right|\le a\right)\approx 2\Phi(a)-1.$
样本均值的近似分布： $\bar X_n\approx N\left(\mu,\frac{\sigma^2}{n}\right).$
样本和的近似分布：若 $S_n=\sum_{i=1}^n X_i$ ，则 $S_n\approx N(n\mu,n\sigma^2).$

为什么 $\Phi(a)=1-\Phi(-a)$ 特别重要？ 因为它让左尾查表和右尾查表统一起来了。很多概率计算最后都能化成：先标准化成

Z\sim N(0,1)

，再用对称性把难算的右尾写成左尾，或者把负区间改写成正区间。这也是你在查标准正态分布表时最常用的一条恒等式。

证明核心：利用特征函数展开，标准化样本均值的特征函数满足

\varphi_n(t)=\left[\varphi_Y\left(\frac{t}{\sqrt n}\right)\right]^n=\left[1-\frac{t^2}{2n}+o(n^{-1})\right]^n\to e^{-t^2/2},

而 $e^{-t^2/2}$ 正是 $$N(0,1)$$ 的特征函数。

补充例题：已知个体重量，求 2500 个零件总重量超过阈值的概率

设 $X_1,\dots,X_{2500}$ 独立同分布，表示 2500 个零件的重量，每个零件满足

E(X_i)=a=0.5\text{ kg},\qquad \sigma(X_i)=b=0.1\text{ kg}.

记总重量为

X=\sum_{i=1}^{2500}X_i.

求总重量大于 $1240\text{ kg}$ 的概率，即 $$P(X>1240)$$ 。

中心极限定理例题：由个体均值与方差近似求 2500 个零件总重量超过 1240kg 的概率

解题思路

当 $$n=2500$$ 很大时，由中心极限定理，随机和 $X=\sum_{i=1}^{2500}X_i$ 近似服从正态分布。先求它的均值和标准差：

\mu=E(X)=na=2500\times0.5=1250,

\sigma=\sqrt{\mathrm{Var}(X)}=\sqrt{n}\,b=\sqrt{2500}\times0.1=5.

因此可近似写成

X\approx N(1250,5^2).

于是

P(X>1240)=P\left(\frac{X-1250}{5}>\frac{1240-1250}{5}\right)=P(Z>-2).

由标准正态分布函数的对称性，

P(Z>-2)=1-\Phi(-2)=\Phi(2).

查表得 $\Phi(2)=0.9772$ ，所以

P(X>1240)\approx0.9772.

这个例子在说明什么？ 中心极限定理不仅能处理样本均值，也能处理大量独立个体的总和。只要知道单个个体的均值和标准差，就可以先汇总出整体的均值与波动，再用正态近似估计整批产品、总成本、总需求等“整体量”的概率。

Lindeberg-Feller / Liapounov 型 CLT

当 $X_1,\dots,X_n$ 独立但不完全同分布时，只要满足适当的矩条件，标准化和仍然会依分布收敛到正态。这为含异质性的经济数据提供了理论支撑。

CLT 的反例：柯西分布

若 $X_i\sim \mathrm{Cauchy}(0,1)$ ，则对所有 $$n$$ 都有 $\bar X_n\sim \mathrm{Cauchy}(0,1)$ 。因为它连方差都不存在，CLT 的前提被破坏，自然也就谈不上渐近正态。

PDF中心极限定理p.50

正在渲染 PDF 第 50 页…

中心极限定理（PDF 第 50 页） · 打开原文

6. Slutsky 定理

定理 7.8：若 $X_n\xrightarrow{d}X$ 且 $C_n\xrightarrow{p}c$ （常数），则

$X_n+C_n\xrightarrow{d}X+c$ ；
$X_nC_n\xrightarrow{d}cX$ ；
若 $c\neq0$ ，则 $X_n/C_n\xrightarrow{d}X/c$ 。

用途：很多渐近统计量都长成“一个渐近正态量 / 一个概率收敛到常数的量”。Slutsky 定理就是把这类组合重新变回可处理的极限分布。

典型应用：已知

\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\xrightarrow{d}N(0,1),\qquad S_n^2\xrightarrow{p}\sigma^2,

则立刻得到

\frac{\sqrt n(\bar X_n-\mu)}{S_n}\xrightarrow{d}N(0,1).

7. Delta 方法

引理 7.11：若

\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\xrightarrow{d}N(0,1),

且 $$g$$ 连续可导、 $g'(\mu)\neq0$ ，则

\sqrt n\left[g(\bar X_n)-g(\mu)\right]\xrightarrow{d}N\left(0,\sigma^2[g'(\mu)]^2\right).

直觉：Delta 方法本质上就是把 Taylor 一阶展开搬到渐近分布里。先把

g(\bar X_n)

在线性层面近似，再把原本的渐近正态性传递过去。

关键定理推导速览

定理 6.7 的证明思路：

\bar X_n

与

$S_n^2$

独立

方法一（协方差法）：令 $U_1=\bar X_n-\mu$ ， $V_r=X_r-\bar X_n$ 。先证明 $\mathrm{Cov}(U_1,V_r)=0$ ，再利用联合正态“零协方差推出独立”的性质完成证明。

方法二（矩阵法）：令

\mathbf M=\mathbf I-\frac{1}{n}\mathbf l\mathbf l',

则

(n-1)S_n^2=\mathbf X'\mathbf M\mathbf X,\qquad \bar X_n=\frac{1}{n}\mathbf l'\mathbf X.

再利用 $\mathbf l'\mathbf M=\mathbf 0$ 与正态向量的线性变换性质得到独立性。

定理 6.9 的证明：t 统计量分布

把 t 统计量写成

\frac{\bar X_n-\mu}{S_n/\sqrt n}=\frac{(\bar X_n-\mu)/(\sigma/\sqrt n)}{\sqrt{\left[(n-1)S_n^2/\sigma^2\right]/(n-1)}}.

其中分子服从 $$N(0,1)$$ ，分母中的 $(n-1)S_n^2/\sigma^2\sim\chi^2_{n-1}$ ，并且二者独立，因此完全符合 t 分布的定义。

关键例题

例 1：t 检验的完整流程

问题：在 IID 正态样本、 $\sigma^2$ 未知的情形下，检验 $H_0:\mu=\mu_0$ 。

构造统计量： $T(\mathbf X_n)=\frac{\bar X_n-\mu_0}{S_n/\sqrt n}$ ；
在 $$H_0$$ 下： $T(\mathbf X_n)\sim t_{n-1}$ ；
双侧检验拒绝域： $|T(\mathbf X_n)|>C_{t_{n-1},\alpha/2}$ ；
等价地，也可以用 P 值规则决定是否拒绝原假设。

例 2：均匀分布最大值的极限分布

设 $X_i\sim \mathrm{IID}\ U[0,\theta]$ ，令 $Z_n=\max(X_1,\dots,X_n)$ 。对 $u\ge0$ ，

P\bigl(n(\theta-Z_n)>u\bigr)=\left(1-\frac{u}{n\theta}\right)^n\to e^{-u/\theta}.

因此

n(\theta-Z_n)\xrightarrow{d}\mathrm{Exp}(\theta).

这说明极限分布未必一定是正态，关键要看统计量本身的结构。

例 3：二项分布的正态近似

若 $Z_n\sim B(n,p)$ ，则由 CLT 有

\frac{Z_n-np}{\sqrt{np(1-p)}}\xrightarrow{d}N(0,1).

因此当 $$n$$ 足够大且 $$p$$ 不过分接近 0 或 1 时，可以用正态分布来近似二项分布的概率计算。

复习速查表

概念	定义 / 公式	核心要点
IID 随机样本	独立 + 同分布	统计推断的基础假设
统计量	样本的函数，不含未知参数	可计算、有分布
$\bar X_n$ 的分布	$N(\mu,\sigma^2/n)$ （正态总体）	方差随 $$n$$ 衰减
$$S_n^2$$ 的分布	$(n-1)S_n^2/\sigma^2\sim\chi^2_{n-1}$	自由度为 $$n-1$$
$\bar X_n\perp S_n^2$	正态总体下独立	t 检验的理论基础
$\chi^2_\nu$	$\sum Z_i^2$ ， $Z_i\sim N(0,1)$	可加，MGF 为 $(1-2t)^{-\nu/2}$
$t_\nu$	$N(0,1)/\sqrt{\chi^2_\nu/\nu}$	厚尾， $\nu\to\infty$ 时趋于正态
$F_{\nu_1,\nu_2}$	$(\chi^2_{\nu_1}/\nu_1)/(\chi^2_{\nu_2}/\nu_2)$	常用于方差比检验
$t_\nu^2=F_{1,\nu}$	t 与 F 的关系	平方后可转成 F 分布
依概率收敛	$P(\|Z_n-Z\|>\epsilon)\to0$	$p\!\lim$ 可穿透连续函数
几乎处处收敛	$P(\lim Z_n=Z)=1$	比依概率收敛更强
依分布收敛	$F_n(z)\to F(z)$ （连续点上）	只涉及 CDF
WLLN	$\bar X_n\xrightarrow{p}\mu$	Chebyshev 不等式证明
SLLN	$\bar X_n\xrightarrow{a.s.}\mu$	比 WLLN 更强
CLT	$\sqrt n(\bar X_n-\mu)/\sigma\xrightarrow{d}N(0,1)$	需要有限方差
Slutsky 定理	依分布 × 依概率的运算规则	四则运算保持渐近收敛
Delta 方法	$g(\bar X_n)$ 的渐近分布	本质是一阶 Taylor 展开

极限定理在经济学中的应用

1. 资产收益率建模：单日收益率可能明显偏离正态，但长期平均收益率在 CLT 支持下常可近似为正态，这为风险管理和资产定价提供了基础。

2. 参数估计的一致性：WLLN / SLLN 保证 $\bar X_n\to\mu$ 、 $S_n^2\to\sigma^2$ ，也是 OLS、MLE 等估计量一致性的底层逻辑。

3. 假设检验的渐近理论：当精确有限样本分布难以获得时，可以依靠 CLT 与 Slutsky 定理构造渐近检验统计量。

4. 非参数推断：一致大数定律是经验风险最小化、核估计等非参数方法的重要理论支柱。

5. 统计显著与经济显著：样本非常大时，再微弱的偏差也可能变得“统计显著”，但这不等于它真的有足够强的经济意义。

本笔记基于洪永淼教授课件整理，并结合统计学常见直觉解释补充而成，供复习参考。

参考来源

洪永淼《概率论与统计学》第 6 章课件（统计抽样理论导论）
洪永淼《概率论与统计学》第 7 章课件（收敛和极限定理）