第8-9章：参数估计与假设检验

2026/05/24 00:32:26·2026/05/26 21:12:47

一、概述

一、概述：统计推断的两大核心方法

统计推断的核心任务是：利用来自总体分布 $$f_X(x)$$ 的随机样本 $\mathbf X_n=(X_1,\dots,X_n)$ 的观测数据 $\mathbf x_n$ ，对总体分布或其中的未知参数作出推断。

在参数方法中，通常假设一族候选分布

\mathbb F=\{f(\cdot,\theta):\theta\in\Theta\}.

若存在 $\theta_0\in\Theta$ 使得 $f_X(x)=f(x,\theta_0)$ 几乎处处成立，则称模型被正确设定；否则称为误设。

统计推断主要有两大支柱：

参数估计：用统计量 $\hat\theta(\mathbf X_n)$ 去估计未知参数 $\theta_0$ ；
假设检验：基于样本判断某个关于 $\theta_0$ 的假设是否应被拒绝。

第 8 章处理“怎么估”；第 9 章处理“怎么判”。前者关心估计量的偏差、方差与一致性，后者关心拒绝域、两类错误、功效与 p 值。

二、第8章

二、第8章：参数估计

2.1 点估计方法

2.1.1 极大似然估计（MLE）

核心思想：选择一个参数值，使得“当前这批数据最可能被观察到”。

似然函数：给定样本 $\mathbf x_n$ 后，把联合 PMF / PDF 视为 $\theta$ 的函数：

\hat L(\theta\mid \mathbf x_n)=f_{\mathbf X_n}(\mathbf x_n,\theta).

MLE 定义：

\hat\theta\equiv \hat\theta_n(\mathbf X_n)=\arg\max_{\theta\in\Theta}\hat L(\theta\mid \mathbf X_n).

关键区别： $\hat L(\theta\mid\mathbf x_n)$ 与 $f_{\mathbf X_n}(\mathbf x_n,\theta)$ 数值相同，但前者把参数视为变量，后者把样本视为变量，概念上并不相同。

若样本 IID，则

\hat L(\theta\mid \mathbf X_n)=\prod_{i=1}^n f(X_i,\theta),\qquad \ln \hat L(\theta\mid \mathbf X_n)=\sum_{i=1}^n \ln f(X_i,\theta).

MLE 存在性的一个常见充分条件：若 $\hat L(\theta\mid\mathbf X_n)$ 关于 $\theta$ 连续，且参数空间 $\Theta$ 是紧集，则 MLE 几乎必然存在。

不变性：若 $\hat\theta$ 是 $\theta_0$ 的 MLE，则对任意函数 $$g$$ ， $g(\hat\theta)$ 是 $g(\theta_0)$ 的 MLE。

分布	MLE
$N(\mu,\sigma^2)$	$\hat\mu=\bar X_n$ ， $\hat\sigma^2=n^{-1}\sum (X_i-\bar X_n)^2$
$\mathrm{Bernoulli}(\theta)$	$\hat\theta=\bar X_n$
$\mathrm{Exponential}(\lambda)$	$\hat\lambda=\bar X_n^{-1}$

补充例题 1：课件中的 MLE 推导

设总体密度函数为

f(x)=\theta x^{\theta-1},\qquad 0<x<1,\ \theta>0.

若 $X_1,\dots,X_n$ 是来自该总体的 IID 样本，则似然函数为

L(\theta)=\prod_{i=1}^n \theta X_i^{\theta-1}=\theta^n\left(\prod_{i=1}^n X_i\right)^{\theta-1}.

取对数得

\ln L(\theta)=n\ln\theta+(\theta-1)\ln\left(\prod_{i=1}^n X_i\right).

对 $\theta$ 求导并令其等于 0：

\frac{d\ln L(\theta)}{d\theta}=\frac{n}{\theta}+\ln\left(\prod_{i=1}^n X_i\right)=0.

解得

\hat\theta=-\frac{n}{\ln(X_1X_2\cdots X_n)}=-\frac{n}{\sum_{i=1}^n \ln X_i}.

这个例子很适合作为 MLE 的标准模板：先把联合密度乘起来，再取对数、求导、解方程，最后得到估计量。

最大似然估计课件例题推导 — 课件例题： $f(x)=\theta x^{\theta-1}$ 时参数 $\theta$ 的最大似然估计。

补充例题 2：Bernoulli 分布参数的最大似然估计

若 $X_1,\dots,X_n\sim \mathrm{iid\ Bernoulli}(\theta)$ ，其中 $P(X_i=1)=\theta$ ， $P(X_i=0)=1-\theta$ ，则单个样本的概率质量函数可写成

P(X_i=x_i)=\theta^{x_i}(1-\theta)^{1-x_i},\qquad x_i\in\{0,1\}.

于是似然函数为

L(\theta)=\prod_{i=1}^n \theta^{X_i}(1-\theta)^{1-X_i}=\theta^{\sum_{i=1}^n X_i}(1-\theta)^{n-\sum_{i=1}^n X_i}.

取对数得

\ln L(\theta)=\left(\sum_{i=1}^n X_i\right)\ln\theta+\left(n-\sum_{i=1}^n X_i\right)\ln(1-\theta).

对 $\theta$ 求导并令其等于 0：

\frac{d\ln L(\theta)}{d\theta}=\frac{\sum_{i=1}^n X_i}{\theta}-\frac{n-\sum_{i=1}^n X_i}{1-\theta}=0.

化简得到

\hat\theta=\frac{1}{n}\sum_{i=1}^n X_i=\bar X_n.

所以 Bernoulli 分布中“成功概率”的最大似然估计，就是样本中 1 出现的频率。

补充例题 3：Poisson 分布参数的最大似然估计

若 $X_1,\dots,X_n\sim \mathrm{iid\ Poisson}(\lambda)$ ，则单个样本的概率质量函数为

P(X=x)=\frac{e^{-\lambda}\lambda^x}{x!},\qquad x=0,1,2,\dots

于是样本的似然函数为

L(\lambda)=\prod_{i=1}^n \frac{e^{-\lambda}\lambda^{X_i}}{X_i!}=\frac{e^{-n\lambda}\lambda^{\sum_{i=1}^n X_i}}{\prod_{i=1}^n X_i!}.

取对数得

\ln L(\lambda)=-n\lambda+\left(\sum_{i=1}^n X_i\right)\ln\lambda-\ln\left(\prod_{i=1}^n X_i!\right).

对 $\lambda$ 求导并令其等于 0：

\frac{d\ln L(\lambda)}{d\lambda}=-n+\frac{\sum_{i=1}^n X_i}{\lambda}=0.

因此

\hat\lambda=\frac{1}{n}\sum_{i=1}^n X_i=\bar X_n.

这说明 Poisson 分布参数 $\lambda$ 的 MLE 就是样本均值。它和 Bernoulli、Exponential 一样，都是“样本均值直接估参数”的经典例子。

补充例题 4：正态分布参数的最大似然估计

设 $X_1,\dots,X_n\sim \mathrm{iid\ }N(\mu,\sigma^2)$ ，其中 $\mu,\sigma^2$ 都未知。单个样本的密度函数为

f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right).

于是样本的似然函数为

L(\mu,\sigma^2)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(X_i-\mu)^2}{2\sigma^2}\right).

取对数得

\ln L(\mu,\sigma^2)=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n (X_i-\mu)^2.

先对 $\mu$ 求偏导：

\frac{\partial \ln L}{\partial \mu}=\frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\mu)=0,

解得

\hat\mu=\bar X_n.

再对 $\sigma^2$ 求偏导：

\frac{\partial \ln L}{\partial \sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (X_i-\mu)^2=0.

把 $\mu=\hat\mu=\bar X_n$ 代回，可得

\hat\sigma^2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar X_n)^2.

注意：这里分母是 $$n$$ ，不是 $$n-1$$ 。原因是这里求的是 MLE；而样本方差中常见的 $$n-1$$ 出现在无偏估计里。这两者目标不同：MLE 追求让样本“最可能出现”，无偏估计追求期望恰好等于真实方差。

概念辨析：先验分布与参数估计方法

题目：下列方法中没有考虑先验分布的是（）

A. 贝叶斯分类器
B. 最大似然估计（MLE）
C. 贝叶斯学习
D. 最大后验估计（MAP）

答案：B

最大似然估计（MLE）只依赖观测数据的似然函数 $L(\theta\mid\mathbf x_n)$ ，寻找使似然最大的参数：

\hat\theta_{\text{MLE}}=\arg\max_\theta\,L(\theta\mid\mathbf x_n).

它完全不引入先验分布，属于频率学派的经典方法。

而其余三个选项都显式使用了先验分布 $P(\theta)$ ：

最大后验估计（MAP）： $\hat\theta_{\text{MAP}}=\arg\max_\theta\,[L(\theta\mid\mathbf x_n)\cdot P(\theta)]$ ，在似然基础上乘以先验
贝叶斯分类器 / 贝叶斯学习：计算完整的后验分布 $P(\theta\mid\mathbf x_n)\propto L(\theta\mid\mathbf x_n)\cdot P(\theta)$

核心区别：这本质上是频率学派（只用数据）与贝叶斯学派（数据 + 先验）的分野。MLE 是频率学派的代表，而 MAP 可以看作 MLE 引入先验后的贝叶斯推广——当先验为均匀分布时，MAP 退化为 MLE。

PDF点估计方法p.3

正在渲染 PDF 第 3 页…

点估计方法（PDF 第 3 页） · 打开原文

2.1.2 矩估计法（MME）与广义矩方法（GMM）

MME 的思想是：用样本矩去匹配总体矩。若模型有 $$p$$ 个未知参数，就列出 $$p$$ 个矩方程，用样本矩替换理论矩，再解出参数。

先从模型 $f(x,\theta)$ 计算总体矩 $E_\theta(X^k)$ ；
再用样本矩 $\hat\mu_k=n^{-1}\sum X_i^k$ 替代总体矩；
最后解方程组得到矩估计量。

GMM（Hansen, 1982）进一步推广为：只要存在矩条件

E[m(X_i,\theta_0)]=0,

就可通过最小化

Q(\theta)=\bar m(\theta)'W\bar m(\theta)

来估计参数，其中

\bar m(\theta)=n^{-1}\sum_{i=1}^n m(X_i,\theta).

若权重矩阵取为矩条件协方差矩阵的逆 $W=V^{-1}$ ，则 GMM 具有最高渐近效率。

MLE vs GMM：MLE 试图利用完整分布信息，所以通常更有效；GMM 只要求矩条件，不要求完整分布设定，因此在模型误设或分布难以写全时更稳健、更灵活。

2.2 估计量评估标准

2.2.1 无偏性

若

\mathrm{Bias}_\theta(\hat\theta)=E_\theta(\hat\theta)-\theta=0,

则称 $\hat\theta$ 是无偏估计量。无偏性意味着“平均来看不偏”。

但无偏不一定最好，因为无偏估计量可能方差很大；同时某些目标参数甚至根本不存在简单无偏估计。

2.2.2 均方误（MSE）准则

\mathrm{MSE}_\theta(\hat\theta)=E_\theta(\hat\theta-\theta)^2.

它满足经典分解：

\mathrm{MSE}_\theta(\hat\theta)=\mathrm{Var}_\theta(\hat\theta)+[\mathrm{Bias}_\theta(\hat\theta)]^2.

这说明估计误差来自两部分：一部分是随机波动（方差），另一部分是系统偏移（偏差）。

若 $\mathrm{MSE}_\theta(\hat\theta_1)\le \mathrm{MSE}_\theta(\hat\theta_2)$ ，则说 $\hat\theta_1$ 在 MSE 准则下更有效。

2.2.3 一致性（相合性）

\hat\theta_n\xrightarrow{a.s.}\theta_0\qquad (n\to\infty).

它表示样本量越来越大时，估计量几乎必然逼近真实参数值。MLE 在正则条件下通常具有强一致性。

PDF估计量评估标准p.40

正在渲染 PDF 第 40 页…

估计量评估标准（PDF 第 40 页） · 打开原文

2.3 Fisher 信息量与 Cramér-Rao 下界

2.3.1 记分函数与 Fisher 信息

记分函数定义为

S(X_i,\theta)=\frac{\partial \ln f(X_i,\theta)}{\partial\theta}.

在正确参数值处，它的期望为 0：

E_\theta[S(X_i,\theta)]=0.

Fisher 信息定义为

I(\theta)=E_\theta\left[\left(\frac{\partial \ln f(X_i,\theta)}{\partial\theta}\right)^2\right].

它衡量“数据里有多少关于参数的可识别信息”。似然越尖、越陡，信息量通常越大。

信息等式给出：

I(\theta)+H(\theta)=0,

其中

H(\theta)=E_\theta\left[\frac{\partial^2 \ln f(X_i,\theta)}{\partial\theta^2}\right].

因此 Fisher 信息也可理解为对数似然曲率绝对值的期望。

2.3.2 Cramér-Rao 下界

对 $\tau(\theta)$ 的任意无偏估计量 $\tilde\tau$ ，有

\mathrm{Var}_\theta(\tilde\tau)\ge B_n(\theta)=\frac{[\tau'(\theta)]^2}{E_\theta\left[\left(\frac{\partial \ln \hat L(\theta\mid\mathbf X_n)}{\partial\theta}\right)^2\right]}.

在 IID 情形下，它简化为

B_n(\theta)=\frac{[\tau'(\theta)]^2}{nI(\theta)}=-\frac{[\tau'(\theta)]^2}{nH(\theta)}.

若 $\mathrm{Var}_\theta(\tilde\tau)=B_n(\theta)$ ，则该无偏估计量达到 C-R 下界；
若严格大于下界，不能据此立刻断言它“不最优”，只能说它没达到这个判据给出的最理想下限。

例如 IID Poisson $(\lambda)$ 下， $\bar X_n$ 达到 C-R 下界 $\lambda/n$ ；而正态分布中 $$S_n^2$$ 虽然未达到某个简单 C-R 下界，却仍可能在其他准则下表现优良。

PDFCramér-Rao 下界p.60

正在渲染 PDF 第 60 页…

Cramér-Rao 下界（PDF 第 60 页） · 打开原文

2.4 大样本性质：渐近正态性与渐近有效性

定理 8.5：在正则条件下，MLE 满足

\sqrt n(\hat\theta-\theta_0)\xrightarrow{d}N\bigl(0,-H(\theta_0)^{-1}\bigr).

证明主线是：先用一阶条件写出平均记分函数在 $\hat\theta$ 处等于 0，再用中值定理展开；随后利用 CLT 处理记分函数均值、利用 USLLN 处理样本黑塞矩阵，最后由 Slutsky 定理把两者拼起来。

渐近有效性：MLE 的渐近方差恰好达到信息下界，所以在大样本意义下，它是最有效的一类估计量。

2.5 区间估计与置信区间

由渐近正态性可构造参数的渐近置信区间：

\hat\theta-\frac{z_{\alpha/2}}{\sqrt{-n\hat H(\hat\theta)}}\le \theta_0\le \hat\theta+\frac{z_{\alpha/2}}{\sqrt{-n\hat H(\hat\theta)}}.

正确解读： $1-\alpha$ 描述的是“随机区间覆盖真参数的概率”，而不是“真参数落在这个已经算出来的区间里的概率”。参数是固定值，不是随机变量。

区间估计计算时怎么查表

区间估计最容易卡住的地方不是公式本身，而是临界值到底查哪张表、查单侧还是双侧。可以按下面这个顺序判断：

总体方差已知，或样本很大：通常用标准正态分布，查 $z_{\alpha/2}$ ；
总体方差未知，且总体正态：均值区间改查 t 分布，临界值为 $t_{\alpha/2}(n-1)$ ；
估计正态总体方差：要查卡方分布，临界值写成 $\chi^2_{\alpha/2}(n-1)$ 与 $\chi^2_{1-\alpha/2}(n-1)$ ；
双侧置信区间：总尾概率 $\alpha$ 平分到两侧，所以查 $\alpha/2$ ；
单侧上界或下界：只留一边尾部，所以直接查 $\alpha$ 。

常见标准正态临界值需要记住几组：

90% 置信区间： $z_{0.05}\approx 1.645$ ；
95% 置信区间： $z_{0.025}\approx 1.96$ ；
99% 置信区间： $z_{0.005}\approx 2.576$ 。

如果题目写的是“置信水平 $1-\alpha$ 的双侧区间”，脑子里可以先翻译成：中间保留 $1-\alpha$ ，两边各留 $\alpha/2$ ，然后再去查表。

补充例题 5：已知方差时总体均值的置信区间

设总体服从正态分布， $\sigma^2$ 已知。若样本均值为 $\bar X_n$ ，则

Z=\frac{\bar X_n-\mu}{\sigma/\sqrt n}\sim N(0,1).

因此双侧 $100(1-\alpha)\%$ 置信区间为

\bar X_n-z_{\alpha/2}\frac{\sigma}{\sqrt n}\le \mu\le \bar X_n+z_{\alpha/2}\frac{\sigma}{\sqrt n}.

例如：若 $$n=64$$ ， $\bar X_n=50$ ， $\sigma=8$ ，求 95% 置信区间。因为 95% 对应 $z_{0.025}=1.96$ ，且

\frac{\sigma}{\sqrt n}=\frac{8}{8}=1,

所以误差限为

1.96\times 1=1.96.

故置信区间为

50\pm 1.96=[48.04,\ 51.96].

这类题的关键是：先判断用 z 表，再把样本均值 ± 临界值 × 标准误。

补充例题 6：未知方差时总体均值的置信区间

若总体正态但 $\sigma^2$ 未知，则要把总体标准差换成样本标准差 $$S$$ ，并使用 t 分布：

T=\frac{\bar X_n-\mu}{S/\sqrt n}\sim t_{n-1}.

于是双侧 $100(1-\alpha)\%$ 置信区间为

\bar X_n-t_{\alpha/2}(n-1)\frac{S}{\sqrt n}\le \mu\le \bar X_n+t_{\alpha/2}(n-1)\frac{S}{\sqrt n}.

例如：若 $$n=16$$ ， $\bar X_n=20$ ， $$S=4$$ ，求 95% 置信区间。此时自由度为 $$15$$ ，查表得

t_{0.025}(15)\approx 2.131.

又有

\frac{S}{\sqrt n}=\frac{4}{4}=1,

故误差限为

2.131\times 1=2.131.

因此区间为

20\pm 2.131=[17.869,\ 22.131].

可以看出：当样本量不大且方差未知时，t 临界值通常比 z 临界值更大，所以区间会更宽。

区间估计查表与计算例题课件 2 — 区间估计：t 分布、卡方分布与典型计算例题。

补充例题 7：正态总体方差的置信区间

若总体正态，且要估计总体方差 $\sigma^2$ ，则使用卡方分布：

\frac{(n-1)S^2}{\sigma^2}\sim \chi^2_{n-1}.

因此双侧 $100(1-\alpha)\%$ 置信区间为

\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}\le \sigma^2\le \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}.

这个公式最容易记反。一个简单记忆法是：卡方分位数越大，分母越大，所以区间端点越小。也就是说，大分位数应该放在下界的分母里，小分位数放在上界的分母里。

例如：若 $$n=10$$ ， $$S^2=4$$ ，求 95% 置信区间。此时自由度为 $$9$$ 。查卡方表得

\chi^2_{0.025}(9)\approx 19.023,\qquad \chi^2_{0.975}(9)\approx 2.700.

于是

\frac{9\times 4}{19.023}\le \sigma^2\le \frac{9\times 4}{2.700},

即

1.892\lesssim \sigma^2\lesssim 13.333.

区间估计的统一模板：无论查 z、t 还是

\chi^2

，本质上都在做三步： 先标准化 → 再查临界值 → 最后把不等式还原回原参数。

真正做题时，先问自己“现在未知的是均值还是方差？总体方差知不知道？样本量大不大？”这样就能快速决定该查哪张表。

PDF置信区间p.100

正在渲染 PDF 第 100 页…

置信区间（PDF 第 100 页） · 打开原文

三、第9章

三、第9章：假设检验

3.1 假设检验框架

假设是关于总体分布或参数的陈述，通常写成：

原假设： $H_0:\theta\in\Theta_0$ ；
备择假设： $H_A:\theta\in\Theta_A$ 。

其中 $\Theta_0\cap\Theta_A=\emptyset$ ，且 $\Theta_0\cup\Theta_A=\Theta$ 。

若一个假设只对应单个参数值或单个分布，就叫简单假设；若对应一组可能值，就叫复合假设。

检验统计量 $T(\mathbf X_n)$ 把样本空间划分为接受域与拒绝域。若统计量落入拒绝域，就拒绝 $$H_0$$ 。

PDF假设检验框架p.3

正在渲染 PDF 第 3 页…

假设检验框架（PDF 第 3 页） · 打开原文

3.2 两类错误与显著性水平

	$$H_0$$ 为真	$$H_A$$ 为真
拒绝 $$H_0$$	第一类错误（弃真）	正确决策
不拒绝 $$H_0$$	正确决策	第二类错误（取伪）

功效函数定义为

\pi(\theta)=P_\theta(\mathbf X_n\in \mathbb C),

其中 $\mathbb C$ 是拒绝域。

当 $\theta\in\Theta_0$ 时， $\pi(\theta)$ 就是第一类错误概率；
当 $\theta\in\Theta_A$ 时， $\pi(\theta)=1-\beta(\theta)$ ，即正确拒绝 $$H_0$$ 的概率。

Neyman-Pearson 思路是：先控制第一类错误不超过显著性水平 $\alpha$ ，再尽量让第二类错误更小、功效更高。

对固定样本量 $$n$$ ，减小 $\alpha$ 通常会增大 $\beta$ ；想同时改善两者，往往只能依赖更大的样本。

PDFp值与两类错误p.20

正在渲染 PDF 第 20 页…

p值与两类错误（PDF 第 20 页） · 打开原文

3.3 p 值

p 值是在 $$H_0$$ 为真的前提下，观察到比当前检验统计量“更极端”结果的概率。双侧检验常写成

p\text{-value}=P_{H_0}\bigl(|T(\mathbf X_n)|>|T(\mathbf x_n)|\bigr).

决策规则是：若 p 值不大于显著性水平 $\alpha$ ，就拒绝 $$H_0$$ 。

常见误解：

p 值不是 $$H_0$$ 为真的概率；
p 值不等于结果可重复的概率；
p 值不衡量效应大小；
它只描述“数据与原假设有多不一致”。

假设检验做题时怎么查表

假设检验和区间估计本质上是一体两面：前者是“看统计量有没有落入拒绝域”，后者是“看参数有没有落入可接受区间”。真正做题时，先按下面四步走：

先写原假设与备择假设，判断是双侧、左侧还是右侧检验；
再选统计量：均值已知方差用 $$Z$$ ，均值未知方差用 $$t$$ ，方差检验用 $\chi^2$ ，双样本方差比用 $$F$$ ；
再查临界值：双侧查 $\alpha/2$ ，单侧查 $\alpha$ ；
最后比较统计量与临界值，或直接比较 p 值与 $\alpha$ 。

最常见的拒绝域写法要熟悉：

双侧 Z / t 检验： $|Z_0|\ge z_{\alpha/2}$ 或 $|t_0|\ge t_{\alpha/2}$ ；
右侧检验： $Z_0\ge z_\alpha$ 、 $t_0\ge t_\alpha$ ；
左侧检验： $Z_0\le -z_\alpha$ 、 $t_0\le -t_\alpha$ ；
方差双侧检验：同时比较 $\chi^2$ 的左右尾临界值；
方差比检验：查 $$F$$ 分布，注意自由度顺序是 $$(n_1-1,n_2-1)$$ 。

假设检验查表与常见统计量课件 — 假设检验：单总体 / 双总体的均值与方差检验，以及拒绝域查表规则。

补充例题 8：已知方差时单总体均值的双侧 Z 检验

某产品标准重量宣称为 $\mu_0=100$ 克。现抽样得到 $$n=36$$ ，样本均值 $\bar X_n=102$ ，已知总体标准差 $\sigma=6$ 。检验

H_0:\mu=100,\qquad H_1:\mu\ne 100

在显著性水平 $\alpha=0.05$ 下是否拒绝 $$H_0$$ 。

因为总体方差已知，所以使用 Z 统计量：

Z_0=\frac{\bar X_n-\mu_0}{\sigma/\sqrt n}=\frac{102-100}{6/6}=2.

双侧 5% 检验查表得

z_{0.025}=1.96.

由于

$$|Z_0|=2>1.96,$$

故拒绝 $$H_0$$ ，说明样本给出的证据表明总体均值与 100 克存在显著差异。

若改用 p 值法，则

p\text{-value}=2\bigl(1-\Phi(2)\bigr)\approx 2(1-0.9772)=0.0456<0.05,

结论完全一致。

补充例题 9：未知方差时单总体均值的右侧 t 检验

某班学生的平均成绩是否高于 70 分？已知抽样结果为： $$n=16$$ ， $\bar X_n=74$ ， $$S=8$$ 。检验

H_0:\mu\le 70,\qquad H_1:\mu>70

在显著性水平 $\alpha=0.05$ 下是否拒绝 $$H_0$$ 。

由于总体方差未知且样本量不大，使用 t 统计量：

t_0=\frac{\bar X_n-\mu_0}{S/\sqrt n}=\frac{74-70}{8/4}=2.

自由度为 $$15$$ ，右侧 5% 检验查表得

t_{0.05}(15)\approx 1.753.

由于

$$t_0=2>1.753,$$

故拒绝 $$H_0$$ ，可认为平均成绩显著高于 70 分。

这个例子最重要的不是数字，而是判断流程：先看“方差未知 + 小样本”，立刻就应想到查 t 表而不是 z 表。

假设检验例题课件：单总体均值 t 检验 — 课件例题：总体方差未知时，利用单样本 t 检验判断平均值是否超过给定标准。

补充例题 10：课件中的单总体均值 t 检验

设某车间生产的螺杆直径服从正态分布 $N(\mu,\sigma^2)$ ，但总体标准差 $\sigma$ 未知。现抽取 5 个样本：

22.5,\ 21.5,\ 22.0,\ 21.8,\ 21.4.

要在显著性水平 $\alpha=0.05$ 下检验该车间生产的螺杆平均直径是否大于 22，即

H_0:\mu\le 22,\qquad H_1:\mu>22.

先计算样本均值与样本标准差：

\bar X_n=21.84,\qquad S\approx 0.4393.

由于总体方差未知，且样本量仅为 $$n=5$$ ，所以使用 t 统计量：

t_0=\frac{\bar X_n-\mu_0}{S/\sqrt n}=\frac{21.84-22}{0.4393/\sqrt 5}\approx -0.81.

自由度为 $$n-1=4$$ 。这是一个右侧检验，所以查表用

t_{0.05}(4)\approx 2.1318.

拒绝域为

t_0\ge 2.1318.

而现在

$$-0.81<2.1318,$$

因此不拒绝 $$H_0$$ 。也就是说，在显著性水平 0.05 下，没有足够证据说明该车间生产的螺杆平均直径大于 22；反而样本均值本身还略小于 22。

这个例题很典型，因为它提醒我们：检验方向是“右侧”并不意味着统计量一定是正的。如果样本均值本身低于检验基准，那么算出来的 t 值就可能为负，此时当然更不可能落入右侧拒绝域。

补充例题 11：正态总体方差的双侧卡方检验

设总体服从正态分布，想检验其方差是否等于 4。已知样本量 $$n=10$$ ，样本方差 $$S^2=6$$ 。检验

H_0:\sigma^2=4,\qquad H_1:\sigma^2\ne 4

在显著性水平 $\alpha=0.05$ 下是否拒绝 $$H_0$$ 。

统计量为

\chi_0^2=\frac{(n-1)S^2}{\sigma_0^2}=\frac{9\times 6}{4}=13.5.

自由度为 9。双侧检验要同时查左右尾，取近似临界值

\chi^2_{0.025}(9)\approx 19.023,\qquad \chi^2_{0.975}(9)\approx 2.700.

接受域可写成

2.700<\chi_0^2<19.023.

因为

13.5\in (2.700,19.023),

所以不拒绝 $$H_0$$ ，即没有足够证据说明总体方差与 4 有显著差异。

假设检验的统一模板： 先定假设 → 再选统计量 → 查临界值或算 p 值 → 最后下结论。真正做题时最容易错的是两件事：一是把单侧和双侧查表混掉，二是把 z / t /

\chi^2

/ F 的适用条件选错。只要先把“检验对象是什么、方差知不知道、样本是不是小样本”问清楚，后面的路就很顺了。

3.4 三大经典检验方法

考虑约束假设

H_0:g(\theta_0)=\mathbf 0,

其中 $g:\mathbb R^p\to\mathbb R^J$ 为约束函数。

3.4.1 Wald 检验

它利用无约束估计量 $\hat\theta$ ，直接看 $g(\hat\theta)$ 离 0 有多远：

W=n\,g(\hat\theta)'\left[\hat G\hat V\hat G'\right]^{-1}g(\hat\theta)\xrightarrow{d}\chi_J^2.

它的优点是：只需要无约束估计量，不必单独求有约束估计量。

3.4.2 Lagrange Multiplier（LM）检验

LM 检验利用有约束估计量 $\tilde\theta$ ，检验施加约束后对应的拉格朗日乘子是否接近零：

LM=n\hat\lambda'\hat G(\tilde\theta)\hat H(\tilde\theta)^{-1}\hat G(\tilde\theta)'\hat\lambda\xrightarrow{d}\chi_J^2.

直观上， $\hat\lambda$ 测度了“强行施加约束”后似然函数承受的边际损失。若约束正确，这种损失应接近于零。

3.4.3 似然比（LR）检验

LR 检验直接比较有约束与无约束似然值：

LR=2n\bigl[\hat l(\hat\theta)-\hat l(\tilde\theta)\bigr]\xrightarrow{d}\chi_J^2,

其中

\hat l(\theta)=\frac{1}{n}\sum_{i=1}^n \ln f(X_i,\theta)

是标准化对数似然函数。若约束正确，加入约束后似然值不应大幅下降，所以 LR 应较小。

3.4.4 三者关系

在模型正确设定且 $$H_0$$ 成立时，Wald、LM、LR 三者渐近等价，都收敛到 $\chi_J^2$ 分布；有限样本里它们可能不同，但大样本下差异是 $$o_p(1)$$ 。

检验	需要的估计量	对模型误设的稳健性
Wald	无约束 $\hat\theta$	可构造稳健版本
LM	有约束 $\tilde\theta$	可构造稳健版本
LR	两者都需要	无法自然稳健化

Neyman-Pearson 引理说明：对于简单原假设与简单备择假设，似然比检验是一致最大功效检验（UMP）。

PDFLR / Wald / LM 检验p.50

正在渲染 PDF 第 50 页…

LR / Wald / LM 检验（PDF 第 50 页） · 打开原文

3.5 常见检验方法

检验	适用场景	检验统计量	分布
Z 检验	$\sigma^2$ 已知，检验均值	$Z=(\bar X_n-\mu_0)/(\sigma/\sqrt n)$	$$N(0,1)$$
t 检验	$\sigma^2$ 未知，检验均值	$t=(\bar X_n-\mu_0)/(S_n/\sqrt n)$	$t_{n-1}$
$\chi^2$ 检验	方差、拟合优度、独立性	$\sum (O_i-E_i)^2/E_i$	$\chi^2_{df}$
F 检验	方差比较、回归整体显著性	$$F=S_1^2/S_2^2$$ 或回归型 F 统计量	$F_{\nu_1,\nu_2}$

3.6 经济学应用示例

教育回报率检验：检验教育对工资的边际效应是否为零，即 $H_0:\theta=0$ 。

规模报酬不变检验：对于 Cobb-Douglas 生产函数 $Y=AK^\alpha L^\beta$ ，规模报酬不变等价于检验 $H_0:\alpha+\beta=1$ ，这是约束函数 $g(\theta)=\alpha+\beta-1$ 的经典例子。

四、关键定理与推导

4.1 MLE 渐近正态性的证明架构

这是第 8-9 章最核心的证明链：

记分函数满足 $E_\theta[S(X_i,\theta)]=0$ ；
信息等式给出 $I(\theta)+H(\theta)=0$ ；
先证明 $\hat\theta\xrightarrow{a.s.}\theta_0$ ；
再对一阶条件作中值定理展开；
用 CLT 处理 $n^{-1/2}\sum S(X_i,\theta_0)$ ；
用 USLLN 处理样本黑塞矩阵；
最后由 Slutsky 定理推出

\sqrt n(\hat\theta-\theta_0)\xrightarrow{d}N\bigl(0,I(\theta_0)^{-1}\bigr)=N\bigl(0,-H(\theta_0)^{-1}\bigr).

4.2 GMM 渐近正态性

GMM 估计量也满足渐近正态：

\sqrt n(\hat\theta-\theta_0)\xrightarrow{d}N(0,\Omega).

若采用最优权重 $W=V^{-1}$ ，则

\Omega=(G_0'V^{-1}G_0)^{-1}.

这说明最优 GMM 在大样本下取得最小的渐近方差，是矩条件框架里的“效率最优解”。

五、关键例题

例 1：伯努利分布下的三大检验

若 $X_1,\dots,X_n\sim \mathrm{iid\ Bernoulli}(\theta)$ ，检验 $H_0:\theta=\theta_0$ 。

MLE 为 $\hat\theta=\bar X_n$ ，于是：

Wald： $W=\frac{n(\bar X_n-\theta_0)^2}{\bar X_n(1-\bar X_n)}\xrightarrow{d}\chi_1^2.$
LM： $LM=\frac{n(\bar X_n-\theta_0)^2}{\bar X_n(1-\theta_0)^2+(1-\bar X_n)\theta_0^2}\xrightarrow{d}\chi_1^2.$
LR： $LR=2n\left[\bar X_n\ln\frac{\bar X_n}{\theta_0}+(1-\bar X_n)\ln\frac{1-\bar X_n}{1-\theta_0}\right]\xrightarrow{d}\chi_1^2.$

例 2：正态分布下的均值检验

若 $X_1,\dots,X_n\sim \mathrm{iid}\ N(\mu,\sigma^2)$ ，检验 $H_0:\mu=\mu_0$ 。

Wald： $W=\frac{n(\bar X_n-\mu_0)^2}{\hat\sigma^2}\xrightarrow{d}\chi_1^2.$
LM：可基于有约束估计 $\tilde\sigma^2=n^{-1}\sum(X_i-\mu_0)^2$ 构造；
LR： $LR=n\ln(\tilde\sigma^2/\hat\sigma^2)\xrightarrow{d}\chi_1^2.$

例 3：BLUE 的推导

若 $X_1,\dots,X_n$ 独立同分布，具有均值 $\mu$ 与方差 $\sigma^2$ ，在所有线性无偏估计

\hat\mu=\sum_{i=1}^n c_iX_i,\qquad \sum_{i=1}^n c_i=1

中，最小化方差 $\sigma^2\sum c_i^2$ 可得 $$c_i=1/n$$ ，因此 $\bar X_n$ 是 BLUE。

例 4：Poisson 分布中 C-R 下界验证

若 $X_1,\dots,X_n\sim \mathrm{iid\ Poisson}(\lambda)$ ，则 $H(\lambda)=-1/\lambda$ ，C-R 下界为 $\lambda/n$ ；而 $\mathrm{Var}(\bar X_n)=\lambda/n$ ，故 $\bar X_n$ 恰好达到该下界。

六、复习速查表

核心概念速查

概念	定义 / 公式	一句话理解
似然函数	$L(\theta)=\prod f(X_i,\theta)$	数据已知，参数变化
MLE	$\arg\max_\theta L(\theta)$	让数据最可能出现的参数
记分函数	$S=\partial \ln f/\partial\theta$	似然函数的斜率
Fisher 信息	$I(\theta)=E[S^2]$	数据包含多少参数信息
信息等式	$I(\theta)=-H(\theta)$	信息 = 曲率
C-R 下界	$B_n=[\tau'(\theta)]^2/[nI(\theta)]$	无偏估计方差的理论下限
MSE	variance + bias²	精度与变异的权衡
功效函数	$\pi(\theta)=P_\theta(\text{拒绝})$	拒绝 $$H_0$$ 的概率
p 值	$P_{H_0}(\|T\|>\|T_{obs}\|)$	数据与 $$H_0$$ 的不一致程度

三大检验速查

	Wald	LM	LR
基于估计量	无约束 $\hat\theta$	有约束 $\tilde\theta$	两者都用
核心统计量	$g(\hat\theta)$	$\hat\lambda$	$\hat l(\hat\theta)-\hat l(\tilde\theta)$
直觉	离零多远	约束边际损失多大	约束前后似然差距多大
稳健版本	可构造	可构造	困难
渐近分布	$\chi_J^2$	$\chi_J^2$	$\chi_J^2$

关键数学工具

工具	用途
中值定理	把估计量展开到真实参数附近
CLT	得到记分函数均值的渐近正态性
USLLN	得到样本黑塞矩阵的一致收敛
Slutsky 定理	拼接不同收敛类型的量
Cauchy-Schwarz 不等式	C-R 下界的推导基础
信息等式	统一 Fisher 信息与黑塞矩阵

本笔记基于洪永淼教授《概率论与统计学》第 8-9 章课件整理，并结合统计推断中的若干标准解释补充而成，供复习参考。

参考来源

洪永淼《概率论与统计学》第 8 章课件（参数估计和评估）
洪永淼《概率论与统计学》第 9 章课件（假设检验）
Greenland et al. (2016) 关于 p 值常见误解的讨论