ESC
输入关键词搜索文章
目录

参数估计与假设检验

第 8-9 章 · 洪永淼 · XMU WISE
从数据推断真相:估计与检验的双重逻辑
一、概述
一、概述:统计推断的两大核心方法

统计推断的核心任务是:利用来自总体分布 $f_X(x)$ 的随机样本 $\mathbf X_n=(X_1,\dots,X_n)$ 的观测数据 $\mathbf x_n$,对总体分布或其中的未知参数作出推断。

在参数方法中,通常假设一族候选分布

$$\mathbb F=\{f(\cdot,\theta):\theta\in\Theta\}.$$

若存在 $\theta_0\in\Theta$ 使得 $f_X(x)=f(x,\theta_0)$ 几乎处处成立,则称模型被正确设定;否则称为误设

统计推断主要有两大支柱:

  1. 参数估计:用统计量 $\hat\theta(\mathbf X_n)$ 去估计未知参数 $\theta_0$
  2. 假设检验:基于样本判断某个关于 $\theta_0$ 的假设是否应被拒绝。

第 8 章处理“怎么估”;第 9 章处理“怎么判”。前者关心估计量的偏差、方差与一致性,后者关心拒绝域、两类错误、功效与 p 值。

二、第8章
二、第8章:参数估计
2.1 点估计方法

2.1.1 极大似然估计(MLE)

核心思想:选择一个参数值,使得“当前这批数据最可能被观察到”。

似然函数:给定样本 $\mathbf x_n$ 后,把联合 PMF / PDF 视为 $\theta$ 的函数:

$$\hat L(\theta\mid \mathbf x_n)=f_{\mathbf X_n}(\mathbf x_n,\theta).$$

MLE 定义

$$\hat\theta\equiv \hat\theta_n(\mathbf X_n)=\arg\max_{\theta\in\Theta}\hat L(\theta\mid \mathbf X_n).$$

关键区别$\hat L(\theta\mid\mathbf x_n)$$f_{\mathbf X_n}(\mathbf x_n,\theta)$ 数值相同,但前者把参数视为变量,后者把样本视为变量,概念上并不相同。

若样本 IID,则

$$\hat L(\theta\mid \mathbf X_n)=\prod_{i=1}^n f(X_i,\theta),\qquad \ln \hat L(\theta\mid \mathbf X_n)=\sum_{i=1}^n \ln f(X_i,\theta).$$

MLE 存在性的一个常见充分条件:若 $\hat L(\theta\mid\mathbf X_n)$ 关于 $\theta$ 连续,且参数空间 $\Theta$ 是紧集,则 MLE 几乎必然存在。

不变性:若 $\hat\theta$$\theta_0$ 的 MLE,则对任意函数 $g$$g(\hat\theta)$$g(\theta_0)$ 的 MLE。

分布MLE
$N(\mu,\sigma^2)$$\hat\mu=\bar X_n$$\hat\sigma^2=n^{-1}\sum (X_i-\bar X_n)^2$
$\mathrm{Bernoulli}(\theta)$$\hat\theta=\bar X_n$
$\mathrm{Exponential}(\lambda)$$\hat\lambda=\bar X_n^{-1}$

补充例题 1:课件中的 MLE 推导

设总体密度函数为

$$f(x)=\theta x^{\theta-1},\qquad 0<x<1,\ \theta>0.$$

$X_1,\dots,X_n$ 是来自该总体的 IID 样本,则似然函数为

$$L(\theta)=\prod_{i=1}^n \theta X_i^{\theta-1}=\theta^n\left(\prod_{i=1}^n X_i\right)^{\theta-1}.$$

取对数得

$$\ln L(\theta)=n\ln\theta+(\theta-1)\ln\left(\prod_{i=1}^n X_i\right).$$

$\theta$ 求导并令其等于 0:

$$\frac{d\ln L(\theta)}{d\theta}=\frac{n}{\theta}+\ln\left(\prod_{i=1}^n X_i\right)=0.$$

解得

$$\hat\theta=-\frac{n}{\ln(X_1X_2\cdots X_n)}=-\frac{n}{\sum_{i=1}^n \ln X_i}.$$

这个例子很适合作为 MLE 的标准模板:先把联合密度乘起来,再取对数、求导、解方程,最后得到估计量。

最大似然估计课件例题推导
课件例题:$f(x)=\theta x^{\theta-1}$ 时参数 $\theta$ 的最大似然估计。

补充例题 2:Bernoulli 分布参数的最大似然估计

$X_1,\dots,X_n\sim \mathrm{iid\ Bernoulli}(\theta)$,其中 $P(X_i=1)=\theta$$P(X_i=0)=1-\theta$,则单个样本的概率质量函数可写成

$$P(X_i=x_i)=\theta^{x_i}(1-\theta)^{1-x_i},\qquad x_i\in\{0,1\}.$$

于是似然函数为

$$L(\theta)=\prod_{i=1}^n \theta^{X_i}(1-\theta)^{1-X_i}=\theta^{\sum_{i=1}^n X_i}(1-\theta)^{n-\sum_{i=1}^n X_i}.$$

取对数得

$$\ln L(\theta)=\left(\sum_{i=1}^n X_i\right)\ln\theta+\left(n-\sum_{i=1}^n X_i\right)\ln(1-\theta).$$

$\theta$ 求导并令其等于 0:

$$\frac{d\ln L(\theta)}{d\theta}=\frac{\sum_{i=1}^n X_i}{\theta}-\frac{n-\sum_{i=1}^n X_i}{1-\theta}=0.$$

化简得到

$$\hat\theta=\frac{1}{n}\sum_{i=1}^n X_i=\bar X_n.$$

所以 Bernoulli 分布中“成功概率”的最大似然估计,就是样本中 1 出现的频率。

补充例题 3:Poisson 分布参数的最大似然估计

$X_1,\dots,X_n\sim \mathrm{iid\ Poisson}(\lambda)$,则单个样本的概率质量函数为

$$P(X=x)=\frac{e^{-\lambda}\lambda^x}{x!},\qquad x=0,1,2,\dots$$

于是样本的似然函数为

$$L(\lambda)=\prod_{i=1}^n \frac{e^{-\lambda}\lambda^{X_i}}{X_i!}=\frac{e^{-n\lambda}\lambda^{\sum_{i=1}^n X_i}}{\prod_{i=1}^n X_i!}.$$

取对数得

$$\ln L(\lambda)=-n\lambda+\left(\sum_{i=1}^n X_i\right)\ln\lambda-\ln\left(\prod_{i=1}^n X_i!\right).$$

$\lambda$ 求导并令其等于 0:

$$\frac{d\ln L(\lambda)}{d\lambda}=-n+\frac{\sum_{i=1}^n X_i}{\lambda}=0.$$

因此

$$\hat\lambda=\frac{1}{n}\sum_{i=1}^n X_i=\bar X_n.$$

这说明 Poisson 分布参数 $\lambda$ 的 MLE 就是样本均值。它和 Bernoulli、Exponential 一样,都是“样本均值直接估参数”的经典例子。

补充例题 4:正态分布参数的最大似然估计

$X_1,\dots,X_n\sim \mathrm{iid\ }N(\mu,\sigma^2)$,其中 $\mu,\sigma^2$ 都未知。单个样本的密度函数为

$$f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right).$$

于是样本的似然函数为

$$L(\mu,\sigma^2)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(X_i-\mu)^2}{2\sigma^2}\right).$$

取对数得

$$\ln L(\mu,\sigma^2)=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n (X_i-\mu)^2.$$

先对 $\mu$ 求偏导:

$$\frac{\partial \ln L}{\partial \mu}=\frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\mu)=0,$$

解得

$$\hat\mu=\bar X_n.$$

再对 $\sigma^2$ 求偏导:

$$\frac{\partial \ln L}{\partial \sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (X_i-\mu)^2=0.$$

$\mu=\hat\mu=\bar X_n$ 代回,可得

$$\hat\sigma^2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar X_n)^2.$$

注意:这里分母是 $n$,不是 $n-1$。原因是这里求的是 MLE;而样本方差中常见的 $n-1$ 出现在无偏估计里。这两者目标不同:MLE 追求让样本“最可能出现”,无偏估计追求期望恰好等于真实方差。

概念辨析:先验分布与参数估计方法

题目:下列方法中没有考虑先验分布的是( )

  1. A. 贝叶斯分类器
  2. B. 最大似然估计(MLE)
  3. C. 贝叶斯学习
  4. D. 最大后验估计(MAP)

答案:B

最大似然估计(MLE)只依赖观测数据的似然函数 $L(\theta\mid\mathbf x_n)$,寻找使似然最大的参数:

$$\hat\theta_{\text{MLE}}=\arg\max_\theta\,L(\theta\mid\mathbf x_n).$$

它完全不引入先验分布,属于频率学派的经典方法。

而其余三个选项都显式使用了先验分布 $P(\theta)$

  • 最大后验估计(MAP)$\hat\theta_{\text{MAP}}=\arg\max_\theta\,[L(\theta\mid\mathbf x_n)\cdot P(\theta)]$,在似然基础上乘以先验
  • 贝叶斯分类器 / 贝叶斯学习:计算完整的后验分布 $P(\theta\mid\mathbf x_n)\propto L(\theta\mid\mathbf x_n)\cdot P(\theta)$
核心区别:这本质上是频率学派(只用数据)与贝叶斯学派(数据 + 先验)的分野。MLE 是频率学派的代表,而 MAP 可以看作 MLE 引入先验后的贝叶斯推广——当先验为均匀分布时,MAP 退化为 MLE。
PDF点估计方法p.3
正在渲染 PDF 第 3 页…
点估计方法(PDF 第 3 页) · 打开原文

2.1.2 矩估计法(MME)与广义矩方法(GMM)

MME 的思想是:用样本矩去匹配总体矩。若模型有 $p$ 个未知参数,就列出 $p$ 个矩方程,用样本矩替换理论矩,再解出参数。

  1. 先从模型 $f(x,\theta)$ 计算总体矩 $E_\theta(X^k)$
  2. 再用样本矩 $\hat\mu_k=n^{-1}\sum X_i^k$ 替代总体矩;
  3. 最后解方程组得到矩估计量。

GMM(Hansen, 1982)进一步推广为:只要存在矩条件

$$E[m(X_i,\theta_0)]=0,$$

就可通过最小化

$$Q(\theta)=\bar m(\theta)'W\bar m(\theta)$$

来估计参数,其中

$$\bar m(\theta)=n^{-1}\sum_{i=1}^n m(X_i,\theta).$$

若权重矩阵取为矩条件协方差矩阵的逆 $W=V^{-1}$,则 GMM 具有最高渐近效率。

MLE vs GMM:MLE 试图利用完整分布信息,所以通常更有效;GMM 只要求矩条件,不要求完整分布设定,因此在模型误设或分布难以写全时更稳健、更灵活。
2.2 估计量评估标准

2.2.1 无偏性

$$\mathrm{Bias}_\theta(\hat\theta)=E_\theta(\hat\theta)-\theta=0,$$

则称 $\hat\theta$ 是无偏估计量。无偏性意味着“平均来看不偏”。

但无偏不一定最好,因为无偏估计量可能方差很大;同时某些目标参数甚至根本不存在简单无偏估计。

2.2.2 均方误(MSE)准则

$$\mathrm{MSE}_\theta(\hat\theta)=E_\theta(\hat\theta-\theta)^2.$$

它满足经典分解:

$$\mathrm{MSE}_\theta(\hat\theta)=\mathrm{Var}_\theta(\hat\theta)+[\mathrm{Bias}_\theta(\hat\theta)]^2.$$

这说明估计误差来自两部分:一部分是随机波动(方差),另一部分是系统偏移(偏差)。

$\mathrm{MSE}_\theta(\hat\theta_1)\le \mathrm{MSE}_\theta(\hat\theta_2)$,则说 $\hat\theta_1$ 在 MSE 准则下更有效。

2.2.3 一致性(相合性)

$$\hat\theta_n\xrightarrow{a.s.}\theta_0\qquad (n\to\infty).$$

它表示样本量越来越大时,估计量几乎必然逼近真实参数值。MLE 在正则条件下通常具有强一致性。

PDF估计量评估标准p.40
正在渲染 PDF 第 40 页…
估计量评估标准(PDF 第 40 页) · 打开原文
2.3 Fisher 信息量与 Cramér-Rao 下界

2.3.1 记分函数与 Fisher 信息

记分函数定义为

$$S(X_i,\theta)=\frac{\partial \ln f(X_i,\theta)}{\partial\theta}.$$

在正确参数值处,它的期望为 0:

$$E_\theta[S(X_i,\theta)]=0.$$

Fisher 信息定义为

$$I(\theta)=E_\theta\left[\left(\frac{\partial \ln f(X_i,\theta)}{\partial\theta}\right)^2\right].$$

它衡量“数据里有多少关于参数的可识别信息”。似然越尖、越陡,信息量通常越大。

信息等式给出:

$$I(\theta)+H(\theta)=0,$$

其中

$$H(\theta)=E_\theta\left[\frac{\partial^2 \ln f(X_i,\theta)}{\partial\theta^2}\right].$$

因此 Fisher 信息也可理解为对数似然曲率绝对值的期望。

2.3.2 Cramér-Rao 下界

$\tau(\theta)$ 的任意无偏估计量 $\tilde\tau$,有

$$\mathrm{Var}_\theta(\tilde\tau)\ge B_n(\theta)=\frac{[\tau'(\theta)]^2}{E_\theta\left[\left(\frac{\partial \ln \hat L(\theta\mid\mathbf X_n)}{\partial\theta}\right)^2\right]}.$$

在 IID 情形下,它简化为

$$B_n(\theta)=\frac{[\tau'(\theta)]^2}{nI(\theta)}=-\frac{[\tau'(\theta)]^2}{nH(\theta)}.$$
  • $\mathrm{Var}_\theta(\tilde\tau)=B_n(\theta)$,则该无偏估计量达到 C-R 下界;
  • 若严格大于下界,不能据此立刻断言它“不最优”,只能说它没达到这个判据给出的最理想下限。

例如 IID Poisson$(\lambda)$ 下,$\bar X_n$ 达到 C-R 下界 $\lambda/n$;而正态分布中 $S_n^2$ 虽然未达到某个简单 C-R 下界,却仍可能在其他准则下表现优良。

PDFCramér-Rao 下界p.60
正在渲染 PDF 第 60 页…
Cramér-Rao 下界(PDF 第 60 页) · 打开原文
2.4 大样本性质:渐近正态性与渐近有效性

定理 8.5:在正则条件下,MLE 满足

$$\sqrt n(\hat\theta-\theta_0)\xrightarrow{d}N\bigl(0,-H(\theta_0)^{-1}\bigr).$$

证明主线是:先用一阶条件写出平均记分函数在 $\hat\theta$ 处等于 0,再用中值定理展开;随后利用 CLT 处理记分函数均值、利用 USLLN 处理样本黑塞矩阵,最后由 Slutsky 定理把两者拼起来。

渐近有效性:MLE 的渐近方差恰好达到信息下界,所以在大样本意义下,它是最有效的一类估计量。

2.5 区间估计与置信区间

由渐近正态性可构造参数的渐近置信区间:

$$\hat\theta-\frac{z_{\alpha/2}}{\sqrt{-n\hat H(\hat\theta)}}\le \theta_0\le \hat\theta+\frac{z_{\alpha/2}}{\sqrt{-n\hat H(\hat\theta)}}.$$

正确解读$1-\alpha$ 描述的是“随机区间覆盖真参数的概率”,而不是“真参数落在这个已经算出来的区间里的概率”。参数是固定值,不是随机变量。

区间估计计算时怎么查表

区间估计最容易卡住的地方不是公式本身,而是临界值到底查哪张表、查单侧还是双侧。可以按下面这个顺序判断:

  • 总体方差已知,或样本很大:通常用标准正态分布,查 $z_{\alpha/2}$
  • 总体方差未知,且总体正态:均值区间改查 t 分布,临界值为 $t_{\alpha/2}(n-1)$
  • 估计正态总体方差:要查卡方分布,临界值写成 $\chi^2_{\alpha/2}(n-1)$$\chi^2_{1-\alpha/2}(n-1)$
  • 双侧置信区间:总尾概率 $\alpha$ 平分到两侧,所以查 $\alpha/2$
  • 单侧上界或下界:只留一边尾部,所以直接查 $\alpha$

常见标准正态临界值需要记住几组:

  • 90% 置信区间:$z_{0.05}\approx 1.645$
  • 95% 置信区间:$z_{0.025}\approx 1.96$
  • 99% 置信区间:$z_{0.005}\approx 2.576$

如果题目写的是“置信水平 $1-\alpha$ 的双侧区间”,脑子里可以先翻译成:中间保留 $1-\alpha$,两边各留 $\alpha/2$,然后再去查表。

区间估计查表与计算例题课件 1
区间估计:双侧 / 单侧临界值与查表思路。

补充例题 5:已知方差时总体均值的置信区间

设总体服从正态分布,$\sigma^2$ 已知。若样本均值为 $\bar X_n$,则

$$Z=\frac{\bar X_n-\mu}{\sigma/\sqrt n}\sim N(0,1).$$

因此双侧 $100(1-\alpha)\%$ 置信区间为

$$\bar X_n-z_{\alpha/2}\frac{\sigma}{\sqrt n}\le \mu\le \bar X_n+z_{\alpha/2}\frac{\sigma}{\sqrt n}.$$

例如:若 $n=64$$\bar X_n=50$$\sigma=8$,求 95% 置信区间。因为 95% 对应 $z_{0.025}=1.96$,且

$$\frac{\sigma}{\sqrt n}=\frac{8}{8}=1,$$

所以误差限为

$$1.96\times 1=1.96.$$

故置信区间为

$$50\pm 1.96=[48.04,\ 51.96].$$

这类题的关键是:先判断用 z 表,再把样本均值 ± 临界值 × 标准误

补充例题 6:未知方差时总体均值的置信区间

若总体正态但 $\sigma^2$ 未知,则要把总体标准差换成样本标准差 $S$,并使用 t 分布:

$$T=\frac{\bar X_n-\mu}{S/\sqrt n}\sim t_{n-1}.$$

于是双侧 $100(1-\alpha)\%$ 置信区间为

$$\bar X_n-t_{\alpha/2}(n-1)\frac{S}{\sqrt n}\le \mu\le \bar X_n+t_{\alpha/2}(n-1)\frac{S}{\sqrt n}.$$

例如:若 $n=16$$\bar X_n=20$$S=4$,求 95% 置信区间。此时自由度为 $15$,查表得

$$t_{0.025}(15)\approx 2.131.$$

又有

$$\frac{S}{\sqrt n}=\frac{4}{4}=1,$$

故误差限为

$$2.131\times 1=2.131.$$

因此区间为

$$20\pm 2.131=[17.869,\ 22.131].$$

可以看出:当样本量不大且方差未知时,t 临界值通常比 z 临界值更大,所以区间会更宽。

区间估计查表与计算例题课件 2
区间估计:t 分布、卡方分布与典型计算例题。

补充例题 7:正态总体方差的置信区间

若总体正态,且要估计总体方差 $\sigma^2$,则使用卡方分布:

$$\frac{(n-1)S^2}{\sigma^2}\sim \chi^2_{n-1}.$$

因此双侧 $100(1-\alpha)\%$ 置信区间为

$$\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}\le \sigma^2\le \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}.$$

这个公式最容易记反。一个简单记忆法是:卡方分位数越大,分母越大,所以区间端点越小。也就是说,大分位数应该放在下界的分母里,小分位数放在上界的分母里。

例如:若 $n=10$$S^2=4$,求 95% 置信区间。此时自由度为 $9$。查卡方表得

$$\chi^2_{0.025}(9)\approx 19.023,\qquad \chi^2_{0.975}(9)\approx 2.700.$$

于是

$$\frac{9\times 4}{19.023}\le \sigma^2\le \frac{9\times 4}{2.700},$$

$$1.892\lesssim \sigma^2\lesssim 13.333.$$
区间估计的统一模板:无论查 z、t 还是 $\chi^2$,本质上都在做三步: 先标准化再查临界值最后把不等式还原回原参数

真正做题时,先问自己“现在未知的是均值还是方差?总体方差知不知道?样本量大不大?”这样就能快速决定该查哪张表。

PDF置信区间p.100
正在渲染 PDF 第 100 页…
置信区间(PDF 第 100 页) · 打开原文
三、第9章
三、第9章:假设检验
3.1 假设检验框架

假设是关于总体分布或参数的陈述,通常写成:

  • 原假设$H_0:\theta\in\Theta_0$
  • 备择假设$H_A:\theta\in\Theta_A$

其中 $\Theta_0\cap\Theta_A=\emptyset$,且 $\Theta_0\cup\Theta_A=\Theta$

若一个假设只对应单个参数值或单个分布,就叫简单假设;若对应一组可能值,就叫复合假设

检验统计量 $T(\mathbf X_n)$ 把样本空间划分为接受域与拒绝域。若统计量落入拒绝域,就拒绝 $H_0$

PDF假设检验框架p.3
正在渲染 PDF 第 3 页…
假设检验框架(PDF 第 3 页) · 打开原文
3.2 两类错误与显著性水平
$H_0$ 为真$H_A$ 为真
拒绝 $H_0$第一类错误(弃真)正确决策
不拒绝 $H_0$正确决策第二类错误(取伪)

功效函数定义为

$$\pi(\theta)=P_\theta(\mathbf X_n\in \mathbb C),$$

其中 $\mathbb C$ 是拒绝域。

  • $\theta\in\Theta_0$ 时,$\pi(\theta)$ 就是第一类错误概率;
  • $\theta\in\Theta_A$ 时,$\pi(\theta)=1-\beta(\theta)$,即正确拒绝 $H_0$ 的概率。

Neyman-Pearson 思路是:先控制第一类错误不超过显著性水平 $\alpha$,再尽量让第二类错误更小、功效更高。

对固定样本量 $n$,减小 $\alpha$ 通常会增大 $\beta$;想同时改善两者,往往只能依赖更大的样本。

PDFp值与两类错误p.20
正在渲染 PDF 第 20 页…
p值与两类错误(PDF 第 20 页) · 打开原文
3.3 p 值

p 值是在 $H_0$ 为真的前提下,观察到比当前检验统计量“更极端”结果的概率。双侧检验常写成

$$p\text{-value}=P_{H_0}\bigl(|T(\mathbf X_n)|>|T(\mathbf x_n)|\bigr).$$

决策规则是:若 p 值不大于显著性水平 $\alpha$,就拒绝 $H_0$

常见误解

  • p 值不是 $H_0$ 为真的概率;
  • p 值不等于结果可重复的概率;
  • p 值不衡量效应大小;
  • 它只描述“数据与原假设有多不一致”。

假设检验做题时怎么查表

假设检验和区间估计本质上是一体两面:前者是“看统计量有没有落入拒绝域”,后者是“看参数有没有落入可接受区间”。真正做题时,先按下面四步走:

  1. 先写原假设与备择假设,判断是双侧、左侧还是右侧检验;
  2. 再选统计量:均值已知方差用 $Z$,均值未知方差用 $t$,方差检验用 $\chi^2$,双样本方差比用 $F$
  3. 再查临界值:双侧查 $\alpha/2$,单侧查 $\alpha$
  4. 最后比较统计量与临界值,或直接比较 p 值与 $\alpha$

最常见的拒绝域写法要熟悉:

  • 双侧 Z / t 检验$|Z_0|\ge z_{\alpha/2}$$|t_0|\ge t_{\alpha/2}$
  • 右侧检验$Z_0\ge z_\alpha$$t_0\ge t_\alpha$
  • 左侧检验$Z_0\le -z_\alpha$$t_0\le -t_\alpha$
  • 方差双侧检验:同时比较 $\chi^2$ 的左右尾临界值;
  • 方差比检验:查 $F$ 分布,注意自由度顺序是 $(n_1-1,n_2-1)$
假设检验查表与常见统计量课件
假设检验:单总体 / 双总体的均值与方差检验,以及拒绝域查表规则。

补充例题 8:已知方差时单总体均值的双侧 Z 检验

某产品标准重量宣称为 $\mu_0=100$ 克。现抽样得到 $n=36$,样本均值 $\bar X_n=102$,已知总体标准差 $\sigma=6$。检验

$$H_0:\mu=100,\qquad H_1:\mu\ne 100$$

在显著性水平 $\alpha=0.05$ 下是否拒绝 $H_0$

因为总体方差已知,所以使用 Z 统计量:

$$Z_0=\frac{\bar X_n-\mu_0}{\sigma/\sqrt n}=\frac{102-100}{6/6}=2.$$

双侧 5% 检验查表得

$$z_{0.025}=1.96.$$

由于

$$|Z_0|=2>1.96,$$

故拒绝 $H_0$,说明样本给出的证据表明总体均值与 100 克存在显著差异。

若改用 p 值法,则

$$p\text{-value}=2\bigl(1-\Phi(2)\bigr)\approx 2(1-0.9772)=0.0456<0.05,$$

结论完全一致。

补充例题 9:未知方差时单总体均值的右侧 t 检验

某班学生的平均成绩是否高于 70 分?已知抽样结果为:$n=16$$\bar X_n=74$$S=8$。检验

$$H_0:\mu\le 70,\qquad H_1:\mu>70$$

在显著性水平 $\alpha=0.05$ 下是否拒绝 $H_0$

由于总体方差未知且样本量不大,使用 t 统计量:

$$t_0=\frac{\bar X_n-\mu_0}{S/\sqrt n}=\frac{74-70}{8/4}=2.$$

自由度为 $15$,右侧 5% 检验查表得

$$t_{0.05}(15)\approx 1.753.$$

由于

$$t_0=2>1.753,$$

故拒绝 $H_0$,可认为平均成绩显著高于 70 分。

这个例子最重要的不是数字,而是判断流程:先看“方差未知 + 小样本”,立刻就应想到查 t 表而不是 z 表。

假设检验例题课件:单总体均值 t 检验
课件例题:总体方差未知时,利用单样本 t 检验判断平均值是否超过给定标准。

补充例题 10:课件中的单总体均值 t 检验

设某车间生产的螺杆直径服从正态分布 $N(\mu,\sigma^2)$,但总体标准差 $\sigma$ 未知。现抽取 5 个样本:

$$22.5,\ 21.5,\ 22.0,\ 21.8,\ 21.4.$$

要在显著性水平 $\alpha=0.05$ 下检验该车间生产的螺杆平均直径是否大于 22,即

$$H_0:\mu\le 22,\qquad H_1:\mu>22.$$

先计算样本均值与样本标准差:

$$\bar X_n=21.84,\qquad S\approx 0.4393.$$

由于总体方差未知,且样本量仅为 $n=5$,所以使用 t 统计量:

$$t_0=\frac{\bar X_n-\mu_0}{S/\sqrt n}=\frac{21.84-22}{0.4393/\sqrt 5}\approx -0.81.$$

自由度为 $n-1=4$。这是一个右侧检验,所以查表用

$$t_{0.05}(4)\approx 2.1318.$$

拒绝域为

$$t_0\ge 2.1318.$$

而现在

$$-0.81<2.1318,$$

因此不拒绝 $H_0$。也就是说,在显著性水平 0.05 下,没有足够证据说明该车间生产的螺杆平均直径大于 22;反而样本均值本身还略小于 22。

这个例题很典型,因为它提醒我们:检验方向是“右侧”并不意味着统计量一定是正的。如果样本均值本身低于检验基准,那么算出来的 t 值就可能为负,此时当然更不可能落入右侧拒绝域。

补充例题 11:正态总体方差的双侧卡方检验

设总体服从正态分布,想检验其方差是否等于 4。已知样本量 $n=10$,样本方差 $S^2=6$。检验

$$H_0:\sigma^2=4,\qquad H_1:\sigma^2\ne 4$$

在显著性水平 $\alpha=0.05$ 下是否拒绝 $H_0$

统计量为

$$\chi_0^2=\frac{(n-1)S^2}{\sigma_0^2}=\frac{9\times 6}{4}=13.5.$$

自由度为 9。双侧检验要同时查左右尾,取近似临界值

$$\chi^2_{0.025}(9)\approx 19.023,\qquad \chi^2_{0.975}(9)\approx 2.700.$$

接受域可写成

$$2.700<\chi_0^2<19.023.$$

因为

$$13.5\in (2.700,19.023),$$

所以不拒绝 $H_0$,即没有足够证据说明总体方差与 4 有显著差异。

假设检验的统一模板先定假设再选统计量查临界值或算 p 值最后下结论。 真正做题时最容易错的是两件事:一是把单侧和双侧查表混掉,二是把 z / t / $\chi^2$ / F 的适用条件选错。只要先把“检验对象是什么、方差知不知道、样本是不是小样本”问清楚,后面的路就很顺了。
3.4 三大经典检验方法

考虑约束假设

$$H_0:g(\theta_0)=\mathbf 0,$$

其中 $g:\mathbb R^p\to\mathbb R^J$ 为约束函数。

3.4.1 Wald 检验

它利用无约束估计量 $\hat\theta$,直接看 $g(\hat\theta)$ 离 0 有多远:

$$W=n\,g(\hat\theta)'\left[\hat G\hat V\hat G'\right]^{-1}g(\hat\theta)\xrightarrow{d}\chi_J^2.$$

它的优点是:只需要无约束估计量,不必单独求有约束估计量。

3.4.2 Lagrange Multiplier(LM)检验

LM 检验利用有约束估计量 $\tilde\theta$,检验施加约束后对应的拉格朗日乘子是否接近零:

$$LM=n\hat\lambda'\hat G(\tilde\theta)\hat H(\tilde\theta)^{-1}\hat G(\tilde\theta)'\hat\lambda\xrightarrow{d}\chi_J^2.$$

直观上,$\hat\lambda$ 测度了“强行施加约束”后似然函数承受的边际损失。若约束正确,这种损失应接近于零。

3.4.3 似然比(LR)检验

LR 检验直接比较有约束与无约束似然值:

$$LR=2n\bigl[\hat l(\hat\theta)-\hat l(\tilde\theta)\bigr]\xrightarrow{d}\chi_J^2,$$

其中

$$\hat l(\theta)=\frac{1}{n}\sum_{i=1}^n \ln f(X_i,\theta)$$

是标准化对数似然函数。若约束正确,加入约束后似然值不应大幅下降,所以 LR 应较小。

3.4.4 三者关系

在模型正确设定且 $H_0$ 成立时,Wald、LM、LR 三者渐近等价,都收敛到 $\chi_J^2$ 分布;有限样本里它们可能不同,但大样本下差异是 $o_p(1)$

检验需要的估计量对模型误设的稳健性
Wald无约束 $\hat\theta$可构造稳健版本
LM有约束 $\tilde\theta$可构造稳健版本
LR两者都需要无法自然稳健化

Neyman-Pearson 引理说明:对于简单原假设与简单备择假设,似然比检验是一致最大功效检验(UMP)。

PDFLR / Wald / LM 检验p.50
正在渲染 PDF 第 50 页…
LR / Wald / LM 检验(PDF 第 50 页) · 打开原文
3.5 常见检验方法
检验适用场景检验统计量分布
Z 检验$\sigma^2$ 已知,检验均值$Z=(\bar X_n-\mu_0)/(\sigma/\sqrt n)$$N(0,1)$
t 检验$\sigma^2$ 未知,检验均值$t=(\bar X_n-\mu_0)/(S_n/\sqrt n)$$t_{n-1}$
$\chi^2$ 检验方差、拟合优度、独立性$\sum (O_i-E_i)^2/E_i$$\chi^2_{df}$
F 检验方差比较、回归整体显著性$F=S_1^2/S_2^2$ 或回归型 F 统计量$F_{\nu_1,\nu_2}$
3.6 经济学应用示例

教育回报率检验:检验教育对工资的边际效应是否为零,即 $H_0:\theta=0$

规模报酬不变检验:对于 Cobb-Douglas 生产函数 $Y=AK^\alpha L^\beta$,规模报酬不变等价于检验 $H_0:\alpha+\beta=1$,这是约束函数 $g(\theta)=\alpha+\beta-1$ 的经典例子。

四、关键定理与推导
四、关键定理与推导
4.1 MLE 渐近正态性的证明架构

这是第 8-9 章最核心的证明链:

  1. 记分函数满足 $E_\theta[S(X_i,\theta)]=0$
  2. 信息等式给出 $I(\theta)+H(\theta)=0$
  3. 先证明 $\hat\theta\xrightarrow{a.s.}\theta_0$
  4. 再对一阶条件作中值定理展开;
  5. 用 CLT 处理 $n^{-1/2}\sum S(X_i,\theta_0)$
  6. 用 USLLN 处理样本黑塞矩阵;
  7. 最后由 Slutsky 定理推出
$$\sqrt n(\hat\theta-\theta_0)\xrightarrow{d}N\bigl(0,I(\theta_0)^{-1}\bigr)=N\bigl(0,-H(\theta_0)^{-1}\bigr).$$
4.2 GMM 渐近正态性

GMM 估计量也满足渐近正态:

$$\sqrt n(\hat\theta-\theta_0)\xrightarrow{d}N(0,\Omega).$$

若采用最优权重 $W=V^{-1}$,则

$$\Omega=(G_0'V^{-1}G_0)^{-1}.$$

这说明最优 GMM 在大样本下取得最小的渐近方差,是矩条件框架里的“效率最优解”。

五、关键例题
五、关键例题
例 1:伯努利分布下的三大检验

$X_1,\dots,X_n\sim \mathrm{iid\ Bernoulli}(\theta)$,检验 $H_0:\theta=\theta_0$

MLE 为 $\hat\theta=\bar X_n$,于是:

  • Wald
    $$W=\frac{n(\bar X_n-\theta_0)^2}{\bar X_n(1-\bar X_n)}\xrightarrow{d}\chi_1^2.$$
  • LM
    $$LM=\frac{n(\bar X_n-\theta_0)^2}{\bar X_n(1-\theta_0)^2+(1-\bar X_n)\theta_0^2}\xrightarrow{d}\chi_1^2.$$
  • LR
    $$LR=2n\left[\bar X_n\ln\frac{\bar X_n}{\theta_0}+(1-\bar X_n)\ln\frac{1-\bar X_n}{1-\theta_0}\right]\xrightarrow{d}\chi_1^2.$$
例 2:正态分布下的均值检验

$X_1,\dots,X_n\sim \mathrm{iid}\ N(\mu,\sigma^2)$,检验 $H_0:\mu=\mu_0$

  • Wald
    $$W=\frac{n(\bar X_n-\mu_0)^2}{\hat\sigma^2}\xrightarrow{d}\chi_1^2.$$
  • LM:可基于有约束估计 $\tilde\sigma^2=n^{-1}\sum(X_i-\mu_0)^2$ 构造;
  • LR
    $$LR=n\ln(\tilde\sigma^2/\hat\sigma^2)\xrightarrow{d}\chi_1^2.$$
例 3:BLUE 的推导

$X_1,\dots,X_n$ 独立同分布,具有均值 $\mu$ 与方差 $\sigma^2$,在所有线性无偏估计

$$\hat\mu=\sum_{i=1}^n c_iX_i,\qquad \sum_{i=1}^n c_i=1$$

中,最小化方差 $\sigma^2\sum c_i^2$ 可得 $c_i=1/n$,因此 $\bar X_n$ 是 BLUE。

例 4:Poisson 分布中 C-R 下界验证

$X_1,\dots,X_n\sim \mathrm{iid\ Poisson}(\lambda)$,则 $H(\lambda)=-1/\lambda$,C-R 下界为 $\lambda/n$;而 $\mathrm{Var}(\bar X_n)=\lambda/n$,故 $\bar X_n$ 恰好达到该下界。

六、复习速查表
六、复习速查表
核心概念速查
概念定义 / 公式一句话理解
似然函数$L(\theta)=\prod f(X_i,\theta)$数据已知,参数变化
MLE$\arg\max_\theta L(\theta)$让数据最可能出现的参数
记分函数$S=\partial \ln f/\partial\theta$似然函数的斜率
Fisher 信息$I(\theta)=E[S^2]$数据包含多少参数信息
信息等式$I(\theta)=-H(\theta)$信息 = 曲率
C-R 下界$B_n=[\tau'(\theta)]^2/[nI(\theta)]$无偏估计方差的理论下限
MSEvariance + bias²精度与变异的权衡
功效函数$\pi(\theta)=P_\theta(\text{拒绝})$拒绝 $H_0$ 的概率
p 值$P_{H_0}(|T|>|T_{obs}|)$数据与 $H_0$ 的不一致程度
三大检验速查
WaldLMLR
基于估计量无约束 $\hat\theta$有约束 $\tilde\theta$两者都用
核心统计量$g(\hat\theta)$$\hat\lambda$$\hat l(\hat\theta)-\hat l(\tilde\theta)$
直觉离零多远约束边际损失多大约束前后似然差距多大
稳健版本可构造可构造困难
渐近分布$\chi_J^2$$\chi_J^2$$\chi_J^2$
关键数学工具
工具用途
中值定理把估计量展开到真实参数附近
CLT得到记分函数均值的渐近正态性
USLLN得到样本黑塞矩阵的一致收敛
Slutsky 定理拼接不同收敛类型的量
Cauchy-Schwarz 不等式C-R 下界的推导基础
信息等式统一 Fisher 信息与黑塞矩阵

本笔记基于洪永淼教授《概率论与统计学》第 8-9 章课件整理,并结合统计推断中的若干标准解释补充而成,供复习参考。

参考来源

  • 洪永淼《概率论与统计学》第 8 章课件(参数估计和评估)
  • 洪永淼《概率论与统计学》第 9 章课件(假设检验)
  • Greenland et al. (2016) 关于 p 值常见误解的讨论