参数估计与假设检验
统计推断的核心任务是:利用来自总体分布 $f_X(x)$ 的随机样本 $\mathbf X_n=(X_1,\dots,X_n)$ 的观测数据 $\mathbf x_n$,对总体分布或其中的未知参数作出推断。
在参数方法中,通常假设一族候选分布
若存在 $\theta_0\in\Theta$ 使得 $f_X(x)=f(x,\theta_0)$ 几乎处处成立,则称模型被正确设定;否则称为误设。
统计推断主要有两大支柱:
- 参数估计:用统计量 $\hat\theta(\mathbf X_n)$ 去估计未知参数 $\theta_0$;
- 假设检验:基于样本判断某个关于 $\theta_0$ 的假设是否应被拒绝。
第 8 章处理“怎么估”;第 9 章处理“怎么判”。前者关心估计量的偏差、方差与一致性,后者关心拒绝域、两类错误、功效与 p 值。
2.1.1 极大似然估计(MLE)
核心思想:选择一个参数值,使得“当前这批数据最可能被观察到”。
似然函数:给定样本 $\mathbf x_n$ 后,把联合 PMF / PDF 视为 $\theta$ 的函数:
MLE 定义:
关键区别:$\hat L(\theta\mid\mathbf x_n)$ 与 $f_{\mathbf X_n}(\mathbf x_n,\theta)$ 数值相同,但前者把参数视为变量,后者把样本视为变量,概念上并不相同。
若样本 IID,则
MLE 存在性的一个常见充分条件:若 $\hat L(\theta\mid\mathbf X_n)$ 关于 $\theta$ 连续,且参数空间 $\Theta$ 是紧集,则 MLE 几乎必然存在。
不变性:若 $\hat\theta$ 是 $\theta_0$ 的 MLE,则对任意函数 $g$,$g(\hat\theta)$ 是 $g(\theta_0)$ 的 MLE。
| 分布 | MLE |
|---|---|
| $N(\mu,\sigma^2)$ | $\hat\mu=\bar X_n$,$\hat\sigma^2=n^{-1}\sum (X_i-\bar X_n)^2$ |
| $\mathrm{Bernoulli}(\theta)$ | $\hat\theta=\bar X_n$ |
| $\mathrm{Exponential}(\lambda)$ | $\hat\lambda=\bar X_n^{-1}$ |
补充例题 1:课件中的 MLE 推导
设总体密度函数为
若 $X_1,\dots,X_n$ 是来自该总体的 IID 样本,则似然函数为
取对数得
对 $\theta$ 求导并令其等于 0:
解得
这个例子很适合作为 MLE 的标准模板:先把联合密度乘起来,再取对数、求导、解方程,最后得到估计量。
补充例题 2:Bernoulli 分布参数的最大似然估计
若 $X_1,\dots,X_n\sim \mathrm{iid\ Bernoulli}(\theta)$,其中 $P(X_i=1)=\theta$,$P(X_i=0)=1-\theta$,则单个样本的概率质量函数可写成
于是似然函数为
取对数得
对 $\theta$ 求导并令其等于 0:
化简得到
所以 Bernoulli 分布中“成功概率”的最大似然估计,就是样本中 1 出现的频率。
补充例题 3:Poisson 分布参数的最大似然估计
若 $X_1,\dots,X_n\sim \mathrm{iid\ Poisson}(\lambda)$,则单个样本的概率质量函数为
于是样本的似然函数为
取对数得
对 $\lambda$ 求导并令其等于 0:
因此
这说明 Poisson 分布参数 $\lambda$ 的 MLE 就是样本均值。它和 Bernoulli、Exponential 一样,都是“样本均值直接估参数”的经典例子。
补充例题 4:正态分布参数的最大似然估计
设 $X_1,\dots,X_n\sim \mathrm{iid\ }N(\mu,\sigma^2)$,其中 $\mu,\sigma^2$ 都未知。单个样本的密度函数为
于是样本的似然函数为
取对数得
先对 $\mu$ 求偏导:
解得
再对 $\sigma^2$ 求偏导:
把 $\mu=\hat\mu=\bar X_n$ 代回,可得
注意:这里分母是 $n$,不是 $n-1$。原因是这里求的是 MLE;而样本方差中常见的 $n-1$ 出现在无偏估计里。这两者目标不同:MLE 追求让样本“最可能出现”,无偏估计追求期望恰好等于真实方差。
概念辨析:先验分布与参数估计方法
题目:下列方法中没有考虑先验分布的是( )
- A. 贝叶斯分类器
- B. 最大似然估计(MLE)
- C. 贝叶斯学习
- D. 最大后验估计(MAP)
答案:B
最大似然估计(MLE)只依赖观测数据的似然函数 $L(\theta\mid\mathbf x_n)$,寻找使似然最大的参数:
它完全不引入先验分布,属于频率学派的经典方法。
而其余三个选项都显式使用了先验分布 $P(\theta)$:
- 最大后验估计(MAP):$\hat\theta_{\text{MAP}}=\arg\max_\theta\,[L(\theta\mid\mathbf x_n)\cdot P(\theta)]$,在似然基础上乘以先验
- 贝叶斯分类器 / 贝叶斯学习:计算完整的后验分布 $P(\theta\mid\mathbf x_n)\propto L(\theta\mid\mathbf x_n)\cdot P(\theta)$
2.1.2 矩估计法(MME)与广义矩方法(GMM)
MME 的思想是:用样本矩去匹配总体矩。若模型有 $p$ 个未知参数,就列出 $p$ 个矩方程,用样本矩替换理论矩,再解出参数。
- 先从模型 $f(x,\theta)$ 计算总体矩 $E_\theta(X^k)$;
- 再用样本矩 $\hat\mu_k=n^{-1}\sum X_i^k$ 替代总体矩;
- 最后解方程组得到矩估计量。
GMM(Hansen, 1982)进一步推广为:只要存在矩条件
就可通过最小化
来估计参数,其中
若权重矩阵取为矩条件协方差矩阵的逆 $W=V^{-1}$,则 GMM 具有最高渐近效率。
2.2.1 无偏性
若
则称 $\hat\theta$ 是无偏估计量。无偏性意味着“平均来看不偏”。
但无偏不一定最好,因为无偏估计量可能方差很大;同时某些目标参数甚至根本不存在简单无偏估计。
2.2.2 均方误(MSE)准则
它满足经典分解:
这说明估计误差来自两部分:一部分是随机波动(方差),另一部分是系统偏移(偏差)。
若 $\mathrm{MSE}_\theta(\hat\theta_1)\le \mathrm{MSE}_\theta(\hat\theta_2)$,则说 $\hat\theta_1$ 在 MSE 准则下更有效。
2.2.3 一致性(相合性)
它表示样本量越来越大时,估计量几乎必然逼近真实参数值。MLE 在正则条件下通常具有强一致性。
2.3.1 记分函数与 Fisher 信息
记分函数定义为
在正确参数值处,它的期望为 0:
Fisher 信息定义为
它衡量“数据里有多少关于参数的可识别信息”。似然越尖、越陡,信息量通常越大。
信息等式给出:
其中
因此 Fisher 信息也可理解为对数似然曲率绝对值的期望。
2.3.2 Cramér-Rao 下界
对 $\tau(\theta)$ 的任意无偏估计量 $\tilde\tau$,有
在 IID 情形下,它简化为
- 若 $\mathrm{Var}_\theta(\tilde\tau)=B_n(\theta)$,则该无偏估计量达到 C-R 下界;
- 若严格大于下界,不能据此立刻断言它“不最优”,只能说它没达到这个判据给出的最理想下限。
例如 IID Poisson$(\lambda)$ 下,$\bar X_n$ 达到 C-R 下界 $\lambda/n$;而正态分布中 $S_n^2$ 虽然未达到某个简单 C-R 下界,却仍可能在其他准则下表现优良。
定理 8.5:在正则条件下,MLE 满足
证明主线是:先用一阶条件写出平均记分函数在 $\hat\theta$ 处等于 0,再用中值定理展开;随后利用 CLT 处理记分函数均值、利用 USLLN 处理样本黑塞矩阵,最后由 Slutsky 定理把两者拼起来。
渐近有效性:MLE 的渐近方差恰好达到信息下界,所以在大样本意义下,它是最有效的一类估计量。
由渐近正态性可构造参数的渐近置信区间:
正确解读:$1-\alpha$ 描述的是“随机区间覆盖真参数的概率”,而不是“真参数落在这个已经算出来的区间里的概率”。参数是固定值,不是随机变量。
区间估计计算时怎么查表
区间估计最容易卡住的地方不是公式本身,而是临界值到底查哪张表、查单侧还是双侧。可以按下面这个顺序判断:
- 总体方差已知,或样本很大:通常用标准正态分布,查 $z_{\alpha/2}$;
- 总体方差未知,且总体正态:均值区间改查 t 分布,临界值为 $t_{\alpha/2}(n-1)$;
- 估计正态总体方差:要查卡方分布,临界值写成 $\chi^2_{\alpha/2}(n-1)$ 与 $\chi^2_{1-\alpha/2}(n-1)$;
- 双侧置信区间:总尾概率 $\alpha$ 平分到两侧,所以查 $\alpha/2$;
- 单侧上界或下界:只留一边尾部,所以直接查 $\alpha$。
常见标准正态临界值需要记住几组:
- 90% 置信区间:$z_{0.05}\approx 1.645$;
- 95% 置信区间:$z_{0.025}\approx 1.96$;
- 99% 置信区间:$z_{0.005}\approx 2.576$。
如果题目写的是“置信水平 $1-\alpha$ 的双侧区间”,脑子里可以先翻译成:中间保留 $1-\alpha$,两边各留 $\alpha/2$,然后再去查表。
补充例题 5:已知方差时总体均值的置信区间
设总体服从正态分布,$\sigma^2$ 已知。若样本均值为 $\bar X_n$,则
因此双侧 $100(1-\alpha)\%$ 置信区间为
例如:若 $n=64$,$\bar X_n=50$,$\sigma=8$,求 95% 置信区间。因为 95% 对应 $z_{0.025}=1.96$,且
所以误差限为
故置信区间为
这类题的关键是:先判断用 z 表,再把样本均值 ± 临界值 × 标准误。
补充例题 6:未知方差时总体均值的置信区间
若总体正态但 $\sigma^2$ 未知,则要把总体标准差换成样本标准差 $S$,并使用 t 分布:
于是双侧 $100(1-\alpha)\%$ 置信区间为
例如:若 $n=16$,$\bar X_n=20$,$S=4$,求 95% 置信区间。此时自由度为 $15$,查表得
又有
故误差限为
因此区间为
可以看出:当样本量不大且方差未知时,t 临界值通常比 z 临界值更大,所以区间会更宽。
补充例题 7:正态总体方差的置信区间
若总体正态,且要估计总体方差 $\sigma^2$,则使用卡方分布:
因此双侧 $100(1-\alpha)\%$ 置信区间为
这个公式最容易记反。一个简单记忆法是:卡方分位数越大,分母越大,所以区间端点越小。也就是说,大分位数应该放在下界的分母里,小分位数放在上界的分母里。
例如:若 $n=10$,$S^2=4$,求 95% 置信区间。此时自由度为 $9$。查卡方表得
于是
即
真正做题时,先问自己“现在未知的是均值还是方差?总体方差知不知道?样本量大不大?”这样就能快速决定该查哪张表。
假设是关于总体分布或参数的陈述,通常写成:
- 原假设:$H_0:\theta\in\Theta_0$;
- 备择假设:$H_A:\theta\in\Theta_A$。
其中 $\Theta_0\cap\Theta_A=\emptyset$,且 $\Theta_0\cup\Theta_A=\Theta$。
若一个假设只对应单个参数值或单个分布,就叫简单假设;若对应一组可能值,就叫复合假设。
检验统计量 $T(\mathbf X_n)$ 把样本空间划分为接受域与拒绝域。若统计量落入拒绝域,就拒绝 $H_0$。
| $H_0$ 为真 | $H_A$ 为真 | |
|---|---|---|
| 拒绝 $H_0$ | 第一类错误(弃真) | 正确决策 |
| 不拒绝 $H_0$ | 正确决策 | 第二类错误(取伪) |
功效函数定义为
其中 $\mathbb C$ 是拒绝域。
- 当 $\theta\in\Theta_0$ 时,$\pi(\theta)$ 就是第一类错误概率;
- 当 $\theta\in\Theta_A$ 时,$\pi(\theta)=1-\beta(\theta)$,即正确拒绝 $H_0$ 的概率。
Neyman-Pearson 思路是:先控制第一类错误不超过显著性水平 $\alpha$,再尽量让第二类错误更小、功效更高。
对固定样本量 $n$,减小 $\alpha$ 通常会增大 $\beta$;想同时改善两者,往往只能依赖更大的样本。
p 值是在 $H_0$ 为真的前提下,观察到比当前检验统计量“更极端”结果的概率。双侧检验常写成
决策规则是:若 p 值不大于显著性水平 $\alpha$,就拒绝 $H_0$。
常见误解:
- p 值不是 $H_0$ 为真的概率;
- p 值不等于结果可重复的概率;
- p 值不衡量效应大小;
- 它只描述“数据与原假设有多不一致”。
假设检验做题时怎么查表
假设检验和区间估计本质上是一体两面:前者是“看统计量有没有落入拒绝域”,后者是“看参数有没有落入可接受区间”。真正做题时,先按下面四步走:
- 先写原假设与备择假设,判断是双侧、左侧还是右侧检验;
- 再选统计量:均值已知方差用 $Z$,均值未知方差用 $t$,方差检验用 $\chi^2$,双样本方差比用 $F$;
- 再查临界值:双侧查 $\alpha/2$,单侧查 $\alpha$;
- 最后比较统计量与临界值,或直接比较 p 值与 $\alpha$。
最常见的拒绝域写法要熟悉:
- 双侧 Z / t 检验:$|Z_0|\ge z_{\alpha/2}$ 或 $|t_0|\ge t_{\alpha/2}$;
- 右侧检验:$Z_0\ge z_\alpha$、$t_0\ge t_\alpha$;
- 左侧检验:$Z_0\le -z_\alpha$、$t_0\le -t_\alpha$;
- 方差双侧检验:同时比较 $\chi^2$ 的左右尾临界值;
- 方差比检验:查 $F$ 分布,注意自由度顺序是 $(n_1-1,n_2-1)$。
补充例题 8:已知方差时单总体均值的双侧 Z 检验
某产品标准重量宣称为 $\mu_0=100$ 克。现抽样得到 $n=36$,样本均值 $\bar X_n=102$,已知总体标准差 $\sigma=6$。检验
在显著性水平 $\alpha=0.05$ 下是否拒绝 $H_0$。
因为总体方差已知,所以使用 Z 统计量:
双侧 5% 检验查表得
由于
故拒绝 $H_0$,说明样本给出的证据表明总体均值与 100 克存在显著差异。
若改用 p 值法,则
结论完全一致。
补充例题 9:未知方差时单总体均值的右侧 t 检验
某班学生的平均成绩是否高于 70 分?已知抽样结果为:$n=16$,$\bar X_n=74$,$S=8$。检验
在显著性水平 $\alpha=0.05$ 下是否拒绝 $H_0$。
由于总体方差未知且样本量不大,使用 t 统计量:
自由度为 $15$,右侧 5% 检验查表得
由于
故拒绝 $H_0$,可认为平均成绩显著高于 70 分。
这个例子最重要的不是数字,而是判断流程:先看“方差未知 + 小样本”,立刻就应想到查 t 表而不是 z 表。
补充例题 10:课件中的单总体均值 t 检验
设某车间生产的螺杆直径服从正态分布 $N(\mu,\sigma^2)$,但总体标准差 $\sigma$ 未知。现抽取 5 个样本:
要在显著性水平 $\alpha=0.05$ 下检验该车间生产的螺杆平均直径是否大于 22,即
先计算样本均值与样本标准差:
由于总体方差未知,且样本量仅为 $n=5$,所以使用 t 统计量:
自由度为 $n-1=4$。这是一个右侧检验,所以查表用
拒绝域为
而现在
因此不拒绝 $H_0$。也就是说,在显著性水平 0.05 下,没有足够证据说明该车间生产的螺杆平均直径大于 22;反而样本均值本身还略小于 22。
这个例题很典型,因为它提醒我们:检验方向是“右侧”并不意味着统计量一定是正的。如果样本均值本身低于检验基准,那么算出来的 t 值就可能为负,此时当然更不可能落入右侧拒绝域。
补充例题 11:正态总体方差的双侧卡方检验
设总体服从正态分布,想检验其方差是否等于 4。已知样本量 $n=10$,样本方差 $S^2=6$。检验
在显著性水平 $\alpha=0.05$ 下是否拒绝 $H_0$。
统计量为
自由度为 9。双侧检验要同时查左右尾,取近似临界值
接受域可写成
因为
所以不拒绝 $H_0$,即没有足够证据说明总体方差与 4 有显著差异。
考虑约束假设
其中 $g:\mathbb R^p\to\mathbb R^J$ 为约束函数。
3.4.1 Wald 检验
它利用无约束估计量 $\hat\theta$,直接看 $g(\hat\theta)$ 离 0 有多远:
它的优点是:只需要无约束估计量,不必单独求有约束估计量。
3.4.2 Lagrange Multiplier(LM)检验
LM 检验利用有约束估计量 $\tilde\theta$,检验施加约束后对应的拉格朗日乘子是否接近零:
直观上,$\hat\lambda$ 测度了“强行施加约束”后似然函数承受的边际损失。若约束正确,这种损失应接近于零。
3.4.3 似然比(LR)检验
LR 检验直接比较有约束与无约束似然值:
其中
是标准化对数似然函数。若约束正确,加入约束后似然值不应大幅下降,所以 LR 应较小。
3.4.4 三者关系
在模型正确设定且 $H_0$ 成立时,Wald、LM、LR 三者渐近等价,都收敛到 $\chi_J^2$ 分布;有限样本里它们可能不同,但大样本下差异是 $o_p(1)$。
| 检验 | 需要的估计量 | 对模型误设的稳健性 |
|---|---|---|
| Wald | 无约束 $\hat\theta$ | 可构造稳健版本 |
| LM | 有约束 $\tilde\theta$ | 可构造稳健版本 |
| LR | 两者都需要 | 无法自然稳健化 |
Neyman-Pearson 引理说明:对于简单原假设与简单备择假设,似然比检验是一致最大功效检验(UMP)。
| 检验 | 适用场景 | 检验统计量 | 分布 |
|---|---|---|---|
| Z 检验 | $\sigma^2$ 已知,检验均值 | $Z=(\bar X_n-\mu_0)/(\sigma/\sqrt n)$ | $N(0,1)$ |
| t 检验 | $\sigma^2$ 未知,检验均值 | $t=(\bar X_n-\mu_0)/(S_n/\sqrt n)$ | $t_{n-1}$ |
| $\chi^2$ 检验 | 方差、拟合优度、独立性 | $\sum (O_i-E_i)^2/E_i$ | $\chi^2_{df}$ |
| F 检验 | 方差比较、回归整体显著性 | $F=S_1^2/S_2^2$ 或回归型 F 统计量 | $F_{\nu_1,\nu_2}$ |
教育回报率检验:检验教育对工资的边际效应是否为零,即 $H_0:\theta=0$。
规模报酬不变检验:对于 Cobb-Douglas 生产函数 $Y=AK^\alpha L^\beta$,规模报酬不变等价于检验 $H_0:\alpha+\beta=1$,这是约束函数 $g(\theta)=\alpha+\beta-1$ 的经典例子。
这是第 8-9 章最核心的证明链:
- 记分函数满足 $E_\theta[S(X_i,\theta)]=0$;
- 信息等式给出 $I(\theta)+H(\theta)=0$;
- 先证明 $\hat\theta\xrightarrow{a.s.}\theta_0$;
- 再对一阶条件作中值定理展开;
- 用 CLT 处理 $n^{-1/2}\sum S(X_i,\theta_0)$;
- 用 USLLN 处理样本黑塞矩阵;
- 最后由 Slutsky 定理推出
GMM 估计量也满足渐近正态:
若采用最优权重 $W=V^{-1}$,则
这说明最优 GMM 在大样本下取得最小的渐近方差,是矩条件框架里的“效率最优解”。
若 $X_1,\dots,X_n\sim \mathrm{iid\ Bernoulli}(\theta)$,检验 $H_0:\theta=\theta_0$。
MLE 为 $\hat\theta=\bar X_n$,于是:
- Wald:$$W=\frac{n(\bar X_n-\theta_0)^2}{\bar X_n(1-\bar X_n)}\xrightarrow{d}\chi_1^2.$$
- LM:$$LM=\frac{n(\bar X_n-\theta_0)^2}{\bar X_n(1-\theta_0)^2+(1-\bar X_n)\theta_0^2}\xrightarrow{d}\chi_1^2.$$
- LR:$$LR=2n\left[\bar X_n\ln\frac{\bar X_n}{\theta_0}+(1-\bar X_n)\ln\frac{1-\bar X_n}{1-\theta_0}\right]\xrightarrow{d}\chi_1^2.$$
若 $X_1,\dots,X_n\sim \mathrm{iid}\ N(\mu,\sigma^2)$,检验 $H_0:\mu=\mu_0$。
- Wald:$$W=\frac{n(\bar X_n-\mu_0)^2}{\hat\sigma^2}\xrightarrow{d}\chi_1^2.$$
- LM:可基于有约束估计 $\tilde\sigma^2=n^{-1}\sum(X_i-\mu_0)^2$ 构造;
- LR:$$LR=n\ln(\tilde\sigma^2/\hat\sigma^2)\xrightarrow{d}\chi_1^2.$$
若 $X_1,\dots,X_n$ 独立同分布,具有均值 $\mu$ 与方差 $\sigma^2$,在所有线性无偏估计
中,最小化方差 $\sigma^2\sum c_i^2$ 可得 $c_i=1/n$,因此 $\bar X_n$ 是 BLUE。
若 $X_1,\dots,X_n\sim \mathrm{iid\ Poisson}(\lambda)$,则 $H(\lambda)=-1/\lambda$,C-R 下界为 $\lambda/n$;而 $\mathrm{Var}(\bar X_n)=\lambda/n$,故 $\bar X_n$ 恰好达到该下界。
| 概念 | 定义 / 公式 | 一句话理解 |
|---|---|---|
| 似然函数 | $L(\theta)=\prod f(X_i,\theta)$ | 数据已知,参数变化 |
| MLE | $\arg\max_\theta L(\theta)$ | 让数据最可能出现的参数 |
| 记分函数 | $S=\partial \ln f/\partial\theta$ | 似然函数的斜率 |
| Fisher 信息 | $I(\theta)=E[S^2]$ | 数据包含多少参数信息 |
| 信息等式 | $I(\theta)=-H(\theta)$ | 信息 = 曲率 |
| C-R 下界 | $B_n=[\tau'(\theta)]^2/[nI(\theta)]$ | 无偏估计方差的理论下限 |
| MSE | variance + bias² | 精度与变异的权衡 |
| 功效函数 | $\pi(\theta)=P_\theta(\text{拒绝})$ | 拒绝 $H_0$ 的概率 |
| p 值 | $P_{H_0}(|T|>|T_{obs}|)$ | 数据与 $H_0$ 的不一致程度 |
| Wald | LM | LR | |
|---|---|---|---|
| 基于估计量 | 无约束 $\hat\theta$ | 有约束 $\tilde\theta$ | 两者都用 |
| 核心统计量 | $g(\hat\theta)$ | $\hat\lambda$ | $\hat l(\hat\theta)-\hat l(\tilde\theta)$ |
| 直觉 | 离零多远 | 约束边际损失多大 | 约束前后似然差距多大 |
| 稳健版本 | 可构造 | 可构造 | 困难 |
| 渐近分布 | $\chi_J^2$ | $\chi_J^2$ | $\chi_J^2$ |
| 工具 | 用途 |
|---|---|
| 中值定理 | 把估计量展开到真实参数附近 |
| CLT | 得到记分函数均值的渐近正态性 |
| USLLN | 得到样本黑塞矩阵的一致收敛 |
| Slutsky 定理 | 拼接不同收敛类型的量 |
| Cauchy-Schwarz 不等式 | C-R 下界的推导基础 |
| 信息等式 | 统一 Fisher 信息与黑塞矩阵 |
本笔记基于洪永淼教授《概率论与统计学》第 8-9 章课件整理,并结合统计推断中的若干标准解释补充而成,供复习参考。
参考来源
- 洪永淼《概率论与统计学》第 8 章课件(参数估计和评估)
- 洪永淼《概率论与统计学》第 9 章课件(假设检验)
- Greenland et al. (2016) 关于 p 值常见误解的讨论