第10-12章：经典线性回归与前沿扩展

2026/05/24 00:32:26

一、概述

一、概述：回归分析在统计学中的核心地位

第10章到第12章把全课程从“概率论基础”推进到“统计推断与现代数据分析”。其中第10章的经典线性回归是统计学、计量经济学和机器学习共同使用的基础模型。它的核心问题是：给定一组解释变量 $$X$$ ，如何用一个可估计、可解释、可检验的函数去刻画因变量 $$Y$$ 的条件均值 $E(Y\mid X)$ ？

经典线性回归模型既是预测工具，也是推断工具。若研究目标是预测，重点是拟合误差、样本外表现和模型选择；若研究目标是经济解释或假设检验，重点是参数含义、抽样分布、标准误、 $$t$$ 检验和 $$F$$ 检验。洪老师课件反复强调一点：线性回归描述的是条件均值上的统计关系或预测关系，哪怕模型正确设定，也不能自动推出因果关系。因果解释必须来自经济理论、制度背景、实验设计或额外识别假设。

第11章进一步说明，大数据和机器学习并没有推翻统计学的基本思想。它们改变的是数据形态、模型复杂度和应用重点：样本容量更大、变量维度更高、非结构化数据更多、实时预测更重要。但随机抽样、样本外预测、数据归约、变量选择、因果推断等统计思想仍然适用。第12章则把这门课的主线收束为：把经济金融系统视为服从某种概率法则的随机系统，现实数据是该系统的一次实现；统计学的任务是在理论指导下，根据数据推断这个系统的规律，并用于解释、预测、检验和政策评估。

二、第10章核心概念

二、第10章核心概念：经典线性回归模型

1. 一元线性回归模型

最简单的回归模型是

<p>Y_i=\beta_0+\beta_1X_i+\varepsilon_i,\quad i=1,\ldots,n.</p>

其中 $$Y_i$$ 是因变量， $$X_i$$ 是解释变量， $\beta_0$ 是截距， $\beta_1$ 是斜率， $\varepsilon_i$ 是不可观测扰动项。若模型正确设定，则

<p>E(Y_i\mid X_i)=\beta_0+\beta_1X_i,</p>

也等价于 $E(\varepsilon_i\mid X_i)=0$ 。此时 $\beta_1$ 可以解释为 $$X$$ 对 $$Y$$ 条件均值的边际影响： $$X$$ 增加一个单位， $$Y$$ 的条件均值平均改变 $\beta_1$ 个单位。注意这里是“条件均值影响”，不是天然的因果效应。

2. 多元线性回归与矩阵形式

第10章更一般地考虑

<p>Y_i=X_i'\theta_0+\varepsilon_i</p> <p>=\alpha_0+\sum_{j=1}^k\beta_{j0}X_{ji}+\varepsilon_i,</p>

其中 $X_i=(1,X_{1i},\ldots,X_{ki})'$ ， $\theta_0=(\alpha_0,\beta_{10},\ldots,\beta_{k0})'$ ，参数个数 $$p=k+1$$ 。写成矩阵形式：

<p>\mathbf Y=\mathbf X\theta_0+\varepsilon,</p>

其中 $\mathbf Y$ 是 $n\times1$ 向量， $\mathbf X$ 是 $n\times p$ 设计矩阵， $\varepsilon$ 是 $n\times1$ 扰动向量。矩阵形式的好处是把所有样本点统一写成一个线性代数问题，便于推导 OLS、投影矩阵、方差结构和假设检验。

3. OLS 的推导与几何解释

普通最小二乘法选择参数估计量 $\hat\theta$ ，使残差平方和最小：

<p>\hat\theta=\arg\min_\theta (\mathbf Y-\mathbf X\theta)'(\mathbf Y-\mathbf X\theta).</p>

展开目标函数并对 $\theta$ 求导：

<p>S(\theta)=\mathbf Y'\mathbf Y-2\theta'\mathbf X'\mathbf Y+</p> <p>\theta'\mathbf X'\mathbf X\theta.</p>

一阶条件为

<p>\mathbf X'\mathbf X\hat\theta=\mathbf X'\mathbf Y.</p>

若 $\mathbf X'\mathbf X$ 非奇异，即解释变量满秩，则

<p>\hat\theta=(\mathbf X'\mathbf X)^{-1}\mathbf X'\mathbf Y.</p>

几何上， $\mathbf X\hat\theta=\hat{\mathbf Y}$ 是把 $\mathbf Y$ 投影到 $\mathbf X$ 的列空间上。残差 $\mathbf e=\mathbf Y-\hat{\mathbf Y}$ 与所有解释变量列向量正交，因此 $\mathbf X'\mathbf e=0$ 。投影矩阵与残差生成矩阵分别为

<p>\mathbf P=\mathbf X(\mathbf X'\mathbf X)^{-1}\mathbf X',\quad</p> <p>\mathbf M=\mathbf I-\mathbf P,</p>

于是 $\hat{\mathbf Y}=\mathbf P\mathbf Y$ ， $\mathbf e=\mathbf M\mathbf Y=\mathbf M\varepsilon$ 。这说明 OLS 本质上是在由解释变量张成的空间中寻找离观测向量最近的点。

4. 经典假设条件

经典线性回归理论依赖一组关键条件：

1. 线性与正确设定：条件均值可写成 $E(Y_i\mid X_i)=X_i'\theta_0$ 。

2. 满秩条件： $\mathbf X'\mathbf X$ 非奇异，解释变量之间不存在完全线性相关。

3. 严格外生性：

E(\varepsilon_i\mid \mathbf X)=0,\quad i=1,\ldots,n.

它比 $E(\varepsilon_i\mid X_i)=0$ 更强，尤其在时间序列中要求扰动项不依赖全部过去、现在和未来的解释变量，因此会排除含滞后因变量的动态回归模型。

4. 球面扰动条件：

E(\varepsilon\varepsilon'\mid \mathbf X)=\sigma^2\mathbf I.

它包括条件同方差和条件不相关。若违反条件同方差，称为异方差；若时间序列扰动项相关，称为自相关。

5. 正态性：

\varepsilon\mid \mathbf X\sim N(0,\sigma^2\mathbf I).

正态性不是证明 BLUE 的必要条件，但它是有限样本下构造精确 $$t$$ 检验和 $$F$$ 检验的重要条件。

5. 高斯-马尔可夫定理与 BLUE

在满秩、严格外生性和球面扰动条件下，OLS 具有：

<p>E(\hat\theta\mid \mathbf X)=\theta_0,</p>

<p>\operatorname{Var}(\hat\theta\mid \mathbf X)=\sigma^2(\mathbf X'\mathbf X)^{-1}.</p>

高斯-马尔可夫定理说明：在所有线性无偏估计量中，OLS 的方差最小，即 OLS 是 BLUE，Best Linear Unbiased Estimator，最优线性无偏估计量。这里“最优”指方差矩阵意义下的最小；“线性”指估计量是 $\mathbf Y$ 的线性函数；“无偏”指条件期望等于真实参数。该定理不要求误差正态分布。

6. 拟合优度、调整

$R^2$

与模型选择

回归平方和分解为

$$<p>TSS=ESS+RSS,</p>$$

其中 $TSS=\sum(Y_i-\bar Y)^2$ ， $RSS=\sum e_i^2$ 。决定系数

<p>R^2=1-\frac{RSS}{TSS}</p>

表示样本中 $$Y$$ 的总变异有多少比例被解释变量线性解释。但 $$R^2$$ 随解释变量增加不会下降，因此不适合作为唯一模型选择准则。调整 $$R^2$$ 用自由度修正：

<p>\bar R^2=1-\frac{RSS/(n-p)}{TSS/(n-1)}</p> <p>=1-\frac{n-1}{n-p}(1-R^2).</p>

它惩罚过多变量，但仍只是经验准则。课件还介绍了 AIC 与 BIC：二者都在拟合优度和模型复杂度之间权衡，BIC 对参数个数惩罚更重，因此更倾向选择简单模型。

7. 参数假设检验：

$t$

检验与

$F$

检验

在条件正态假设下，

<p>\hat\theta-\theta_0\mid \mathbf X\sim N(0,\sigma^2(\mathbf X'\mathbf X)^{-1}).</p>

用残差方差

<p>s^2=\frac{\mathbf e'\mathbf e}{n-p}</p>

估计 $\sigma^2$ 。单个参数假设可用 $$t$$ 检验。例如检验 $H_0:\beta_j=0$ ：

<p>t=\frac{\hat\beta_j}{se(\hat\beta_j)}\sim t_{n-p}.</p>

多个线性约束写为

<p>H_0:R\theta_0=r,</p>

其中 $$R$$ 是 $J\times p$ 矩阵。对应 $$F$$ 统计量为

<p>F=\frac{(R\hat\theta-r)'[R(\mathbf X'\mathbf X)^{-1}R']^{-1}(R\hat\theta-r)/J}{s^2}</p> <p>\sim F_{J,n-p}.</p>

若用受约束与无约束残差平方和表示：

<p>F=\frac{(SSR_r-SSR_u)/J}{SSR_u/(n-p)}.</p>

检验所有解释变量联合显著性时，若共有 $$k$$ 个非截距解释变量，则

<p>F=\frac{R^2/k}{(1-R^2)/(n-k-1)}.</p>

8. 回归诊断：多重共线性、异方差、自相关

多重共线性指解释变量之间高度相关，使 $\mathbf X'\mathbf X$ 接近奇异。它不会破坏 OLS 的无偏性，但会放大方差，使单个参数估计不稳定， $$t$$ 检验不显著而整体 $$F$$ 检验显著的情况可能出现。课件中的消费函数例子说明，劳动收入和财富单独不显著，但联合显著，背后可能有近似多重共线性。

异方差指 $\operatorname{Var}(\varepsilon_i\mid \mathbf X)$ 随样本点变化。此时 OLS 仍可能无偏，但经典标准误、 $$t$$ 检验和 $$F$$ 检验失效，需要稳健标准误或 GLS。

自相关常见于时间序列，指 $\varepsilon_i$ 与 $\varepsilon_j$ 相关。若扰动项协方差矩阵为 $\sigma^2V$ 且 $$V$$ 已知，可以通过 Cholesky 分解或适当差分变换，把模型转化为满足球面扰动条件的模型。变换后的 OLS 称为广义最小二乘 GLS：

<p>\hat\theta_{GLS}=(\mathbf X'V^{-1}\mathbf X)^{-1}\mathbf X'V^{-1}\mathbf Y.</p>

GLS 在已知误差协方差结构下是 BLUE。

三、第11章核心概念

三、第11章核心概念：大数据、机器学习与统计学

1. 大数据对传统统计学的挑战

大数据具有 4V 特征：海量性 Volume、高速性 Velocity、多样性 Variety、真实性 Veracity。海量性又分为“高大数据”和“胖大数据”：前者样本容量 $$n$$ 很大且远大于变量数；后者潜在解释变量维度 $$p$$ 很高，甚至超过样本容量 $$n$$ 。大数据带来的核心挑战包括：

1. 样本大到传统统计显著性失去直觉含义。即使参数非常接近零，也可能因为标准误极小而显著，统计显著不等于经济显著。

2. 变量多导致模型不确定性上升。多个模型可能预测表现相近，微小数据扰动可能改变“最优模型”。

3. 非结构化数据增多，如文本、图片、音频、视频，需要自然语言处理、图像识别等方法把信息转化为可用变量。

4. 数据噪声与失真更突出，遗漏、重复、操纵、低信息密度都要求更强的数据清洗与归约。

2. 维数灾难

维数灾难指随着变量维度增加，特征空间体积快速膨胀，在样本量不相应指数增长时，数据点会变得极度稀疏。稀疏性使距离、邻近性、局部平均等方法失去稳定含义，也使模型更容易过拟合。高维还会增加多重共线性的概率，使模型解释困难。

解决思路包括变量选择、降维和正则化。PCA 等降维方法通过提取原变量的主要信息，把高维空间映射到低维空间；LASSO 等变量选择方法则在估计时直接把部分系数压缩为零。

3. 机器学习与统计学的异同

统计学通常从数据生成过程 DGP 出发，重视概率模型、参数估计、抽样分布、显著性检验和经济解释。机器学习则更强调从训练数据中学习可泛化的预测规则，重视损失函数、算法、样本外预测和交叉验证。

二者共同点是都承认 DGP 未知，都试图从样本中提取能推广到新样本的规律。差别在于目标函数和评价标准不同：传统统计推断常问“参数是否显著、理论是否被数据支持”；机器学习常问“模型在新数据上的预测误差是否足够小”。因此，机器学习可被看作统计思想在高维、非参数和算法化条件下的延伸。

4. 偏差-方差权衡

预测误差可分解为偏差、方差和不可约噪声。复杂模型偏差小但方差大，容易过拟合；简单模型方差小但偏差大，容易欠拟合。经典 OLS 追求在线性无偏估计量中方差最小，而机器学习更重视整体均方误差 MSE。岭回归和 LASSO 都故意引入一定偏差，以换取更低方差和更好的样本外表现。

5. 交叉验证与模型选择

交叉验证把数据分为训练集和验证集，或使用 $$K$$ 折交叉验证轮流训练与验证，以估计模型的样本外预测误差。它比只看训练集拟合优度更可靠，因为训练误差通常低估真实预测误差。在线性回归语境下，交叉验证可用于选择变量、选择多项式阶数、选择 Ridge 或 LASSO 的惩罚参数 $\lambda$ 。

6. 正则化：Ridge 与 LASSO

当变量多、共线性强或 $$p>n$$ 时，OLS 不稳定甚至无法计算。正则化通过在损失函数中加入惩罚项限制参数规模。

岭回归：

<p>\hat\beta^{ridge}=\arg\min_\beta (Y-X\beta)'(Y-X\beta)+\lambda\beta'\beta</p> <p>=(X'X+\lambda I)^{-1}X'Y.</p>

它使用 $$L_2$$ 惩罚，能缓解多重共线性，缩小系数，但通常不会把系数压成精确零。

LASSO：

<p>\hat\beta^{lasso}=\arg\min_\beta \sum_{i=1}^n(Y_i-X_i'\beta)^2+</p> <p>\lambda\sum_{j=1}^p |\beta_j|.</p>

它使用 $$L_1$$ 惩罚，能够产生稀疏解，即把许多不重要变量的系数压缩为零，因此特别适合高维变量选择。

四、关键定理与推导

定理1：OLS 正规方程

由最小化残差平方和得到：

<p>\frac{\partial}{\partial\theta}(Y-X\theta)'(Y-X\theta)=</p> <p>-2X'Y+2X'X\theta=0.</p>

所以 $X'X\hat\theta=X'Y$ 。该式也等价于 $$X'e=0$$ ，即残差与解释变量正交。

定理2：OLS 无偏性

由

<p>\hat\theta-\theta_0=(X'X)^{-1}X'\varepsilon,</p>

在 $E(\varepsilon\mid X)=0$ 下：

<p>E(\hat\theta-\theta_0\mid X)=(X'X)^{-1}X'E(\varepsilon\mid X)=0.</p>

定理3：OLS 方差

若 $E(\varepsilon\varepsilon'\mid X)=\sigma^2I$ ，则

<p>\operatorname{Var}(\hat\theta\mid X)</p> <p>=(X'X)^{-1}X'\sigma^2IX(X'X)^{-1}</p> <p>=\sigma^2(X'X)^{-1}.</p>

定理4：高斯-马尔可夫定理

在经典条件下，任意线性无偏估计量 $\tilde\theta=C'Y$ 的方差与 OLS 方差之差是半正定矩阵：

<p>\operatorname{Var}(\tilde\theta\mid X)-\operatorname{Var}(\hat\theta\mid X)\succeq0.</p>

因此 OLS 是 BLUE。

定理5：有限样本检验

若 $\varepsilon\mid X\sim N(0,\sigma^2I)$ ，则 $\hat\theta$ 条件正态，且 $$s^2$$ 与 $\hat\theta$ 独立，从而可以构造精确 $$t$$ 与 $$F$$ 分布。这就是经典线性回归中参数假设检验的概率基础。

五、关键例题

例题1：用

$R^2$

计算联合显著性检验

某消费函数回归结果为

<p>Y_i=33.88-26.00X_{1i}+6.71X_{2i}+e_i,</p>

样本量 $$n=25$$ ， $$R^2=0.742$$ ，两个解释变量分别代表劳动收入和流动性资产财富。检验

<p>H_0:\beta_1=\beta_2=0.</p>

统计量为

<p>F=\frac{R^2/2}{(1-R^2)/(25-3)}</p> <p>=\frac{0.742/2}{0.258/22}\approx31.64.</p>

若 $F_{2,22}(5\%)$ 临界值约为 4.38，则拒绝原假设。即使单个 $$t$$ 检验可能不显著，两个变量作为整体仍对消费有显著解释力。

例题2：遗漏变量检验

原模型包含 $X_1,\ldots,X_k$ ，现在怀疑遗漏了 $Z_1,\ldots,Z_q$ 。无约束模型为

<p>Y_i=\alpha+\sum_{j=1}^k\beta_jX_{ji}+\sum_{m=1}^q\gamma_mZ_{mi}+\varepsilon_i.</p>

检验

<p>H_0:\gamma_1=\cdots=\gamma_q=0.</p>

若受约束模型残差平方和为 $$SSR_r$$ ，无约束模型为 $$SSR_u$$ ，则

<p>F=\frac{(SSR_r-SSR_u)/q}{SSR_u/(n-k-q-1)}.</p>

若拒绝原假设，说明新增变量对条件均值有解释力，原模型存在遗漏变量问题。

例题3：高维回归为何需要 LASSO

当候选变量有 500 个而样本只有 100 个时， $$X'X$$ 至多秩为 100，不可能是 $500\times500$ 的满秩矩阵，OLS 无法直接估计。若相信真正重要变量只有少数几个，可使用 LASSO：

<p>\min_\beta RSS+\lambda\sum|\beta_j|.</p>

较大的 $\lambda$ 会带来更强稀疏性，较小的 $\lambda$ 更接近 OLS。实际中通常用交叉验证选择 $\lambda$ ，在预测误差和模型简洁性之间折中。

六、第12章

六、第12章：课程整体框架回顾

本课程从概率论到统计学的逻辑链条是：

1. 第1章建立经济统计学的两个公理：经济体可视为随机系统，现实数据是随机系统的实现值。

2. 第2-5章建立概率论基础，包括概率空间、随机变量、一元与多元分布、条件期望、独立性和重要分布。

3. 第6章进入统计抽样理论，说明如何从样本推断总体，并引入统计量、抽样分布和充分性原则。

4. 第7章用收敛、极限定理、大数定律、中心极限定理、Slutsky 定理和 Delta 方法建立渐近理论。

5. 第8章讨论参数估计，包括极大似然、矩估计、无偏性、方差、均方误和 Cramer-Rao 下界。

6. 第9章讨论假设检验，包括 Neyman-Pearson 引理、Wald、LM 和 LR 检验。

7. 第10章把前面所有统计推断工具应用于经典线性回归。

8. 第11章把统计思想推进到大数据、机器学习、降维、正则化、非结构化数据和样本外预测。

这条主线说明：统计学不是公式堆砌，而是一套从随机系统、观测数据、模型设定、参数估计到推断决策的完整框架。

七、复习速查表

主题	核心公式/结论	易错点
一元回归	$Y=\beta_0+\beta_1X+\varepsilon$	斜率解释为条件均值边际效应，不自动等于因果效应
矩阵模型	$Y=X\theta+\varepsilon$	$$X$$ 第一列通常是截距项 1
OLS	$\hat\theta=(X'X)^{-1}X'Y$	需要 $$X'X$$ 非奇异
正规方程	$$X'e=0$$	残差与解释变量正交，不代表扰动项与解释变量一定正交
投影矩阵	$P=X(X'X)^{-1}X'$	$$P^2=P$$ ， $$M=I-P$$
严格外生性	$E(\varepsilon_i\mid X)=0$	动态回归常不满足严格外生性
球面扰动	$E(\varepsilon\varepsilon'\mid X)=\sigma^2I$	同时包含同方差和无自相关
BLUE	OLS 在线性无偏类中方差最小	不要求正态分布
正态性	$\varepsilon\mid X\sim N(0,\sigma^2I)$	主要用于有限样本 $$t/F$$ 检验
$$R^2$$	$$1-RSS/TSS$$	加变量不会下降，不能单独用于模型选择
调整 $$R^2$$	$1-\frac{n-1}{n-p}(1-R^2)$	可能为负
$$t$$ 检验	$t=\hat\beta_j/se(\hat\beta_j)$	用于单个线性约束
$$F$$ 检验	$F=\frac{(SSR_r-SSR_u)/J}{SSR_u/(n-p)}$	用于多个线性约束
多重共线性	$$X'X$$ 接近奇异	估计方差大，单个 $$t$$ 检验可能不显著
异方差	$Var(\varepsilon_i\mid X)$ 不相同	经典标准误失效，可用稳健标准误或 GLS
自相关	$Cov(\varepsilon_i,\varepsilon_j\mid X)\neq0$	时间序列中常见
GLS	$(X'V^{-1}X)^{-1}X'V^{-1}Y$	需要知道或估计误差协方差结构
维数灾难	高维导致数据稀疏	样本量需随维度快速增长
Ridge	$RSS+\lambda\sum\beta_j^2$	缩小系数，不做硬变量选择
LASSO	$$RSS+\lambda\sum$	\beta_j	$	可产生稀疏解，适合变量选择
交叉验证	用验证误差选模型	比训练误差更接近样本外表现
统计学 vs 机器学习	推断解释 vs 预测泛化	二者共享抽样推断和 DGP 思想

课件引用

PDF一元线性回归p.3

正在渲染 PDF 第 3 页…

一元线性回归（PDF 第 3 页） · 打开原文

PDFOLS 推导p.20

正在渲染 PDF 第 20 页…

OLS 推导（PDF 第 20 页） · 打开原文

PDF高斯-马尔可夫定理p.50

正在渲染 PDF 第 50 页…

高斯-马尔可夫定理（PDF 第 50 页） · 打开原文

PDF多元回归矩阵形式p.70

正在渲染 PDF 第 70 页…

多元回归矩阵形式（PDF 第 70 页） · 打开原文

PDF回归诊断p.120

正在渲染 PDF 第 120 页…

回归诊断（PDF 第 120 页） · 打开原文

PDF大数据与机器学习p.3

正在渲染 PDF 第 3 页…

大数据与机器学习（PDF 第 3 页） · 打开原文

PDF课程框架回顾p.3

正在渲染 PDF 第 3 页…

课程框架回顾（PDF 第 3 页） · 打开原文

参考来源

洪永淼《概率论与统计学》第10-12章课件（厦门大学WISE，2024）

回归分析与前沿扩展

课件引用

参考来源