ESC
输入关键词搜索文章
目录

回归分析与前沿扩展

第 10-12 章 · 洪永淼 · XMU WISE
从经典回归到机器学习,统计推断的现代版图
一、概述
一、概述:回归分析在统计学中的核心地位

第10章到第12章把全课程从“概率论基础”推进到“统计推断与现代数据分析”。其中第10章的经典线性回归是统计学、计量经济学和机器学习共同使用的基础模型。它的核心问题是:给定一组解释变量 $X$,如何用一个可估计、可解释、可检验的函数去刻画因变量 $Y$ 的条件均值 $E(Y\mid X)$

经典线性回归模型既是预测工具,也是推断工具。若研究目标是预测,重点是拟合误差、样本外表现和模型选择;若研究目标是经济解释或假设检验,重点是参数含义、抽样分布、标准误、$t$ 检验和 $F$ 检验。洪老师课件反复强调一点:线性回归描述的是条件均值上的统计关系或预测关系,哪怕模型正确设定,也不能自动推出因果关系。因果解释必须来自经济理论、制度背景、实验设计或额外识别假设。

第11章进一步说明,大数据和机器学习并没有推翻统计学的基本思想。它们改变的是数据形态、模型复杂度和应用重点:样本容量更大、变量维度更高、非结构化数据更多、实时预测更重要。但随机抽样、样本外预测、数据归约、变量选择、因果推断等统计思想仍然适用。第12章则把这门课的主线收束为:把经济金融系统视为服从某种概率法则的随机系统,现实数据是该系统的一次实现;统计学的任务是在理论指导下,根据数据推断这个系统的规律,并用于解释、预测、检验和政策评估。

二、第10章核心概念
二、第10章核心概念:经典线性回归模型
1. 一元线性回归模型

最简单的回归模型是

$$<p>Y_i=\beta_0+\beta_1X_i+\varepsilon_i,\quad i=1,\ldots,n.</p>$$

其中 $Y_i$ 是因变量,$X_i$ 是解释变量,$\beta_0$ 是截距,$\beta_1$ 是斜率,$\varepsilon_i$ 是不可观测扰动项。若模型正确设定,则

$$<p>E(Y_i\mid X_i)=\beta_0+\beta_1X_i,</p>$$

也等价于 $E(\varepsilon_i\mid X_i)=0$。此时 $\beta_1$ 可以解释为 $X$$Y$ 条件均值的边际影响:$X$ 增加一个单位,$Y$ 的条件均值平均改变 $\beta_1$ 个单位。注意这里是“条件均值影响”,不是天然的因果效应。

2. 多元线性回归与矩阵形式

第10章更一般地考虑

$$<p>Y_i=X_i'\theta_0+\varepsilon_i</p> <p>=\alpha_0+\sum_{j=1}^k\beta_{j0}X_{ji}+\varepsilon_i,</p>$$

其中 $X_i=(1,X_{1i},\ldots,X_{ki})'$$\theta_0=(\alpha_0,\beta_{10},\ldots,\beta_{k0})'$,参数个数 $p=k+1$。写成矩阵形式:

$$<p>\mathbf Y=\mathbf X\theta_0+\varepsilon,</p>$$

其中 $\mathbf Y$$n\times1$ 向量,$\mathbf X$$n\times p$ 设计矩阵,$\varepsilon$$n\times1$ 扰动向量。矩阵形式的好处是把所有样本点统一写成一个线性代数问题,便于推导 OLS、投影矩阵、方差结构和假设检验。

3. OLS 的推导与几何解释

普通最小二乘法选择参数估计量 $\hat\theta$,使残差平方和最小:

$$<p>\hat\theta=\arg\min_\theta (\mathbf Y-\mathbf X\theta)'(\mathbf Y-\mathbf X\theta).</p>$$

展开目标函数并对 $\theta$ 求导:

$$<p>S(\theta)=\mathbf Y'\mathbf Y-2\theta'\mathbf X'\mathbf Y+</p> <p>\theta'\mathbf X'\mathbf X\theta.</p>$$

一阶条件为

$$<p>\mathbf X'\mathbf X\hat\theta=\mathbf X'\mathbf Y.</p>$$

$\mathbf X'\mathbf X$ 非奇异,即解释变量满秩,则

$$<p>\hat\theta=(\mathbf X'\mathbf X)^{-1}\mathbf X'\mathbf Y.</p>$$

几何上,$\mathbf X\hat\theta=\hat{\mathbf Y}$ 是把 $\mathbf Y$ 投影到 $\mathbf X$ 的列空间上。残差 $\mathbf e=\mathbf Y-\hat{\mathbf Y}$ 与所有解释变量列向量正交,因此 $\mathbf X'\mathbf e=0$。投影矩阵与残差生成矩阵分别为

$$<p>\mathbf P=\mathbf X(\mathbf X'\mathbf X)^{-1}\mathbf X',\quad</p> <p>\mathbf M=\mathbf I-\mathbf P,</p>$$

于是 $\hat{\mathbf Y}=\mathbf P\mathbf Y$$\mathbf e=\mathbf M\mathbf Y=\mathbf M\varepsilon$。这说明 OLS 本质上是在由解释变量张成的空间中寻找离观测向量最近的点。

4. 经典假设条件

经典线性回归理论依赖一组关键条件:

1. 线性与正确设定:条件均值可写成 $E(Y_i\mid X_i)=X_i'\theta_0$

2. 满秩条件$\mathbf X'\mathbf X$ 非奇异,解释变量之间不存在完全线性相关。

3. 严格外生性

$$E(\varepsilon_i\mid \mathbf X)=0,\quad i=1,\ldots,n.$$

它比 $E(\varepsilon_i\mid X_i)=0$ 更强,尤其在时间序列中要求扰动项不依赖全部过去、现在和未来的解释变量,因此会排除含滞后因变量的动态回归模型。

4. 球面扰动条件

$$E(\varepsilon\varepsilon'\mid \mathbf X)=\sigma^2\mathbf I.$$

它包括条件同方差和条件不相关。若违反条件同方差,称为异方差;若时间序列扰动项相关,称为自相关。

5. 正态性

$$\varepsilon\mid \mathbf X\sim N(0,\sigma^2\mathbf I).$$

正态性不是证明 BLUE 的必要条件,但它是有限样本下构造精确 $t$ 检验和 $F$ 检验的重要条件。

5. 高斯-马尔可夫定理与 BLUE

在满秩、严格外生性和球面扰动条件下,OLS 具有:

$$<p>E(\hat\theta\mid \mathbf X)=\theta_0,</p>$$
$$<p>\operatorname{Var}(\hat\theta\mid \mathbf X)=\sigma^2(\mathbf X'\mathbf X)^{-1}.</p>$$

高斯-马尔可夫定理说明:在所有线性无偏估计量中,OLS 的方差最小,即 OLS 是 BLUE,Best Linear Unbiased Estimator,最优线性无偏估计量。这里“最优”指方差矩阵意义下的最小;“线性”指估计量是 $\mathbf Y$ 的线性函数;“无偏”指条件期望等于真实参数。该定理不要求误差正态分布。

6. 拟合优度、调整 $R^2$ 与模型选择

回归平方和分解为

$$<p>TSS=ESS+RSS,</p>$$

其中 $TSS=\sum(Y_i-\bar Y)^2$$RSS=\sum e_i^2$。决定系数

$$<p>R^2=1-\frac{RSS}{TSS}</p>$$

表示样本中 $Y$ 的总变异有多少比例被解释变量线性解释。但 $R^2$ 随解释变量增加不会下降,因此不适合作为唯一模型选择准则。调整 $R^2$ 用自由度修正:

$$<p>\bar R^2=1-\frac{RSS/(n-p)}{TSS/(n-1)}</p> <p>=1-\frac{n-1}{n-p}(1-R^2).</p>$$

它惩罚过多变量,但仍只是经验准则。课件还介绍了 AIC 与 BIC:二者都在拟合优度和模型复杂度之间权衡,BIC 对参数个数惩罚更重,因此更倾向选择简单模型。

7. 参数假设检验:$t$ 检验与 $F$ 检验

在条件正态假设下,

$$<p>\hat\theta-\theta_0\mid \mathbf X\sim N(0,\sigma^2(\mathbf X'\mathbf X)^{-1}).</p>$$

用残差方差

$$<p>s^2=\frac{\mathbf e'\mathbf e}{n-p}</p>$$

估计 $\sigma^2$。单个参数假设可用 $t$ 检验。例如检验 $H_0:\beta_j=0$

$$<p>t=\frac{\hat\beta_j}{se(\hat\beta_j)}\sim t_{n-p}.</p>$$

多个线性约束写为

$$<p>H_0:R\theta_0=r,</p>$$

其中 $R$$J\times p$ 矩阵。对应 $F$ 统计量为

$$<p>F=\frac{(R\hat\theta-r)'[R(\mathbf X'\mathbf X)^{-1}R']^{-1}(R\hat\theta-r)/J}{s^2}</p> <p>\sim F_{J,n-p}.</p>$$

若用受约束与无约束残差平方和表示:

$$<p>F=\frac{(SSR_r-SSR_u)/J}{SSR_u/(n-p)}.</p>$$

检验所有解释变量联合显著性时,若共有 $k$ 个非截距解释变量,则

$$<p>F=\frac{R^2/k}{(1-R^2)/(n-k-1)}.</p>$$
8. 回归诊断:多重共线性、异方差、自相关

多重共线性指解释变量之间高度相关,使 $\mathbf X'\mathbf X$ 接近奇异。它不会破坏 OLS 的无偏性,但会放大方差,使单个参数估计不稳定,$t$ 检验不显著而整体 $F$ 检验显著的情况可能出现。课件中的消费函数例子说明,劳动收入和财富单独不显著,但联合显著,背后可能有近似多重共线性。

异方差$\operatorname{Var}(\varepsilon_i\mid \mathbf X)$ 随样本点变化。此时 OLS 仍可能无偏,但经典标准误、$t$ 检验和 $F$ 检验失效,需要稳健标准误或 GLS。

自相关常见于时间序列,指 $\varepsilon_i$$\varepsilon_j$ 相关。若扰动项协方差矩阵为 $\sigma^2V$$V$ 已知,可以通过 Cholesky 分解或适当差分变换,把模型转化为满足球面扰动条件的模型。变换后的 OLS 称为广义最小二乘 GLS:

$$<p>\hat\theta_{GLS}=(\mathbf X'V^{-1}\mathbf X)^{-1}\mathbf X'V^{-1}\mathbf Y.</p>$$

GLS 在已知误差协方差结构下是 BLUE。

三、第11章核心概念
三、第11章核心概念:大数据、机器学习与统计学
1. 大数据对传统统计学的挑战

大数据具有 4V 特征:海量性 Volume、高速性 Velocity、多样性 Variety、真实性 Veracity。海量性又分为“高大数据”和“胖大数据”:前者样本容量 $n$ 很大且远大于变量数;后者潜在解释变量维度 $p$ 很高,甚至超过样本容量 $n$。大数据带来的核心挑战包括:

1. 样本大到传统统计显著性失去直觉含义。即使参数非常接近零,也可能因为标准误极小而显著,统计显著不等于经济显著。

2. 变量多导致模型不确定性上升。多个模型可能预测表现相近,微小数据扰动可能改变“最优模型”。

3. 非结构化数据增多,如文本、图片、音频、视频,需要自然语言处理、图像识别等方法把信息转化为可用变量。

4. 数据噪声与失真更突出,遗漏、重复、操纵、低信息密度都要求更强的数据清洗与归约。

2. 维数灾难

维数灾难指随着变量维度增加,特征空间体积快速膨胀,在样本量不相应指数增长时,数据点会变得极度稀疏。稀疏性使距离、邻近性、局部平均等方法失去稳定含义,也使模型更容易过拟合。高维还会增加多重共线性的概率,使模型解释困难。

解决思路包括变量选择、降维和正则化。PCA 等降维方法通过提取原变量的主要信息,把高维空间映射到低维空间;LASSO 等变量选择方法则在估计时直接把部分系数压缩为零。

3. 机器学习与统计学的异同

统计学通常从数据生成过程 DGP 出发,重视概率模型、参数估计、抽样分布、显著性检验和经济解释。机器学习则更强调从训练数据中学习可泛化的预测规则,重视损失函数、算法、样本外预测和交叉验证。

二者共同点是都承认 DGP 未知,都试图从样本中提取能推广到新样本的规律。差别在于目标函数和评价标准不同:传统统计推断常问“参数是否显著、理论是否被数据支持”;机器学习常问“模型在新数据上的预测误差是否足够小”。因此,机器学习可被看作统计思想在高维、非参数和算法化条件下的延伸。

4. 偏差-方差权衡

预测误差可分解为偏差、方差和不可约噪声。复杂模型偏差小但方差大,容易过拟合;简单模型方差小但偏差大,容易欠拟合。经典 OLS 追求在线性无偏估计量中方差最小,而机器学习更重视整体均方误差 MSE。岭回归和 LASSO 都故意引入一定偏差,以换取更低方差和更好的样本外表现。

5. 交叉验证与模型选择

交叉验证把数据分为训练集和验证集,或使用 $K$ 折交叉验证轮流训练与验证,以估计模型的样本外预测误差。它比只看训练集拟合优度更可靠,因为训练误差通常低估真实预测误差。在线性回归语境下,交叉验证可用于选择变量、选择多项式阶数、选择 Ridge 或 LASSO 的惩罚参数 $\lambda$

6. 正则化:Ridge 与 LASSO

当变量多、共线性强或 $p>n$ 时,OLS 不稳定甚至无法计算。正则化通过在损失函数中加入惩罚项限制参数规模。

岭回归:

$$<p>\hat\beta^{ridge}=\arg\min_\beta (Y-X\beta)'(Y-X\beta)+\lambda\beta'\beta</p> <p>=(X'X+\lambda I)^{-1}X'Y.</p>$$

它使用 $L_2$ 惩罚,能缓解多重共线性,缩小系数,但通常不会把系数压成精确零。

LASSO:

$$<p>\hat\beta^{lasso}=\arg\min_\beta \sum_{i=1}^n(Y_i-X_i'\beta)^2+</p> <p>\lambda\sum_{j=1}^p |\beta_j|.</p>$$

它使用 $L_1$ 惩罚,能够产生稀疏解,即把许多不重要变量的系数压缩为零,因此特别适合高维变量选择。

四、关键定理与推导
四、关键定理与推导
定理1:OLS 正规方程

由最小化残差平方和得到:

$$<p>\frac{\partial}{\partial\theta}(Y-X\theta)'(Y-X\theta)=</p> <p>-2X'Y+2X'X\theta=0.</p>$$

所以 $X'X\hat\theta=X'Y$。该式也等价于 $X'e=0$,即残差与解释变量正交。

定理2:OLS 无偏性

$$<p>\hat\theta-\theta_0=(X'X)^{-1}X'\varepsilon,</p>$$

$E(\varepsilon\mid X)=0$ 下:

$$<p>E(\hat\theta-\theta_0\mid X)=(X'X)^{-1}X'E(\varepsilon\mid X)=0.</p>$$
定理3:OLS 方差

$E(\varepsilon\varepsilon'\mid X)=\sigma^2I$,则

$$<p>\operatorname{Var}(\hat\theta\mid X)</p> <p>=(X'X)^{-1}X'\sigma^2IX(X'X)^{-1}</p> <p>=\sigma^2(X'X)^{-1}.</p>$$
定理4:高斯-马尔可夫定理

在经典条件下,任意线性无偏估计量 $\tilde\theta=C'Y$ 的方差与 OLS 方差之差是半正定矩阵:

$$<p>\operatorname{Var}(\tilde\theta\mid X)-\operatorname{Var}(\hat\theta\mid X)\succeq0.</p>$$

因此 OLS 是 BLUE。

定理5:有限样本检验

$\varepsilon\mid X\sim N(0,\sigma^2I)$,则 $\hat\theta$ 条件正态,且 $s^2$$\hat\theta$ 独立,从而可以构造精确 $t$$F$ 分布。这就是经典线性回归中参数假设检验的概率基础。

五、关键例题
五、关键例题
例题1:用 $R^2$ 计算联合显著性检验

某消费函数回归结果为

$$<p>Y_i=33.88-26.00X_{1i}+6.71X_{2i}+e_i,</p>$$

样本量 $n=25$$R^2=0.742$,两个解释变量分别代表劳动收入和流动性资产财富。检验

$$<p>H_0:\beta_1=\beta_2=0.</p>$$

统计量为

$$<p>F=\frac{R^2/2}{(1-R^2)/(25-3)}</p> <p>=\frac{0.742/2}{0.258/22}\approx31.64.</p>$$

$F_{2,22}(5\%)$ 临界值约为 4.38,则拒绝原假设。即使单个 $t$ 检验可能不显著,两个变量作为整体仍对消费有显著解释力。

例题2:遗漏变量检验

原模型包含 $X_1,\ldots,X_k$,现在怀疑遗漏了 $Z_1,\ldots,Z_q$。无约束模型为

$$<p>Y_i=\alpha+\sum_{j=1}^k\beta_jX_{ji}+\sum_{m=1}^q\gamma_mZ_{mi}+\varepsilon_i.</p>$$

检验

$$<p>H_0:\gamma_1=\cdots=\gamma_q=0.</p>$$

若受约束模型残差平方和为 $SSR_r$,无约束模型为 $SSR_u$,则

$$<p>F=\frac{(SSR_r-SSR_u)/q}{SSR_u/(n-k-q-1)}.</p>$$

若拒绝原假设,说明新增变量对条件均值有解释力,原模型存在遗漏变量问题。

例题3:高维回归为何需要 LASSO

当候选变量有 500 个而样本只有 100 个时,$X'X$ 至多秩为 100,不可能是 $500\times500$ 的满秩矩阵,OLS 无法直接估计。若相信真正重要变量只有少数几个,可使用 LASSO:

$$<p>\min_\beta RSS+\lambda\sum|\beta_j|.</p>$$

较大的 $\lambda$ 会带来更强稀疏性,较小的 $\lambda$ 更接近 OLS。实际中通常用交叉验证选择 $\lambda$,在预测误差和模型简洁性之间折中。

六、第12章
六、第12章:课程整体框架回顾

本课程从概率论到统计学的逻辑链条是:

1. 第1章建立经济统计学的两个公理:经济体可视为随机系统,现实数据是随机系统的实现值。

2. 第2-5章建立概率论基础,包括概率空间、随机变量、一元与多元分布、条件期望、独立性和重要分布。

3. 第6章进入统计抽样理论,说明如何从样本推断总体,并引入统计量、抽样分布和充分性原则。

4. 第7章用收敛、极限定理、大数定律、中心极限定理、Slutsky 定理和 Delta 方法建立渐近理论。

5. 第8章讨论参数估计,包括极大似然、矩估计、无偏性、方差、均方误和 Cramer-Rao 下界。

6. 第9章讨论假设检验,包括 Neyman-Pearson 引理、Wald、LM 和 LR 检验。

7. 第10章把前面所有统计推断工具应用于经典线性回归。

8. 第11章把统计思想推进到大数据、机器学习、降维、正则化、非结构化数据和样本外预测。

这条主线说明:统计学不是公式堆砌,而是一套从随机系统、观测数据、模型设定、参数估计到推断决策的完整框架。

七、复习速查表
七、复习速查表
主题核心公式/结论易错点
一元回归$Y=\beta_0+\beta_1X+\varepsilon$斜率解释为条件均值边际效应,不自动等于因果效应
矩阵模型$Y=X\theta+\varepsilon$$X$ 第一列通常是截距项 1
OLS$\hat\theta=(X'X)^{-1}X'Y$需要 $X'X$ 非奇异
正规方程$X'e=0$残差与解释变量正交,不代表扰动项与解释变量一定正交
投影矩阵$P=X(X'X)^{-1}X'$$P^2=P$$M=I-P$
严格外生性$E(\varepsilon_i\mid X)=0$动态回归常不满足严格外生性
球面扰动$E(\varepsilon\varepsilon'\mid X)=\sigma^2I$同时包含同方差和无自相关
BLUEOLS 在线性无偏类中方差最小不要求正态分布
正态性$\varepsilon\mid X\sim N(0,\sigma^2I)$主要用于有限样本 $t/F$ 检验
$R^2$$1-RSS/TSS$加变量不会下降,不能单独用于模型选择
调整 $R^2$$1-\frac{n-1}{n-p}(1-R^2)$可能为负
$t$ 检验$t=\hat\beta_j/se(\hat\beta_j)$用于单个线性约束
$F$ 检验$F=\frac{(SSR_r-SSR_u)/J}{SSR_u/(n-p)}$用于多个线性约束
多重共线性$X'X$ 接近奇异估计方差大,单个 $t$ 检验可能不显著
异方差$Var(\varepsilon_i\mid X)$ 不相同经典标准误失效,可用稳健标准误或 GLS
自相关$Cov(\varepsilon_i,\varepsilon_j\mid X)\neq0$时间序列中常见
GLS$(X'V^{-1}X)^{-1}X'V^{-1}Y$需要知道或估计误差协方差结构
维数灾难高维导致数据稀疏样本量需随维度快速增长
Ridge$RSS+\lambda\sum\beta_j^2$缩小系数,不做硬变量选择
LASSO$RSS+\lambda\sum\beta_j$可产生稀疏解,适合变量选择
交叉验证用验证误差选模型比训练误差更接近样本外表现
统计学 vs 机器学习推断解释 vs 预测泛化二者共享抽样推断和 DGP 思想

课件引用

PDF一元线性回归p.3
正在渲染 PDF 第 3 页…
一元线性回归(PDF 第 3 页) · 打开原文

PDFOLS 推导p.20
正在渲染 PDF 第 20 页…
OLS 推导(PDF 第 20 页) · 打开原文

PDF高斯-马尔可夫定理p.50
正在渲染 PDF 第 50 页…
高斯-马尔可夫定理(PDF 第 50 页) · 打开原文

PDF多元回归矩阵形式p.70
正在渲染 PDF 第 70 页…
多元回归矩阵形式(PDF 第 70 页) · 打开原文

PDF回归诊断p.120
正在渲染 PDF 第 120 页…
回归诊断(PDF 第 120 页) · 打开原文

PDF大数据与机器学习p.3
正在渲染 PDF 第 3 页…
大数据与机器学习(PDF 第 3 页) · 打开原文

PDF课程框架回顾p.3
正在渲染 PDF 第 3 页…
课程框架回顾(PDF 第 3 页) · 打开原文

参考来源

  • 洪永淼《概率论与统计学》第10-12章课件(厦门大学WISE,2024)