ESC
输入关键词搜索文章
目录

线性模型与核方法

高级机器学习 · L02
先在线性空间站稳,再用核方法弯向非线性
8核心概念
3完整推导
10课件引用
5参考来源
Part 0 · 学习目标
本节在课程中的位置

从线性回归出发,逐步构建完整的线性模型体系:基函数→回归→分类→SVM→核方法→结构化输出。理解"线性"真正限制的是参数组织方式而非表达能力,掌握最大间隔原理和核技巧的数学动机。

从课程脉络看:L01 定义了监督学习问题,L02 给出它的第一个具体答案族——判别式线性模型。L03 会从生成式角度重写同一个分类问题。

前置知识回顾

  • 线性代数:矩阵乘法、逆矩阵、特征分解。作用:最小二乘解 $w_{ML}=(\Phi^T\Phi)^{-1}\Phi^T t$ 需要矩阵运算。去哪里补:线性代数课程。
  • 概率论:高斯分布、条件概率、贝叶斯定理。作用:逻辑回归和生成式分类都需要概率解释。去哪里补:L01 MLE/MAP。
  • 凸优化:拉格朗日乘子法、KKT 条件。作用:SVM 的原始问题和对偶问题都以约束优化为核心。去哪里补:凸优化基础。
Part 1 · 背景问题
为什么"线性"并不弱

很多人第一次学线性模型时觉得它太简单。但这恰好错过了重点:所谓线性,首先是对参数的线性,而不是对输入空间的僵化限制。模型 $y(x,\mathbf{w}) = w_0 + w_1 x + w_2 x^2 + \cdots + w_M x^M$ 虽然能拟合多项式曲线,但参数 $w_i$ 仍然以线性形式出现。关键在于选择合适的基函数 $\phi(x)$ 来变换输入空间。

"线性模型"真正限制的是参数组织方式,不是你能不能做非线性分类。
Part 2 · 概念定义
基函数与统一形式

线性模型的统一形式

引入基函数 $\phi(x)$ 后,线性模型统一写成:

$$y(x, \mathbf{w}) = \mathbf{w}^T \phi(x) = \sum_{j=0}^{M-1} w_j \phi_j(x)$$

其中 $\phi_0(x) = 1$(偏置项)。

基函数类型形式特点
恒等基函数$\phi(x) = x$不做变换,最简单
多项式基函数$\phi_j(x) = x^j$全局影响,高次不稳定
高斯(径向)基函数$\phi_j(x) = \exp\!\left(-\frac{(x-\mu_j)^2}{2s^2}\right)$局部影响,适合插值
反曲(Sigmoid)基函数$\phi_j(x) = \sigma\!\left(\frac{x-\mu_j}{s}\right)$与神经网络激活函数同族
PDF基函数类型表p.6

机器学习/25C02_线性模型与核方法.pdf · p.6

打开原文

Part 3 · 推导与结构
线性回归:从 MLE 到最小二乘

线性回归的参数估计不是拍脑袋设计,而是可以从概率假设推导出来:

推导链:高斯噪声 → MLE → 平方和误差

  1. 假设:目标值 $t = y(x,\mathbf{w}) + \epsilon$,其中 $\epsilon \sim \mathcal{N}(0, \beta^{-1})$
  2. 似然函数$p(\mathbf{t}|X,\mathbf{w},\beta) = \prod_{i=1}^N \mathcal{N}(t_i | \mathbf{w}^T\phi(x_i), \beta^{-1})$
  3. 对数似然$\ln p = \frac{N}{2}\ln\beta - \frac{N}{2}\ln(2\pi) - \beta \cdot E_D(\mathbf{w})$
  4. 平方和误差函数$E_D(\mathbf{w}) = \frac{1}{2}\sum_{i=1}^N \{t_i - \mathbf{w}^T\phi(x_i)\}^2$
  5. 最大化对数似然等价于最小化 $E_D(\mathbf{w})$
  6. 解析解$\mathbf{w}_{ML} = (\Phi^T\Phi)^{-1}\Phi^T\mathbf{t}$,其中 $\Phi$ 是设计矩阵(每行为 $\phi(x_i)^T$)。

这条推导链的结论是:最小二乘法不是拍脑袋设计,而是高斯噪声假设 + MLE 的自然结果。

PDF线性回归与平方和误差p.10

机器学习/25C02_线性模型与核方法.pdf · p.10

打开原文

PDF解析解推导p.11

机器学习/25C02_线性模型与核方法.pdf · p.11

打开原文

PDF线性回归推导p.10
正在渲染 PDF 第 10 页…
线性回归推导(PDF 第 10 页) · 打开原文
Part 3 续 · 逻辑回归
从回归到分类

线性回归输出连续值,分类需要离散标签。逻辑回归用 sigmoid 函数 $\sigma(a) = \frac{1}{1+\exp(-a)}$ 把线性输出压缩到 $[0,1]$ 区间,解释为后验概率:

$$p(C_1|\phi) = \sigma(\mathbf{w}^T\phi)$$

对二分类问题,负对数似然(交叉熵误差函数)为:

$$E(\mathbf{w}) = -\sum_{i=1}^N \{t_i \ln y_i + (1-t_i)\ln(1-y_i)\}$$

这个误差函数关于 $\mathbf{w}$ 不再有解析解,需要用迭代优化(梯度下降或 Newton-Raphson/IRLS)。

PDF逻辑回归与最大似然p.20

机器学习/25C02_线性模型与核方法.pdf · p.20

打开原文

PDFIRLS 迭代p.22

机器学习/25C02_线性模型与核方法.pdf · p.22

打开原文

Part 3 续 · SVM
最大间隔与对偶问题

SVM 切换到另一种视角:不再追求概率解释,而是追求分类边界的最大间隔(Maximum Margin)。

SVM 原始优化问题

$$\min_{\mathbf{w},b} \frac{1}{2}\mathbf{w}^T\mathbf{w} \quad \text{s.t.} \quad t_n(\mathbf{w}^T\phi(\mathbf{x}_n)+b) \geq 1, \quad n=1,\ldots,N$$

通过拉格朗日乘子法转化为对偶问题后,目标函数中只出现内积 $\phi(\mathbf{x}_n)^T\phi(\mathbf{x}_m)$

SVM 对偶问题

$$\max_{\mathbf{a}} \sum_n a_n - \frac{1}{2}\sum_n\sum_m a_n a_m t_n t_m k(\mathbf{x}_n, \mathbf{x}_m)$$
$$\text{s.t.} \quad a_n \geq 0, \quad \sum_n a_n t_n = 0$$

其中核函数 $k(\mathbf{x}_n,\mathbf{x}_m) = \phi(\mathbf{x}_n)^T\phi(\mathbf{x}_m)$

大多数 $a_n = 0$,只有少数 $a_n > 0$ 的样本成为支撑向量——它们恰好落在间隔边界上,决定了分类器的最终形态。

软间隔 SVM 引入松弛变量 $\xi_n \geq 0$ 和惩罚因子 $C$

$$\min_{\mathbf{w},b,\boldsymbol{\xi}} \frac{1}{2}\mathbf{w}^T\mathbf{w} + C\sum_n \xi_n \quad \text{s.t.} \quad t_n(\mathbf{w}^T\phi(\mathbf{x}_n)+b) \geq 1 - \xi_n$$
核技巧的本质:通过核函数 $k(\mathbf{x},\mathbf{x}')$ 直接计算高维特征空间中的内积,无需显式构造 $\phi(\mathbf{x})$。这使得线性方法可以"隐式地"处理非线性问题。
PDF最大间隔分类器p.37

机器学习/25C02_线性模型与核方法.pdf · p.37

打开原文

PDFSVM 对偶与核方法p.41

机器学习/25C02_线性模型与核方法.pdf · p.41

打开原文

PDF软间隔 SVMp.43

机器学习/25C02_线性模型与核方法.pdf · p.43

打开原文

Part 3 续 · 结构化 SVM
从分类标签到结构化输出

标准 SVM 输出单个类别标签。结构化 SVM 把输出扩展为结构 $\mathbf{y} \in \mathcal{Y}$(序列、树、图),判别函数变为:

$$F(\mathbf{x},\mathbf{y};\mathbf{w}) = \langle \mathbf{w}, \Psi(\mathbf{x},\mathbf{y}) \rangle, \quad f(\mathbf{x};\mathbf{w}) = \arg\max_{\mathbf{y}\in\mathcal{Y}} F(\mathbf{x},\mathbf{y};\mathbf{w})$$

这是 L03 条件随机场(CRF)的重要前驱。

PDF结构化 SVMp.49

机器学习/25C02_线性模型与核方法.pdf · p.49

打开原文

Part 4 · 性质与比较
模型对比与选择
模型建模对象损失函数关键特点
线性回归连续输出平方和误差(来自 MLE)有解析解
逻辑回归后验概率 $p(C_1|\phi)$交叉熵输出可解释为概率
SVM分类边界Hinge loss最大间隔,稀疏(支撑向量)
核方法隐式高维特征同上非线性边界但保留线性优化结构
结构化 SVM结构化输出结构化 Hinge loss输出为序列/树/图
生成式 vs 判别式:逻辑回归直接建模 $p(y|x)$(判别式);若改为建模 $p(x|y)p(y)$ 再用贝叶斯定理推导 $p(y|x)$(生成式),在类条件密度为共协方差高斯时,两者给出相同的线性决策边界。L03 会展开生成式路线。
Part 5 · 例题与应用
例 1:核技巧为什么能做非线性分类

例题:核函数的性质验证

题目:已知 $k_1(\mathbf{x},\mathbf{y})$$k_2(\mathbf{x},\mathbf{y})$ 是有效核函数(即对应的 Gram 矩阵半正定)。证明 $k(\mathbf{x},\mathbf{y}) = k_1(\mathbf{x},\mathbf{y}) + k_2(\mathbf{x},\mathbf{y})$$k(\mathbf{x},\mathbf{y}) = c \cdot k_1(\mathbf{x},\mathbf{y})$$c > 0$)也是有效核函数。

  1. 加法:Gram 矩阵 $K = K_1 + K_2$。两个半正定矩阵之和仍半正定(对任意向量 $\mathbf{v}$$\mathbf{v}^T K\mathbf{v} = \mathbf{v}^T K_1\mathbf{v} + \mathbf{v}^T K_2\mathbf{v} \geq 0$)。
  2. 正数乘$K = c \cdot K_1$$\mathbf{v}^T K\mathbf{v} = c \cdot \mathbf{v}^T K_1\mathbf{v} \geq 0$(因为 $c > 0$)。

答案:核函数在加法和正数乘法下封闭。这意味着可以从简单核函数组合出复杂核函数。

易错点:别把"核方法"理解成又换了一个模型。核技巧不改变模型本身,它改变了样本之间相似性的度量方式。
Part 5 续 · 例题与应用
例 2:SVM 对偶问题的直觉

例题:为什么大多数 $a_n = 0$

题目:在对偶问题中,为什么只有少数样本会成为支撑向量($a_n > 0$)?

  1. 约束条件$t_n(\mathbf{w}^T\phi(\mathbf{x}_n)+b) \geq 1$。大多数样本满足严格大于 1,远离间隔边界。
  2. KKT 条件$a_n \cdot [t_n(\mathbf{w}^T\phi(\mathbf{x}_n)+b) - 1] = 0$。当约束严格满足($>1$)时,$a_n$ 必须为 0。
  3. 支撑向量:只有恰好落在间隔边界上的样本($t_n(\mathbf{w}^T\phi(\mathbf{x}_n)+b) = 1$),才有 $a_n > 0$

答案:SVM 的稀疏性来自 KKT 互补松弛条件——绝大多数样本对分类器没有贡献,决策边界完全由边界上的少数关键样本决定。

易错点:支撑向量不是"最重要的样本",而是"恰好落在间隔边界上的样本"。删除一个非支撑向量的训练样本不会改变模型。
Part 6 · 后续章节
这一讲把后面哪些内容撑起来

后续用途 / 连接

  • L03 贝叶斯分类:生成式模型建模 $p(x|y)p(y)$,当类条件密度为共协方差高斯时退化为线性判别——与 L02 的逻辑回归殊途同归。
  • L04 集成学习:SVM 的间隔理论与 Boosting 的 margin 分析有深层联系。
  • L07 神经网络:多层感知机可以看作"基函数 $\phi(x)$ 也从数据中学习"的极致推广。
  • L08 Transformer:注意力矩阵的 softmax 操作与逻辑回归的 sigmoid 有相似的概率解释。

复习速查

  • 基函数$\phi(x)$ 把线性模型推广到非线性输入空间。
  • 线性回归:高斯噪声 + MLE → 平方和误差 → $\mathbf{w}_{ML}=(\Phi^T\Phi)^{-1}\Phi^T\mathbf{t}$
  • 逻辑回归:sigmoid + 交叉熵,输出可解释为概率。
  • SVM:最大间隔 → 对偶问题 → 支撑向量稀疏性。
  • 核技巧:用 $k(\mathbf{x},\mathbf{x}')$ 隐式计算高维内积,保持线性优化结构。
  • 结构化 SVM:输出从标签扩展为结构,是 CRF 的判别式前驱。

参考来源

  • 课程课件:25C02 第 3–7 页(线性/非线性定义、基函数)
  • 课程课件:25C02 第 10–11 页(线性回归推导)
  • 课程课件:25C02 第 20–22 页(逻辑回归)
  • 课程课件:25C02 第 37–43 页(SVM、对偶、核方法、软间隔)
  • 课程课件:25C02 第 49–50 页(结构化 SVM)
  • Oxford ML Lecture 9(https://www.cs.ox.ac.uk/people/varun.kanade/teaching/ML-MT2016/lectures/lecture09.pdf)
  • Burges, A Tutorial on Support Vector Machines for Pattern Recognition (1998)