高级机器学习｜课程笔记中枢页

2026/05/28 01:28:18

Overview · 组织说明

这套笔记怎么读

这组页面围绕《高级机器学习》课程的 8 讲课件与 1 份考核说明展开。它不按“背结论”的方式拆课，而是尽量把整门课重新整理成一条从经典统计学习走向深度表示学习的连续链路：先问什么叫学习，再看线性判别与概率生成，然后进入集成、稀疏、采样，最后抵达神经网络与注意力模型。

主线：先定义学习问题 → 再理解判别式与生成式建模 → 再看高维稀疏与随机近似 → 最后进入深度表示与注意力结构。

前置知识回顾

线性代数：向量、矩阵、特征分解。作用：支撑线性模型、SVD、注意力矩阵计算。
概率论：条件概率、期望、方差、随机变量。作用：支撑贝叶斯分类与采样方法。
优化方法：凸优化、拉格朗日乘子、梯度下降。作用：支撑 SVM、逻辑回归、神经网络训练。
信号与系统：若理解压缩感知，会更容易把“稀疏表示”看成结构假设而非技巧。

🧭 讲次索引

L01 · 课程开篇

人工智能与机器学习引论

什么是机器学习、为什么学习、怎么评价学习器

核心问题：机器学习不是算法清单，而是任务、性能与经验之间的关系建模

T/P/E 三要素
监督/无监督/强化学习
泛化与过拟合
NFL 定理

L02 · 判别骨架

线性模型与核方法

线性回归、逻辑回归、SVM 与核方法的统一视角

核心问题：为什么“线性”并不意味着模型表达力弱，关键在特征映射和间隔设计

线性回归与 MLE
逻辑回归
SVM
核技巧

L03 · 概率世界

贝叶斯分类与概率图模型

贝叶斯分类、概率图模型、HMM、CRF 与推理算法

核心问题：当不确定性无法回避时，概率是最自然的表示语言

贝叶斯定理
朴素贝叶斯
图模型
HMM / CRF

L04 · 模型集成

集成学习与随机森林

Boosting、Bagging 与随机森林

核心问题：好模型不一定单独最强，但它们可以组合成更稳的系统

好而不同
AdaBoost
Bagging
随机森林

L05 · 稀疏先验

压缩感知

压缩感知、RIP、字典学习与稀疏表示分类

核心问题：当信号本身是稀疏的，采样定理和重建策略都可以重写

稀疏性
RIP
ℓ1 重建
SRC

L06 · 随机逼近

采样方法与蒙特卡罗方法

逆变换采样、拒绝采样、重要采样与 MCMC

核心问题：很多期望算不出来，但可以被样本平均逼近出来

逆变换采样
拒绝采样
MH
Gibbs

L07 · 深度表示

神经网络模型

神经元、网络层、反向传播、CNN 与 RNN

核心问题：神经网络的力量来自可组合的非线性表示，而不是“神秘感”

前馈网络
激活函数
反向传播
卷积与循环

L08 · 注意力转向

深度注意力模型

注意力机制、Transformer 与大模型

核心问题：让模型学会“看哪里”，本质上是在重组信息依赖图

自注意力
位置编码
编码器/解码器
Transformer

Guide · 考核说明

课程考核要求指南

作业、项目、选题与交付要求

核心问题：先理解边界条件，后面做报告和实验才不会偏航

成绩构成
任务分解
数据集要求
交付规范

🗺️ 三条复习主线

主线一：什么叫学习

L01 → L02 → L03。先把任务、性能与经验说清楚，再分别看判别式和生成式建模怎样落地。

主线二：高维问题怎么做近似

L04 → L05 → L06。一个从模型集成、稀疏表示到随机采样的“复杂问题降维”路线。

主线三：表示学习如何接管主场

L07 → L08。神经网络先学习层级表示，Transformer 再重写长依赖信息流。

📚 参考来源

西安交通大学《高级机器学习》课程课件（25C01–25C09）
Christopher Bishop, Pattern Recognition and Machine Learning
Ian Goodfellow, Yoshua Bengio, Aaron Courville, Deep Learning
D2L, scikit-learn 文档，以及公开课程讲义，用于补足定义、推导直觉和现代术语