人工智能与机器学习引论
这一讲解决的不是"哪个模型更强",而是"什么问题才算学习问题"。先把任务、性能和经验三件事讲清楚,再把监督/无监督/强化学习放进统一框架。然后引入泛化、过拟合、NFL 定理和参数估计(MLE/MAP),为后面所有章节奠定评价基础。
前置知识回顾
- 概率论:条件概率、贝叶斯定理、期望与方差。作用:理解泛化误差的 i.i.d. 假设和 MLE/MAP 的推导起点。去哪里补:概率论课程或 L03 贝叶斯分类。
- 线性代数:向量、矩阵运算。作用:样本在数学上就是特征向量,模型参数就是权向量。去哪里补:线性代数课程。
- 优化理论:目标函数、梯度、约束。作用:后面所有训练算法都会回到"最小化某个目标函数"。去哪里补:凸优化基础。
课程从"什么是智能"出发:人类智能的核心之一是学习能力——能从经验中改进行为。如果机器也能做到这件事,那它就具备了一种基本的"智能"。但这个能力不是天上掉下来的:它需要明确的任务定义、性能指标和经验来源。
课件特别强调了一个关键问题:深度学习已经这么强了,为什么还要学传统方法?答案是:传统方法提供的数学骨架(概率建模、优化框架、泛化理论)是理解深度学习为什么有效的前提,而不是过时的备选方案。
Mitchell 的机器学习定义(1997)
一个计算机程序被称为从经验 E 中学习,是关于某个任务 T 的,且由性能度量 P 衡量——如果它在 T 上的性能(由 P 衡量)随着 E 的增加而改善。
- 任务 T:系统要完成的映射或决策。例如分类、回归、聚类、密度估计。
- 性能 P:评价任务完成得如何的度量。分类用准确率,回归用均方误差,概率估计用 KL 散度。
- 经验 E:促使性能改进的数据或交互过程。监督学习的经验是标注数据集,强化学习的经验是奖励信号。
基于反馈结构的不同,学习范式分为三类:
| 范式 | 反馈形式 | 典型任务 | 课程对应 |
|---|---|---|---|
| 监督学习 | 标注数据、直接反馈 | 分类、回归 | L02–L04 |
| 无监督学习 | 无标签、发现隐藏结构 | 聚类、降维、密度估计 | L05(稀疏结构) |
| 强化学习 | 奖励信号、延迟反馈 | 策略优化、序列决策 | 本课程不深入 |
课件还补充了弱监督学习的三种形式:不完全监督(部分有标签)、不确切监督(粗粒度标签)、不精确监督(标签有噪声)。
模型在训练集上表现好不代表它在未见数据上也好。泛化能力(Generalization)衡量的是模型在新样本上的表现,它才是最终关心的指标。
训练/验证/测试三集合划分
数据集 $D$ 被划分为互斥的三部分:
- 训练集:用于拟合模型参数。
- 验证集:用于选择超参数、防止过拟合。
- 测试集:只在最终评估时使用一次,反映泛化误差。
K-折交叉验证将数据分成 $K$ 份,每次用 $K-1$ 份训练、1 份测试,循环 $K$ 次后取平均性能。这在数据量有限时特别有用。
| 概念 | 含义 | 与模型容量的关系 |
|---|---|---|
| 欠拟合 | 训练误差大、测试误差也大 | 容量太低,模型连训练规律都没学到 |
| 过拟合 | 训练误差小、测试误差大 | 容量太高,模型记住了训练噪声 |
| 泛化 | 在新样本上的表现 | 目标:找到训练与泛化的平衡点 |
最大似然估计 (MLE)
给定观测数据 $\{x_1, \ldots, x_N\}$,假设它们独立同分布于 $p(x|\theta)$,则似然函数为:
取对数后最大化:
MLE 完全由数据驱动,不引入任何先验假设。
最大后验估计 (MAP)
引入参数先验 $p(\theta)$ 后,最大化后验概率:
MAP = 似然项 + 先验项。先验的作用是正则化:当数据不足时,先验引导参数不要走极端。
NFL 定理 (Wolpert, 1996)
对所有可能的目标函数求平均后,任何两个学习算法在测试集上的期望误差完全相同。换句话说:脱离具体问题的分布假设,不存在普适最优的学习算法。
NFL 的实际含义不是"所有算法都一样",而是提醒我们:算法的优劣取决于它对问题分布的假设是否与真实数据匹配。这就是为什么先验知识(数据的结构、物理约束、领域经验)在选择模型时至关重要。
课件还引入了奥卡姆剃刀原则:"如无必要,勿增实体"——在多个模型都能解释数据时,优先选更简单的那个。这与 MAP 中正则化的思想完全一致。
| 阶段 | 核心思想 | 代表工作 |
|---|---|---|
| 逻辑推理(1950s–70s) | 符号操作与规则系统 | 专家系统、定理证明 |
| 知识工程(1970s–90s) | 人工编码领域知识 | 知识库、本体论 |
| 统计学习(1990s–2010s) | 从数据中学习统计模型 | SVM、随机森林、概率图模型 |
| 深度学习(2010s–至今) | 端到端学习层级表示 | CNN、Transformer、大模型 |
课程覆盖的阶段主要在第三和第四阶段,但第一阶段(逻辑与规则)在 L03 概率图模型的推理部分仍有回响。
例题:把一个学习场景写成 T/P/E
题目:给定一个邮件过滤系统,输入为邮件内容,输出为"垃圾邮件 / 非垃圾邮件"。写出 T/P/E 并判断这是哪种学习范式。
- 任务 T:二分类——将邮件映射到 $\{$垃圾, 正常$\}$。
- 性能 P:准确率、召回率、F1 分数均可。
- 经验 E:带标签的历史邮件集合(标注了每封邮件是否为垃圾邮件)。
答案:有标注数据、直接反馈、预测离散输出 → 监督学习范式。
例题:抛硬币的参数估计
题目:抛硬币 10 次,出现 7 次正面。用 MLE 和 MAP(Beta 先验 $\alpha=\beta=2$)分别估计正面概率 $\theta$。
- MLE:$\theta_{\mathrm{MLE}} = \frac{7}{10} = 0.7$。完全由数据决定。
- MAP:加入 Beta(2,2) 先验后,$\theta_{\mathrm{MAP}} = \frac{7+2-1}{10+2+2-2} = \frac{8}{12} \approx 0.667$。先验把估计从 0.7 拉回了 0.667。
答案:MAP 的估计值被先验"正则化"了——先验相当于在观测之前先抛了 2 次正面、2 次反面,避免在少量数据时做出极端估计。
后续用途 / 连接
- L02 线性模型:线性回归的参数估计直接使用 MLE(在高斯噪声假设下,MLE 给出最小二乘解)。
- L03 贝叶斯分类:贝叶斯定理是 MAP 的推广——不只是估计参数,而是推断整个后验分布。
- L04 集成学习:"好而不同"是对 NFL 的实践回应——既然没有万能算法,就用多个互补模型覆盖。
复习速查
- T/P/E:任务、性能、经验三要素定义了学习问题。
- 监督/无监督/强化:三种反馈结构,不是三种互不相关的算法族。
- 泛化 vs 训练:训练误差低不代表模型可用,泛化才是最终目标。
- MLE:纯数据驱动,$\theta_{\mathrm{MLE}} = \arg\max_\theta \sum \ln p(x_i|\theta)$。
- MAP:似然 + 先验,$\theta_{\mathrm{MAP}} = \arg\max_\theta [\sum \ln p(x_i|\theta) + \ln p(\theta)]$。
- NFL:脱离具体问题分布,不存在万能算法——先验知识是模型选择的关键。
参考来源
- 课程课件:25C01 第 41–42 页(机器学习定义与三要素)
- 课程课件:25C01 第 55 页(性能度量 P)
- 课程课件:25C01 第 59 页(学习范式分类)
- 课程课件:25C01 第 65 页(发展阶段)
- 课程课件:25C01 第 73–76 页(交叉验证、过拟合与欠拟合)
- 课程课件:25C01 第 91–93 页(NFL 与奥卡姆剃刀)
- Christopher Bishop, Pattern Recognition and Machine Learning, Ch. 1
- IIT Delhi EEL709 课程页(https://web.iitd.ac.in/~sumeet/eel709_15.html)