人工智能与机器学习引论

2026/05/28 01:28:18

课程机器学习·11 min read

高级机器学习机器学习引论泛化 NFL MLE MAP

Part 0 · 学习目标

本节在课程中的位置

这一讲解决的不是"哪个模型更强"，而是"什么问题才算学习问题"。先把任务、性能和经验三件事讲清楚，再把监督/无监督/强化学习放进统一框架。然后引入泛化、过拟合、NFL 定理和参数估计（MLE/MAP），为后面所有章节奠定评价基础。

前置知识回顾

概率论：条件概率、贝叶斯定理、期望与方差。作用：理解泛化误差的 i.i.d. 假设和 MLE/MAP 的推导起点。去哪里补：概率论课程或 L03 贝叶斯分类。
线性代数：向量、矩阵运算。作用：样本在数学上就是特征向量，模型参数就是权向量。去哪里补：线性代数课程。
优化理论：目标函数、梯度、约束。作用：后面所有训练算法都会回到"最小化某个目标函数"。去哪里补：凸优化基础。

Part 1 · 背景问题

从智能到学习

课程从"什么是智能"出发：人类智能的核心之一是学习能力——能从经验中改进行为。如果机器也能做到这件事，那它就具备了一种基本的"智能"。但这个能力不是天上掉下来的：它需要明确的任务定义、性能指标和经验来源。

课件特别强调了一个关键问题：深度学习已经这么强了，为什么还要学传统方法？答案是：传统方法提供的数学骨架（概率建模、优化框架、泛化理论）是理解深度学习为什么有效的前提，而不是过时的备选方案。

PDF基础方法与最新方法的关系p.6

机器学习/25C01_人工智能与机器学习引论.pdf · p.6

打开原文

Part 2 · 概念定义

T/P/E 三要素与学习范式

Mitchell 的机器学习定义（1997）

一个计算机程序被称为从经验 E 中学习，是关于某个任务 T 的，且由性能度量 P 衡量——如果它在 T 上的性能（由 P 衡量）随着 E 的增加而改善。

任务 T：系统要完成的映射或决策。例如分类、回归、聚类、密度估计。
性能 P：评价任务完成得如何的度量。分类用准确率，回归用均方误差，概率估计用 KL 散度。
经验 E：促使性能改进的数据或交互过程。监督学习的经验是标注数据集，强化学习的经验是奖励信号。

基于反馈结构的不同，学习范式分为三类：

范式	反馈形式	典型任务	课程对应
监督学习	标注数据、直接反馈	分类、回归	L02–L04
无监督学习	无标签、发现隐藏结构	聚类、降维、密度估计	L05（稀疏结构）
强化学习	奖励信号、延迟反馈	策略优化、序列决策	本课程不深入

课件还补充了弱监督学习的三种形式：不完全监督（部分有标签）、不确切监督（粗粒度标签）、不精确监督（标签有噪声）。

PDFT/P/E 三要素p.42

机器学习/25C01_人工智能与机器学习引论.pdf · p.42

打开原文

PDF学习范式分类p.59

机器学习/25C01_人工智能与机器学习引论.pdf · p.59

打开原文

一句话理解：判断一个场景是不是机器学习问题，先问三件事——任务是什么、指标是什么、经验从哪来。

Part 3 · 推导与结构

泛化、过拟合与评价方法

模型在训练集上表现好不代表它在未见数据上也好。泛化能力（Generalization）衡量的是模型在新样本上的表现，它才是最终关心的指标。

训练/验证/测试三集合划分

数据集 $$D$$ 被划分为互斥的三部分：

训练集：用于拟合模型参数。
验证集：用于选择超参数、防止过拟合。
测试集：只在最终评估时使用一次，反映泛化误差。

K-折交叉验证将数据分成 $$K$$ 份，每次用 $$K-1$$ 份训练、1 份测试，循环 $$K$$ 次后取平均性能。这在数据量有限时特别有用。

概念	含义	与模型容量的关系
欠拟合	训练误差大、测试误差也大	容量太低，模型连训练规律都没学到
过拟合	训练误差小、测试误差大	容量太高，模型记住了训练噪声
泛化	在新样本上的表现	目标：找到训练与泛化的平衡点

PDF留出法划分p.73

机器学习/25C01_人工智能与机器学习引论.pdf · p.73

打开原文

PDF交叉验证p.74

机器学习/25C01_人工智能与机器学习引论.pdf · p.74

打开原文

PDF容量、过拟合、欠拟合p.76

机器学习/25C01_人工智能与机器学习引论.pdf · p.76

打开原文

PDF过拟合与欠拟合示意图p.76

正在渲染 PDF 第 76 页…

过拟合与欠拟合示意图（PDF 第 76 页） · 打开原文

Part 3 续 · 参数估计

MLE 与 MAP

最大似然估计 (MLE)

给定观测数据 $\{x_1, \ldots, x_N\}$ ，假设它们独立同分布于 $p(x|\theta)$ ，则似然函数为：

L(\theta) = \prod_{i=1}^N p(x_i|\theta)

取对数后最大化：

\theta_{\mathrm{MLE}} = \arg\max_\theta \sum_{i=1}^N \ln p(x_i|\theta)

MLE 完全由数据驱动，不引入任何先验假设。

最大后验估计 (MAP)

引入参数先验 $p(\theta)$ 后，最大化后验概率：

\theta_{\mathrm{MAP}} = \arg\max_\theta \, p(\theta|\mathbf{x}) = \arg\max_\theta \left[\sum_{i=1}^N \ln p(x_i|\theta) + \ln p(\theta)\right]

MAP = 似然项 + 先验项。先验的作用是正则化：当数据不足时，先验引导参数不要走极端。

MLE 与 MAP 的关系：当先验

p(\theta)

为均匀分布（无信息先验）时，MAP 退化为 MLE。MAP 可看作带正则化的 MLE。

PDF性能度量 Pp.55

机器学习/25C01_人工智能与机器学习引论.pdf · p.55

打开原文

Part 3 续 · 理论极限

没有免费的午餐定理

NFL 定理 (Wolpert, 1996)

对所有可能的目标函数求平均后，任何两个学习算法在测试集上的期望误差完全相同。换句话说：脱离具体问题的分布假设，不存在普适最优的学习算法。

NFL 的实际含义不是"所有算法都一样"，而是提醒我们：算法的优劣取决于它对问题分布的假设是否与真实数据匹配。这就是为什么先验知识（数据的结构、物理约束、领域经验）在选择模型时至关重要。

课件还引入了奥卡姆剃刀原则："如无必要，勿增实体"——在多个模型都能解释数据时，优先选更简单的那个。这与 MAP 中正则化的思想完全一致。

PDF没有免费的午餐p.91

机器学习/25C01_人工智能与机器学习引论.pdf · p.91

打开原文

PDF奥卡姆剃刀p.92

机器学习/25C01_人工智能与机器学习引论.pdf · p.92

打开原文

Part 4 · 发展脉络

机器学习的四个历史阶段

阶段	核心思想	代表工作
逻辑推理（1950s–70s）	符号操作与规则系统	专家系统、定理证明
知识工程（1970s–90s）	人工编码领域知识	知识库、本体论
统计学习（1990s–2010s）	从数据中学习统计模型	SVM、随机森林、概率图模型
深度学习（2010s–至今）	端到端学习层级表示	CNN、Transformer、大模型

课程覆盖的阶段主要在第三和第四阶段，但第一阶段（逻辑与规则）在 L03 概率图模型的推理部分仍有回响。

PDF机器学习的发展阶段p.65

机器学习/25C01_人工智能与机器学习引论.pdf · p.65

打开原文

Part 5 · 例题与应用

例 1：T/P/E 的形式化

例题：把一个学习场景写成 T/P/E

题目：给定一个邮件过滤系统，输入为邮件内容，输出为"垃圾邮件 / 非垃圾邮件"。写出 T/P/E 并判断这是哪种学习范式。

任务 T：二分类——将邮件映射到 $\{$ 垃圾, 正常 $\}$ 。
性能 P：准确率、召回率、F1 分数均可。
经验 E：带标签的历史邮件集合（标注了每封邮件是否为垃圾邮件）。

答案：有标注数据、直接反馈、预测离散输出 → 监督学习范式。

易错点：别把"模型结构"误写成经验 E。经验一定来自数据或交互，不是来自算法设计。

Part 5 续 · 例题与应用

例 2：MLE 与 MAP 的计算差异

例题：抛硬币的参数估计

题目：抛硬币 10 次，出现 7 次正面。用 MLE 和 MAP（Beta 先验 $\alpha=\beta=2$ ）分别估计正面概率 $\theta$ 。

MLE： $\theta_{\mathrm{MLE}} = \frac{7}{10} = 0.7$ 。完全由数据决定。
MAP：加入 Beta(2,2) 先验后， $\theta_{\mathrm{MAP}} = \frac{7+2-1}{10+2+2-2} = \frac{8}{12} \approx 0.667$ 。先验把估计从 0.7 拉回了 0.667。

答案：MAP 的估计值被先验"正则化"了——先验相当于在观测之前先抛了 2 次正面、2 次反面，避免在少量数据时做出极端估计。

易错点：当数据量足够大时，似然项主导，MAP 趋近 MLE。MAP 的优势只在数据不足时才体现。

Part 6 · 后续章节

这一讲把后面哪些内容撑起来

后续用途 / 连接

L02 线性模型：线性回归的参数估计直接使用 MLE（在高斯噪声假设下，MLE 给出最小二乘解）。
L03 贝叶斯分类：贝叶斯定理是 MAP 的推广——不只是估计参数，而是推断整个后验分布。
L04 集成学习："好而不同"是对 NFL 的实践回应——既然没有万能算法，就用多个互补模型覆盖。

复习速查

T/P/E：任务、性能、经验三要素定义了学习问题。
监督/无监督/强化：三种反馈结构，不是三种互不相关的算法族。
泛化 vs 训练：训练误差低不代表模型可用，泛化才是最终目标。
MLE：纯数据驱动， $\theta_{\mathrm{MLE}} = \arg\max_\theta \sum \ln p(x_i|\theta)$ 。
MAP：似然 + 先验， $\theta_{\mathrm{MAP}} = \arg\max_\theta [\sum \ln p(x_i|\theta) + \ln p(\theta)]$ 。
NFL：脱离具体问题分布，不存在万能算法——先验知识是模型选择的关键。

参考来源

课程课件：25C01 第 41–42 页（机器学习定义与三要素）
课程课件：25C01 第 55 页（性能度量 P）
课程课件：25C01 第 59 页（学习范式分类）
课程课件：25C01 第 65 页（发展阶段）
课程课件：25C01 第 73–76 页（交叉验证、过拟合与欠拟合）
课程课件：25C01 第 91–93 页（NFL 与奥卡姆剃刀）
Christopher Bishop, Pattern Recognition and Machine Learning, Ch. 1
IIT Delhi EEL709 课程页（https://web.iitd.ac.in/~sumeet/eel709_15.html）

上一页课程中枢页枢纽页高级机器学习下一页线性模型与核方法 · L02