ESC
输入关键词搜索文章
目录

人工智能与机器学习引论

高级机器学习 · L01
先把学习问题说清楚,再谈模型优劣
8核心概念
3完整推导
11课件引用
5参考来源
Part 0 · 学习目标
本节在课程中的位置

这一讲解决的不是"哪个模型更强",而是"什么问题才算学习问题"。先把任务、性能和经验三件事讲清楚,再把监督/无监督/强化学习放进统一框架。然后引入泛化、过拟合、NFL 定理和参数估计(MLE/MAP),为后面所有章节奠定评价基础。

前置知识回顾

  • 概率论:条件概率、贝叶斯定理、期望与方差。作用:理解泛化误差的 i.i.d. 假设和 MLE/MAP 的推导起点。去哪里补:概率论课程或 L03 贝叶斯分类。
  • 线性代数:向量、矩阵运算。作用:样本在数学上就是特征向量,模型参数就是权向量。去哪里补:线性代数课程。
  • 优化理论:目标函数、梯度、约束。作用:后面所有训练算法都会回到"最小化某个目标函数"。去哪里补:凸优化基础。
Part 1 · 背景问题
从智能到学习

课程从"什么是智能"出发:人类智能的核心之一是学习能力——能从经验中改进行为。如果机器也能做到这件事,那它就具备了一种基本的"智能"。但这个能力不是天上掉下来的:它需要明确的任务定义性能指标经验来源

课件特别强调了一个关键问题:深度学习已经这么强了,为什么还要学传统方法?答案是:传统方法提供的数学骨架(概率建模、优化框架、泛化理论)是理解深度学习为什么有效的前提,而不是过时的备选方案。

PDF基础方法与最新方法的关系p.6

机器学习/25C01_人工智能与机器学习引论.pdf · p.6

打开原文

Part 2 · 概念定义
T/P/E 三要素与学习范式

Mitchell 的机器学习定义(1997)

一个计算机程序被称为从经验 E 中学习,是关于某个任务 T 的,且由性能度量 P 衡量——如果它在 T 上的性能(由 P 衡量)随着 E 的增加而改善。

  • 任务 T:系统要完成的映射或决策。例如分类、回归、聚类、密度估计。
  • 性能 P:评价任务完成得如何的度量。分类用准确率,回归用均方误差,概率估计用 KL 散度。
  • 经验 E:促使性能改进的数据或交互过程。监督学习的经验是标注数据集,强化学习的经验是奖励信号。

基于反馈结构的不同,学习范式分为三类:

范式反馈形式典型任务课程对应
监督学习标注数据、直接反馈分类、回归L02–L04
无监督学习无标签、发现隐藏结构聚类、降维、密度估计L05(稀疏结构)
强化学习奖励信号、延迟反馈策略优化、序列决策本课程不深入

课件还补充了弱监督学习的三种形式:不完全监督(部分有标签)、不确切监督(粗粒度标签)、不精确监督(标签有噪声)。

PDFT/P/E 三要素p.42

机器学习/25C01_人工智能与机器学习引论.pdf · p.42

打开原文

PDF学习范式分类p.59

机器学习/25C01_人工智能与机器学习引论.pdf · p.59

打开原文

一句话理解:判断一个场景是不是机器学习问题,先问三件事——任务是什么、指标是什么、经验从哪来。
Part 3 · 推导与结构
泛化、过拟合与评价方法

模型在训练集上表现好不代表它在未见数据上也好。泛化能力(Generalization)衡量的是模型在新样本上的表现,它才是最终关心的指标。

训练/验证/测试三集合划分

数据集 $D$ 被划分为互斥的三部分:

  • 训练集:用于拟合模型参数。
  • 验证集:用于选择超参数、防止过拟合。
  • 测试集:只在最终评估时使用一次,反映泛化误差。

K-折交叉验证将数据分成 $K$ 份,每次用 $K-1$ 份训练、1 份测试,循环 $K$ 次后取平均性能。这在数据量有限时特别有用。

概念含义与模型容量的关系
欠拟合训练误差大、测试误差也大容量太低,模型连训练规律都没学到
过拟合训练误差小、测试误差大容量太高,模型记住了训练噪声
泛化在新样本上的表现目标:找到训练与泛化的平衡点
PDF留出法划分p.73

机器学习/25C01_人工智能与机器学习引论.pdf · p.73

打开原文

PDF交叉验证p.74

机器学习/25C01_人工智能与机器学习引论.pdf · p.74

打开原文

PDF容量、过拟合、欠拟合p.76

机器学习/25C01_人工智能与机器学习引论.pdf · p.76

打开原文

PDF过拟合与欠拟合示意图p.76
正在渲染 PDF 第 76 页…
过拟合与欠拟合示意图(PDF 第 76 页) · 打开原文
Part 3 续 · 参数估计
MLE 与 MAP

最大似然估计 (MLE)

给定观测数据 $\{x_1, \ldots, x_N\}$,假设它们独立同分布于 $p(x|\theta)$,则似然函数为:

$$L(\theta) = \prod_{i=1}^N p(x_i|\theta)$$

取对数后最大化:

$$\theta_{\mathrm{MLE}} = \arg\max_\theta \sum_{i=1}^N \ln p(x_i|\theta)$$

MLE 完全由数据驱动,不引入任何先验假设。

最大后验估计 (MAP)

引入参数先验 $p(\theta)$ 后,最大化后验概率:

$$\theta_{\mathrm{MAP}} = \arg\max_\theta \, p(\theta|\mathbf{x}) = \arg\max_\theta \left[\sum_{i=1}^N \ln p(x_i|\theta) + \ln p(\theta)\right]$$

MAP = 似然项 + 先验项。先验的作用是正则化:当数据不足时,先验引导参数不要走极端。

MLE 与 MAP 的关系:当先验 $p(\theta)$ 为均匀分布(无信息先验)时,MAP 退化为 MLE。MAP 可看作带正则化的 MLE。
PDF性能度量 Pp.55

机器学习/25C01_人工智能与机器学习引论.pdf · p.55

打开原文

Part 3 续 · 理论极限
没有免费的午餐定理

NFL 定理 (Wolpert, 1996)

对所有可能的目标函数求平均后,任何两个学习算法在测试集上的期望误差完全相同。换句话说:脱离具体问题的分布假设,不存在普适最优的学习算法。

NFL 的实际含义不是"所有算法都一样",而是提醒我们:算法的优劣取决于它对问题分布的假设是否与真实数据匹配。这就是为什么先验知识(数据的结构、物理约束、领域经验)在选择模型时至关重要。

课件还引入了奥卡姆剃刀原则:"如无必要,勿增实体"——在多个模型都能解释数据时,优先选更简单的那个。这与 MAP 中正则化的思想完全一致。

PDF没有免费的午餐p.91

机器学习/25C01_人工智能与机器学习引论.pdf · p.91

打开原文

PDF奥卡姆剃刀p.92

机器学习/25C01_人工智能与机器学习引论.pdf · p.92

打开原文

Part 4 · 发展脉络
机器学习的四个历史阶段
阶段核心思想代表工作
逻辑推理(1950s–70s)符号操作与规则系统专家系统、定理证明
知识工程(1970s–90s)人工编码领域知识知识库、本体论
统计学习(1990s–2010s)从数据中学习统计模型SVM、随机森林、概率图模型
深度学习(2010s–至今)端到端学习层级表示CNN、Transformer、大模型

课程覆盖的阶段主要在第三和第四阶段,但第一阶段(逻辑与规则)在 L03 概率图模型的推理部分仍有回响。

PDF机器学习的发展阶段p.65

机器学习/25C01_人工智能与机器学习引论.pdf · p.65

打开原文

Part 5 · 例题与应用
例 1:T/P/E 的形式化

例题:把一个学习场景写成 T/P/E

题目:给定一个邮件过滤系统,输入为邮件内容,输出为"垃圾邮件 / 非垃圾邮件"。写出 T/P/E 并判断这是哪种学习范式。

  1. 任务 T:二分类——将邮件映射到 $\{$垃圾, 正常$\}$
  2. 性能 P:准确率、召回率、F1 分数均可。
  3. 经验 E:带标签的历史邮件集合(标注了每封邮件是否为垃圾邮件)。

答案:有标注数据、直接反馈、预测离散输出 → 监督学习范式。

易错点:别把"模型结构"误写成经验 E。经验一定来自数据或交互,不是来自算法设计。
Part 5 续 · 例题与应用
例 2:MLE 与 MAP 的计算差异

例题:抛硬币的参数估计

题目:抛硬币 10 次,出现 7 次正面。用 MLE 和 MAP(Beta 先验 $\alpha=\beta=2$)分别估计正面概率 $\theta$

  1. MLE$\theta_{\mathrm{MLE}} = \frac{7}{10} = 0.7$。完全由数据决定。
  2. MAP:加入 Beta(2,2) 先验后,$\theta_{\mathrm{MAP}} = \frac{7+2-1}{10+2+2-2} = \frac{8}{12} \approx 0.667$。先验把估计从 0.7 拉回了 0.667。

答案:MAP 的估计值被先验"正则化"了——先验相当于在观测之前先抛了 2 次正面、2 次反面,避免在少量数据时做出极端估计。

易错点:当数据量足够大时,似然项主导,MAP 趋近 MLE。MAP 的优势只在数据不足时才体现。
Part 6 · 后续章节
这一讲把后面哪些内容撑起来

后续用途 / 连接

  • L02 线性模型:线性回归的参数估计直接使用 MLE(在高斯噪声假设下,MLE 给出最小二乘解)。
  • L03 贝叶斯分类:贝叶斯定理是 MAP 的推广——不只是估计参数,而是推断整个后验分布。
  • L04 集成学习:"好而不同"是对 NFL 的实践回应——既然没有万能算法,就用多个互补模型覆盖。

复习速查

  • T/P/E:任务、性能、经验三要素定义了学习问题。
  • 监督/无监督/强化:三种反馈结构,不是三种互不相关的算法族。
  • 泛化 vs 训练:训练误差低不代表模型可用,泛化才是最终目标。
  • MLE:纯数据驱动,$\theta_{\mathrm{MLE}} = \arg\max_\theta \sum \ln p(x_i|\theta)$
  • MAP:似然 + 先验,$\theta_{\mathrm{MAP}} = \arg\max_\theta [\sum \ln p(x_i|\theta) + \ln p(\theta)]$
  • NFL:脱离具体问题分布,不存在万能算法——先验知识是模型选择的关键。

参考来源

  • 课程课件:25C01 第 41–42 页(机器学习定义与三要素)
  • 课程课件:25C01 第 55 页(性能度量 P)
  • 课程课件:25C01 第 59 页(学习范式分类)
  • 课程课件:25C01 第 65 页(发展阶段)
  • 课程课件:25C01 第 73–76 页(交叉验证、过拟合与欠拟合)
  • 课程课件:25C01 第 91–93 页(NFL 与奥卡姆剃刀)
  • Christopher Bishop, Pattern Recognition and Machine Learning, Ch. 1
  • IIT Delhi EEL709 课程页(https://web.iitd.ac.in/~sumeet/eel709_15.html)