ESC
输入关键词搜索文章
目录

贝叶斯分类与概率图模型

高级机器学习 · L03
当世界充满不确定性,概率就是最自然的语言
11核心概念
4完整推导
13课件引用
5参考来源
Part 0 · 学习目标
本节在课程中的位置

理解为什么概率论是不确定性推理的数学语言,掌握贝叶斯分类器、图模型(有向/无向)、HMM、CRF 和推理算法。把 L02 的判别式建模(直接学 $p(y|x)$)扩展为生成式建模(学 $p(x,y)$),为后续采样方法(L06)和深度生成模型奠定基础。

前置知识回顾

  • 条件概率与贝叶斯定理$p(y|x) = p(x|y)p(y)/p(x)$。作用:贝叶斯分类器的数学核心。去哪里补:L01 参数估计。
  • 图论基础:节点、边、路径、邻接。作用:图模型把变量依赖关系显式编码为图结构。去哪里补:离散数学课程。
  • 动态规划:最优子结构、递推。作用:维特比算法和前向-后向算法都是动态规划的应用。去哪里补:算法课程。
Part 1 · 背景问题
为什么需要概率

L02 的线性模型和 SVM 默认世界是确定的——给定 $x$,输出 $y$ 也是确定的。但现实充满了不确定性:传感器有噪声、观测不完整、模型本身就有局限。概率论提供了量化不确定性的形式化工具,而贝叶斯定理进一步提供了"如何从观测更新信念"的推理框架。

课件列出了不确定性的三个来源:系统内在随机性、不完全观测、不完全建模。这三种来源对应了概率在 AI 中的两种角色:推理工具(利用概率法则更新信念)和行为分析工具(分析系统行为的统计特性)。

PDF为什么需要概率p.2

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.2

打开原文

Part 2 · 概念定义
贝叶斯分类器

贝叶斯定理

$$p(y|\mathbf{x}) = \frac{p(\mathbf{x}|y) \, p(y)}{p(\mathbf{x})}$$
  • 先验 $p(y)$:在看到数据之前,对各类别的信念。
  • 似然 $p(\mathbf{x}|y)$:给定类别后,观测到数据 $\mathbf{x}$ 的可能性。
  • 后验 $p(y|\mathbf{x})$:看到数据后,更新对类别的信念。
  • 证据 $p(\mathbf{x})$:归一化常数,对分类决策无影响。

贝叶斯分类器的决策规则:$\hat{y} = \arg\max_y \, p(y|\mathbf{x}) = \arg\max_y \, p(\mathbf{x}|y)p(y)$

估计后验 $p(y|\mathbf{x})$ 有两条路线:

路线直接建模代表方法
判别式$p(y|\mathbf{x})$逻辑回归、SVM、决策树、神经网络
生成式$p(\mathbf{x}|y)p(y)$,再推 $p(y|\mathbf{x})$朴素贝叶斯、HMM、图模型
PDF贝叶斯定理p.7

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.7

打开原文

PDF生成式 vs 判别式p.8

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.8

打开原文

PDF贝叶斯定理p.7
正在渲染 PDF 第 7 页…
贝叶斯定理(PDF 第 7 页) · 打开原文
Part 2 续 · 朴素贝叶斯与半朴素贝叶斯
独立假设与放松

朴素贝叶斯分类器

假设所有属性在给定类别后条件独立:

$$p(y|\mathbf{x}) \propto p(y) \prod_{i=1}^d p(x_i|y)$$

离散属性用频率估计 $p(x_i|y) = |D_{y,x_i}|/|D_y|$;连续属性用高斯密度。

朴素贝叶斯的"朴素"在于条件独立假设几乎从不成立。但它常常有效,因为分类只需要后验的排序正确,而不需要后验的绝对值精确。即使独立假设引入偏差,只要偏差不影响排序,分类结果仍然可靠。

半朴素贝叶斯放松独立假设,允许每个属性最多依赖一个其他属性(ODE,One-Dependent Estimator),在准确性和计算成本之间取折中。

PDF朴素贝叶斯p.9

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.9

打开原文

Part 3 · 推导与结构
有向图(贝叶斯网络)

图模型的核心思想:把联合分布的因子分解结构可视化为图。有向图的因子分解为:

$$p(x_1, \ldots, x_K) = \prod_{k=1}^K p(x_k | \mathrm{pa}(x_k))$$

其中 $\mathrm{pa}(x_k)$ 是节点 $x_k$ 的父节点集合。箭头方向表达因果或条件依赖关系。

D-分离(D-Separation)

判断条件独立性的图论方法。三种基本结构:

  • 串联(A→B→C):给定 B 时 A⊥C(B 被观测则信息被阻断)。
  • 分叉(A←B→C):给定 B 时 A⊥C(共同原因被观测则两个结果独立)。
  • 碰撞(A→B←C):默认 A⊥C;但给定 B 时 A 和 C 反而变得相关(解释消除效应)。
PDF有向图联合分布p.20

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.20

打开原文

PDFD-分离三种基本结构p.26

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.26

打开原文

Part 3 续 · 无向图(MRF)
对称依赖与能量函数

无向图(马尔可夫随机场,MRF)不区分因果方向,只表达变量之间的对称依赖。联合分布通过团势函数定义:

$$p(\mathbf{x}) = \frac{1}{Z}\prod_{c \in \mathcal{C}} \psi_c(\mathbf{x}_c), \quad Z = \sum_{\mathbf{x}}\prod_{c\in\mathcal{C}}\psi_c(\mathbf{x}_c)$$

当势函数为正时,可写为指数形式(吉布斯分布/玻尔兹曼分布):

$$\psi_c(\mathbf{x}_c) = \exp\{-E_c(\mathbf{x}_c)\}, \quad p(\mathbf{x}) = \frac{1}{Z}\exp\!\left\{-\sum_c E_c(\mathbf{x}_c)\right\}$$

Ising 模型(图像去噪)

经典的 MRF 应用。设像素 $x_i \in \{-1,+1\}$,能量函数:

$$E(\mathbf{x}, \mathbf{y}) = -h\sum_i x_i - \beta\sum_{(i,j)} x_i x_j - \eta\sum_i x_i y_i$$

第一项偏向外场方向,第二项鼓励相邻像素取相同值(平滑),第三项让去噪结果与含噪观测对齐。$\beta$ 越大,图像越平滑。

PDF无向图与势函数p.23

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.23

打开原文

PDFIsing 模型p.47

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.47

打开原文

Part 3 续 · 序列模型
HMM 与维特比算法

隐马尔可夫模型 (HMM)

参数 $\lambda = (A, B, \pi)$:转移矩阵 $A$、发射分布 $B$、初始分布 $\pi$。三个基本问题:

问题方法核心递推
  • 概率计算 $P(O|\lambda)$
  • 前向-后向算法$\alpha_t(j) = [\sum_i \alpha_{t-1}(i)a_{ij}]b_j(o_t)$
  • 最可能隐序列
  • 维特比算法$\delta_t(j) = \max_i[\delta_{t-1}(i)a_{ij}]b_j(o_t)$
  • 参数学习
  • Baum-Welch (EM)E步:$\gamma_t(j) = \alpha_t(j)\beta_t(j)/P(O|\lambda)$

    维特比算法是动态规划:在每个时刻 $t$,维护"到达状态 $j$ 的最优路径得分" $\delta_t(j)$,最后回溯路径。复杂度 $O(TK^2)$$T$ 为序列长度,$K$ 为状态数),远优于暴力枚举的 $O(K^T)$

    PDF一阶马尔可夫链p.38

    机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.38

    打开原文

    PDF维特比算法p.65

    机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.65

    打开原文

    Part 3 续 · CRF
    判别式序列模型

    HMM 是生成式模型——它建模 $p(O,S)$(观测和隐状态的联合分布)。CRF 直接建模条件概率:

    $$p(\mathbf{y}|\mathbf{x}) = \frac{1}{Z(\mathbf{x})}\prod_{t=1}^T \exp\!\left\{\sum_k \lambda_k f_k(y_{t-1}, y_t, \mathbf{x}, t)\right\}$$

    CRF 无须建模 $p(\mathbf{x})$,避免了高维观测空间的归一化问题。在命名实体识别、图像分割等任务中,CRF 常优于 HMM。

    PDF条件随机场p.80

    机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.80

    打开原文

    Part 3 续 · 推理算法
    Sum-Product 消息传递

    对于树结构图模型,Sum-Product 算法通过消息传递高效计算边缘分布:

    $$\mu_{f \to x}(x) = \sum_{\mathbf{x}_s \setminus \{x\}}\left[f(\mathbf{x}_s)\prod_{y \in \mathrm{ne}(f)\setminus\{x\}}\mu_{y \to f}(y)\right]$$

    复杂度 $O(NK^2)$,远优于直接积分的 $O(K^N)$。非树结构需要先转化为因子树(Junction Tree 算法)。

    PDFSum-Product 算法p.89

    机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.89

    打开原文

    Part 4 · 性质与比较
    生成式 vs 判别式序列模型
    维度HMMCRF
    建模对象$p(O,S)$ 联合分布$p(S|O)$ 条件分布
    观测独立性假设需要(发射分布独立)不需要
    特征设计受限(必须概率分布)灵活(任意特征函数 $f_k$
    归一化局部归一化(每步独立)全局归一化(整个序列)
    标注偏置问题
    Part 5 · 例题与应用
    例 1:D-分离判断

    例题:给定有向图判断条件独立性

    题目:图结构为 A→B→C←D。判断:(1) A⊥D 是否成立?(2) 给定 B 时 A⊥C 是否成立?(3) 给定 C 时 A⊥D 是否成立?

    1. A⊥D:A 和 D 之间没有直接连接,也没有通过 B 或 C 的激活路径(C 是碰撞节点,默认不被观测)。所以 A⊥D 成立。
    2. 给定 B 时 A⊥C:路径 A→B→C 是串联结构,给定 B 则信息被阻断。所以 A⊥C|B 成立。
    3. 给定 C 时 A⊥D:路径 A→B→C←D 中 C 是碰撞节点,给定 C 则信息通过碰撞节点激活。所以 A⊥D|C 不成立——观测到 C 的值后,A 和 D 变得相关(解释消除)。
    易错点:碰撞节点(head-to-head)是最容易搞反的结构。未被观测时阻断信息,被观测时反而激活信息流。
    Part 5 续 · 例题与应用
    例 2:为什么朴素贝叶斯"朴素"但有效

    例题:偏差换方差

    题目:条件独立假设几乎不成立,为什么朴素贝叶斯在实践中仍然常常有效?

    1. 计算简化:把 $d$ 维联合似然降为 $d$ 个一维条件概率的乘积,估计参数从 $O(|\mathcal{Y}| \cdot |\mathcal{X}|^d)$ 降到 $O(d \cdot |\mathcal{Y}| \cdot |\mathcal{X}|)$
    2. 排序不变性:分类只需要 $\arg\max_y p(y|\mathbf{x})$,即后验排序正确即可。即使独立假设导致后验值不准,只要排序没错,分类结果不受影响。
    3. 小数据优势:样本少时,复杂模型的方差很大。朴素贝叶斯的结构约束相当于正则化——偏差增加但方差降低。

    答案:朴素贝叶斯的成功来自"估计偏差换方差下降"的经典折中,以及分类任务只关心后验排序而非绝对值。

    易错点:别把"条件独立"误解成现实变量真的互不相关。它只是给定类别后的近似假设。
    Part 6 · 后续章节
    这一讲把后面哪些内容撑起来

    后续用途 / 连接

    • L04 集成学习:贝叶斯模型平均(后验加权预测)vs 集成投票(频率派加权)——两种"多假设融合"思路。
    • L06 采样方法:后验 $p(\mathbf{z}|\mathbf{x})$ 通常不可解析,采样方法是计算后验期望的标准工具。
    • L07 神经网络:受限玻尔兹曼机(RBM)是无向图模型的直接应用,变分自编码器(VAE)继承了图模型的推断思想。

    复习速查

    • 贝叶斯定理:后验 ∝ 似然 × 先验。
    • 朴素贝叶斯:条件独立假设 + 偏差换方差。
    • 图模型:有向图(因果/条件依赖)、无向图(对称依赖/能量函数)。
    • D-分离:串联和分叉被观测则阻断,碰撞被观测则激活。
    • HMM:三参数 $(A,B,\pi)$,三问题(概率/解码/学习)。
    • CRF:判别式序列建模,全局归一化,无标注偏置问题。
    • Sum-Product:树上的精确推理,消息传递。

    参考来源

    • 课程课件:25C03 第 2–5 页(概率的作用)
    • 课程课件:25C03 第 7–9 页(贝叶斯定理与分类器)
    • 课程课件:25C03 第 20–29 页(图模型与 D-分离)
    • 课程课件:25C03 第 38–48 页(马尔可夫链与 Ising 模型)
    • 课程课件:25C03 第 65 页(维特比算法)
    • 课程课件:25C03 第 80 页(CRF)
    • 课程课件:25C03 第 89 页(Sum-Product 算法)
    • CreateMoMo PGM Notes(https://createmomo.github.io/2019/01/07/Probabilistic-Graphical-Models-Revision-Notes/)