贝叶斯分类与概率图模型

2026/05/28 01:28:18

Part 0 · 学习目标

本节在课程中的位置

理解为什么概率论是不确定性推理的数学语言，掌握贝叶斯分类器、图模型（有向/无向）、HMM、CRF 和推理算法。把 L02 的判别式建模（直接学 $$p(y|x)$$ ）扩展为生成式建模（学 $$p(x,y)$$ ），为后续采样方法（L06）和深度生成模型奠定基础。

前置知识回顾

条件概率与贝叶斯定理： $$p(y|x) = p(x|y)p(y)/p(x)$$ 。作用：贝叶斯分类器的数学核心。去哪里补：L01 参数估计。
图论基础：节点、边、路径、邻接。作用：图模型把变量依赖关系显式编码为图结构。去哪里补：离散数学课程。
动态规划：最优子结构、递推。作用：维特比算法和前向-后向算法都是动态规划的应用。去哪里补：算法课程。

Part 1 · 背景问题

为什么需要概率

L02 的线性模型和 SVM 默认世界是确定的——给定 $$x$$ ，输出 $$y$$ 也是确定的。但现实充满了不确定性：传感器有噪声、观测不完整、模型本身就有局限。概率论提供了量化不确定性的形式化工具，而贝叶斯定理进一步提供了"如何从观测更新信念"的推理框架。

课件列出了不确定性的三个来源：系统内在随机性、不完全观测、不完全建模。这三种来源对应了概率在 AI 中的两种角色：推理工具（利用概率法则更新信念）和行为分析工具（分析系统行为的统计特性）。

PDF为什么需要概率p.2

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.2

打开原文

Part 2 · 概念定义

贝叶斯分类器

贝叶斯定理

p(y|\mathbf{x}) = \frac{p(\mathbf{x}|y) \, p(y)}{p(\mathbf{x})}

先验 $$p(y)$$ ：在看到数据之前，对各类别的信念。
似然 $p(\mathbf{x}|y)$ ：给定类别后，观测到数据 $\mathbf{x}$ 的可能性。
后验 $p(y|\mathbf{x})$ ：看到数据后，更新对类别的信念。
证据 $p(\mathbf{x})$ ：归一化常数，对分类决策无影响。

贝叶斯分类器的决策规则： $\hat{y} = \arg\max_y \, p(y|\mathbf{x}) = \arg\max_y \, p(\mathbf{x}|y)p(y)$ 。

估计后验 $p(y|\mathbf{x})$ 有两条路线：

路线	直接建模	代表方法
判别式	$p(y\|\mathbf{x})$	逻辑回归、SVM、决策树、神经网络
生成式	$p(\mathbf{x}\|y)p(y)$ ，再推 $p(y\|\mathbf{x})$	朴素贝叶斯、HMM、图模型

PDF贝叶斯定理p.7

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.7

打开原文

PDF生成式 vs 判别式p.8

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.8

打开原文

PDF贝叶斯定理p.7

正在渲染 PDF 第 7 页…

贝叶斯定理（PDF 第 7 页） · 打开原文

Part 2 续 · 朴素贝叶斯与半朴素贝叶斯

独立假设与放松

朴素贝叶斯分类器

假设所有属性在给定类别后条件独立：

p(y|\mathbf{x}) \propto p(y) \prod_{i=1}^d p(x_i|y)

离散属性用频率估计 $p(x_i|y) = |D_{y,x_i}|/|D_y|$ ；连续属性用高斯密度。

朴素贝叶斯的"朴素"在于条件独立假设几乎从不成立。但它常常有效，因为分类只需要后验的排序正确，而不需要后验的绝对值精确。即使独立假设引入偏差，只要偏差不影响排序，分类结果仍然可靠。

半朴素贝叶斯放松独立假设，允许每个属性最多依赖一个其他属性（ODE，One-Dependent Estimator），在准确性和计算成本之间取折中。

PDF朴素贝叶斯p.9

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.9

打开原文

Part 3 · 推导与结构

有向图（贝叶斯网络）

图模型的核心思想：把联合分布的因子分解结构可视化为图。有向图的因子分解为：

p(x_1, \ldots, x_K) = \prod_{k=1}^K p(x_k | \mathrm{pa}(x_k))

其中 $\mathrm{pa}(x_k)$ 是节点 $$x_k$$ 的父节点集合。箭头方向表达因果或条件依赖关系。

D-分离（D-Separation）

判断条件独立性的图论方法。三种基本结构：

串联（A→B→C）：给定 B 时 A⊥C（B 被观测则信息被阻断）。
分叉（A←B→C）：给定 B 时 A⊥C（共同原因被观测则两个结果独立）。
碰撞（A→B←C）：默认 A⊥C；但给定 B 时 A 和 C 反而变得相关（解释消除效应）。

PDF有向图联合分布p.20

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.20

打开原文

PDFD-分离三种基本结构p.26

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.26

打开原文

Part 3 续 · 无向图（MRF）

对称依赖与能量函数

无向图（马尔可夫随机场，MRF）不区分因果方向，只表达变量之间的对称依赖。联合分布通过团势函数定义：

p(\mathbf{x}) = \frac{1}{Z}\prod_{c \in \mathcal{C}} \psi_c(\mathbf{x}_c), \quad Z = \sum_{\mathbf{x}}\prod_{c\in\mathcal{C}}\psi_c(\mathbf{x}_c)

当势函数为正时，可写为指数形式（吉布斯分布/玻尔兹曼分布）：

\psi_c(\mathbf{x}_c) = \exp\{-E_c(\mathbf{x}_c)\}, \quad p(\mathbf{x}) = \frac{1}{Z}\exp\!\left\{-\sum_c E_c(\mathbf{x}_c)\right\}

Ising 模型（图像去噪）

经典的 MRF 应用。设像素 $x_i \in \{-1,+1\}$ ，能量函数：

E(\mathbf{x}, \mathbf{y}) = -h\sum_i x_i - \beta\sum_{(i,j)} x_i x_j - \eta\sum_i x_i y_i

第一项偏向外场方向，第二项鼓励相邻像素取相同值（平滑），第三项让去噪结果与含噪观测对齐。 $\beta$ 越大，图像越平滑。

PDF无向图与势函数p.23

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.23

打开原文

PDFIsing 模型p.47

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.47

打开原文

Part 3 续 · 序列模型

HMM 与维特比算法

隐马尔可夫模型 (HMM)

参数 $\lambda = (A, B, \pi)$ ：转移矩阵 $$A$$ 、发射分布 $$B$$ 、初始分布 $\pi$ 。三个基本问题：

问题	方法	核心递推
概率计算 $P(O\|\lambda)$	前向-后向算法	$\alpha_t(j) = [\sum_i \alpha_{t-1}(i)a_{ij}]b_j(o_t)$
最可能隐序列	维特比算法	$\delta_t(j) = \max_i[\delta_{t-1}(i)a_{ij}]b_j(o_t)$
参数学习	Baum-Welch (EM)	E步： $\gamma_t(j) = \alpha_t(j)\beta_t(j)/P(O\|\lambda)$

维特比算法是动态规划：在每个时刻 $$t$$ ，维护"到达状态 $$j$$ 的最优路径得分" $\delta_t(j)$ ，最后回溯路径。复杂度 $$O(TK^2)$$ （ $$T$$ 为序列长度， $$K$$ 为状态数），远优于暴力枚举的 $$O(K^T)$$ 。

PDF一阶马尔可夫链p.38

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.38

打开原文

PDF维特比算法p.65

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.65

打开原文

Part 3 续 · CRF

判别式序列模型

HMM 是生成式模型——它建模 $$p(O,S)$$ （观测和隐状态的联合分布）。CRF 直接建模条件概率：

p(\mathbf{y}|\mathbf{x}) = \frac{1}{Z(\mathbf{x})}\prod_{t=1}^T \exp\!\left\{\sum_k \lambda_k f_k(y_{t-1}, y_t, \mathbf{x}, t)\right\}

CRF 无须建模 $p(\mathbf{x})$ ，避免了高维观测空间的归一化问题。在命名实体识别、图像分割等任务中，CRF 常优于 HMM。

PDF条件随机场p.80

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.80

打开原文

Part 3 续 · 推理算法

Sum-Product 消息传递

对于树结构图模型，Sum-Product 算法通过消息传递高效计算边缘分布：

\mu_{f \to x}(x) = \sum_{\mathbf{x}_s \setminus \{x\}}\left[f(\mathbf{x}_s)\prod_{y \in \mathrm{ne}(f)\setminus\{x\}}\mu_{y \to f}(y)\right]

复杂度 $$O(NK^2)$$ ，远优于直接积分的 $$O(K^N)$$ 。非树结构需要先转化为因子树（Junction Tree 算法）。

PDFSum-Product 算法p.89

机器学习/25C03_贝叶斯分类与随机图模型.pdf · p.89

打开原文

Part 4 · 性质与比较

生成式 vs 判别式序列模型

维度	HMM	CRF
建模对象	$$p(O,S)$$ 联合分布	$$p(S\|O)$$ 条件分布
观测独立性假设	需要（发射分布独立）	不需要
特征设计	受限（必须概率分布）	灵活（任意特征函数 $$f_k$$ ）
归一化	局部归一化（每步独立）	全局归一化（整个序列）
标注偏置问题	有	无

Part 5 · 例题与应用

例 1：D-分离判断

例题：给定有向图判断条件独立性

题目：图结构为 A→B→C←D。判断：(1) A⊥D 是否成立？(2) 给定 B 时 A⊥C 是否成立？(3) 给定 C 时 A⊥D 是否成立？

A⊥D：A 和 D 之间没有直接连接，也没有通过 B 或 C 的激活路径（C 是碰撞节点，默认不被观测）。所以 A⊥D 成立。
给定 B 时 A⊥C：路径 A→B→C 是串联结构，给定 B 则信息被阻断。所以 A⊥C|B 成立。
给定 C 时 A⊥D：路径 A→B→C←D 中 C 是碰撞节点，给定 C 则信息通过碰撞节点激活。所以 A⊥D|C 不成立——观测到 C 的值后，A 和 D 变得相关（解释消除）。

易错点：碰撞节点（head-to-head）是最容易搞反的结构。未被观测时阻断信息，被观测时反而激活信息流。

Part 5 续 · 例题与应用

例 2：为什么朴素贝叶斯"朴素"但有效

例题：偏差换方差

题目：条件独立假设几乎不成立，为什么朴素贝叶斯在实践中仍然常常有效？

计算简化：把 $$d$$ 维联合似然降为 $$d$$ 个一维条件概率的乘积，估计参数从 $O(|\mathcal{Y}| \cdot |\mathcal{X}|^d)$ 降到 $O(d \cdot |\mathcal{Y}| \cdot |\mathcal{X}|)$ 。
排序不变性：分类只需要 $\arg\max_y p(y|\mathbf{x})$ ，即后验排序正确即可。即使独立假设导致后验值不准，只要排序没错，分类结果不受影响。
小数据优势：样本少时，复杂模型的方差很大。朴素贝叶斯的结构约束相当于正则化——偏差增加但方差降低。

答案：朴素贝叶斯的成功来自"估计偏差换方差下降"的经典折中，以及分类任务只关心后验排序而非绝对值。

易错点：别把"条件独立"误解成现实变量真的互不相关。它只是给定类别后的近似假设。

Part 6 · 后续章节

这一讲把后面哪些内容撑起来

后续用途 / 连接

L04 集成学习：贝叶斯模型平均（后验加权预测）vs 集成投票（频率派加权）——两种"多假设融合"思路。
L06 采样方法：后验 $p(\mathbf{z}|\mathbf{x})$ 通常不可解析，采样方法是计算后验期望的标准工具。
L07 神经网络：受限玻尔兹曼机（RBM）是无向图模型的直接应用，变分自编码器（VAE）继承了图模型的推断思想。

复习速查

贝叶斯定理：后验 ∝ 似然 × 先验。
朴素贝叶斯：条件独立假设 + 偏差换方差。
图模型：有向图（因果/条件依赖）、无向图（对称依赖/能量函数）。
D-分离：串联和分叉被观测则阻断，碰撞被观测则激活。
HMM：三参数 $(A,B,\pi)$ ，三问题（概率/解码/学习）。
CRF：判别式序列建模，全局归一化，无标注偏置问题。
Sum-Product：树上的精确推理，消息传递。

参考来源

课程课件：25C03 第 2–5 页（概率的作用）
课程课件：25C03 第 7–9 页（贝叶斯定理与分类器）
课程课件：25C03 第 20–29 页（图模型与 D-分离）
课程课件：25C03 第 38–48 页（马尔可夫链与 Ising 模型）
课程课件：25C03 第 65 页（维特比算法）
课程课件：25C03 第 80 页（CRF）
课程课件：25C03 第 89 页（Sum-Product 算法）
CreateMoMo PGM Notes（https://createmomo.github.io/2019/01/07/Probabilistic-Graphical-Models-Revision-Notes/）

上一页线性模型与核方法 · L02 枢纽页高级机器学习下一页集成学习与随机森林 · L04