贝叶斯分类与概率图模型
理解为什么概率论是不确定性推理的数学语言,掌握贝叶斯分类器、图模型(有向/无向)、HMM、CRF 和推理算法。把 L02 的判别式建模(直接学 $p(y|x)$)扩展为生成式建模(学 $p(x,y)$),为后续采样方法(L06)和深度生成模型奠定基础。
前置知识回顾
- 条件概率与贝叶斯定理:$p(y|x) = p(x|y)p(y)/p(x)$。作用:贝叶斯分类器的数学核心。去哪里补:L01 参数估计。
- 图论基础:节点、边、路径、邻接。作用:图模型把变量依赖关系显式编码为图结构。去哪里补:离散数学课程。
- 动态规划:最优子结构、递推。作用:维特比算法和前向-后向算法都是动态规划的应用。去哪里补:算法课程。
L02 的线性模型和 SVM 默认世界是确定的——给定 $x$,输出 $y$ 也是确定的。但现实充满了不确定性:传感器有噪声、观测不完整、模型本身就有局限。概率论提供了量化不确定性的形式化工具,而贝叶斯定理进一步提供了"如何从观测更新信念"的推理框架。
课件列出了不确定性的三个来源:系统内在随机性、不完全观测、不完全建模。这三种来源对应了概率在 AI 中的两种角色:推理工具(利用概率法则更新信念)和行为分析工具(分析系统行为的统计特性)。
贝叶斯定理
- 先验 $p(y)$:在看到数据之前,对各类别的信念。
- 似然 $p(\mathbf{x}|y)$:给定类别后,观测到数据 $\mathbf{x}$ 的可能性。
- 后验 $p(y|\mathbf{x})$:看到数据后,更新对类别的信念。
- 证据 $p(\mathbf{x})$:归一化常数,对分类决策无影响。
贝叶斯分类器的决策规则:$\hat{y} = \arg\max_y \, p(y|\mathbf{x}) = \arg\max_y \, p(\mathbf{x}|y)p(y)$。
估计后验 $p(y|\mathbf{x})$ 有两条路线:
| 路线 | 直接建模 | 代表方法 |
|---|---|---|
| 判别式 | $p(y|\mathbf{x})$ | 逻辑回归、SVM、决策树、神经网络 |
| 生成式 | $p(\mathbf{x}|y)p(y)$,再推 $p(y|\mathbf{x})$ | 朴素贝叶斯、HMM、图模型 |
朴素贝叶斯分类器
假设所有属性在给定类别后条件独立:
离散属性用频率估计 $p(x_i|y) = |D_{y,x_i}|/|D_y|$;连续属性用高斯密度。
朴素贝叶斯的"朴素"在于条件独立假设几乎从不成立。但它常常有效,因为分类只需要后验的排序正确,而不需要后验的绝对值精确。即使独立假设引入偏差,只要偏差不影响排序,分类结果仍然可靠。
半朴素贝叶斯放松独立假设,允许每个属性最多依赖一个其他属性(ODE,One-Dependent Estimator),在准确性和计算成本之间取折中。
图模型的核心思想:把联合分布的因子分解结构可视化为图。有向图的因子分解为:
其中 $\mathrm{pa}(x_k)$ 是节点 $x_k$ 的父节点集合。箭头方向表达因果或条件依赖关系。
D-分离(D-Separation)
判断条件独立性的图论方法。三种基本结构:
- 串联(A→B→C):给定 B 时 A⊥C(B 被观测则信息被阻断)。
- 分叉(A←B→C):给定 B 时 A⊥C(共同原因被观测则两个结果独立)。
- 碰撞(A→B←C):默认 A⊥C;但给定 B 时 A 和 C 反而变得相关(解释消除效应)。
无向图(马尔可夫随机场,MRF)不区分因果方向,只表达变量之间的对称依赖。联合分布通过团势函数定义:
当势函数为正时,可写为指数形式(吉布斯分布/玻尔兹曼分布):
Ising 模型(图像去噪)
经典的 MRF 应用。设像素 $x_i \in \{-1,+1\}$,能量函数:
第一项偏向外场方向,第二项鼓励相邻像素取相同值(平滑),第三项让去噪结果与含噪观测对齐。$\beta$ 越大,图像越平滑。
隐马尔可夫模型 (HMM)
参数 $\lambda = (A, B, \pi)$:转移矩阵 $A$、发射分布 $B$、初始分布 $\pi$。三个基本问题:
| 问题 | 方法 | 核心递推 |
|---|---|---|
| 前向-后向算法 | $\alpha_t(j) = [\sum_i \alpha_{t-1}(i)a_{ij}]b_j(o_t)$ | |
| 维特比算法 | $\delta_t(j) = \max_i[\delta_{t-1}(i)a_{ij}]b_j(o_t)$ | |
| Baum-Welch (EM) | E步:$\gamma_t(j) = \alpha_t(j)\beta_t(j)/P(O|\lambda)$ |
维特比算法是动态规划:在每个时刻 $t$,维护"到达状态 $j$ 的最优路径得分" $\delta_t(j)$,最后回溯路径。复杂度 $O(TK^2)$($T$ 为序列长度,$K$ 为状态数),远优于暴力枚举的 $O(K^T)$。
HMM 是生成式模型——它建模 $p(O,S)$(观测和隐状态的联合分布)。CRF 直接建模条件概率:
CRF 无须建模 $p(\mathbf{x})$,避免了高维观测空间的归一化问题。在命名实体识别、图像分割等任务中,CRF 常优于 HMM。
对于树结构图模型,Sum-Product 算法通过消息传递高效计算边缘分布:
复杂度 $O(NK^2)$,远优于直接积分的 $O(K^N)$。非树结构需要先转化为因子树(Junction Tree 算法)。
| 维度 | HMM | CRF |
|---|---|---|
| 建模对象 | $p(O,S)$ 联合分布 | $p(S|O)$ 条件分布 |
| 观测独立性假设 | 需要(发射分布独立) | 不需要 |
| 特征设计 | 受限(必须概率分布) | 灵活(任意特征函数 $f_k$) |
| 归一化 | 局部归一化(每步独立) | 全局归一化(整个序列) |
| 标注偏置问题 | 有 | 无 |
例题:给定有向图判断条件独立性
题目:图结构为 A→B→C←D。判断:(1) A⊥D 是否成立?(2) 给定 B 时 A⊥C 是否成立?(3) 给定 C 时 A⊥D 是否成立?
- A⊥D:A 和 D 之间没有直接连接,也没有通过 B 或 C 的激活路径(C 是碰撞节点,默认不被观测)。所以 A⊥D 成立。
- 给定 B 时 A⊥C:路径 A→B→C 是串联结构,给定 B 则信息被阻断。所以 A⊥C|B 成立。
- 给定 C 时 A⊥D:路径 A→B→C←D 中 C 是碰撞节点,给定 C 则信息通过碰撞节点激活。所以 A⊥D|C 不成立——观测到 C 的值后,A 和 D 变得相关(解释消除)。
例题:偏差换方差
题目:条件独立假设几乎不成立,为什么朴素贝叶斯在实践中仍然常常有效?
- 计算简化:把 $d$ 维联合似然降为 $d$ 个一维条件概率的乘积,估计参数从 $O(|\mathcal{Y}| \cdot |\mathcal{X}|^d)$ 降到 $O(d \cdot |\mathcal{Y}| \cdot |\mathcal{X}|)$。
- 排序不变性:分类只需要 $\arg\max_y p(y|\mathbf{x})$,即后验排序正确即可。即使独立假设导致后验值不准,只要排序没错,分类结果不受影响。
- 小数据优势:样本少时,复杂模型的方差很大。朴素贝叶斯的结构约束相当于正则化——偏差增加但方差降低。
答案:朴素贝叶斯的成功来自"估计偏差换方差下降"的经典折中,以及分类任务只关心后验排序而非绝对值。
后续用途 / 连接
- L04 集成学习:贝叶斯模型平均(后验加权预测)vs 集成投票(频率派加权)——两种"多假设融合"思路。
- L06 采样方法:后验 $p(\mathbf{z}|\mathbf{x})$ 通常不可解析,采样方法是计算后验期望的标准工具。
- L07 神经网络:受限玻尔兹曼机(RBM)是无向图模型的直接应用,变分自编码器(VAE)继承了图模型的推断思想。
复习速查
- 贝叶斯定理:后验 ∝ 似然 × 先验。
- 朴素贝叶斯:条件独立假设 + 偏差换方差。
- 图模型:有向图(因果/条件依赖)、无向图(对称依赖/能量函数)。
- D-分离:串联和分叉被观测则阻断,碰撞被观测则激活。
- HMM:三参数 $(A,B,\pi)$,三问题(概率/解码/学习)。
- CRF:判别式序列建模,全局归一化,无标注偏置问题。
- Sum-Product:树上的精确推理,消息传递。
参考来源
- 课程课件:25C03 第 2–5 页(概率的作用)
- 课程课件:25C03 第 7–9 页(贝叶斯定理与分类器)
- 课程课件:25C03 第 20–29 页(图模型与 D-分离)
- 课程课件:25C03 第 38–48 页(马尔可夫链与 Ising 模型)
- 课程课件:25C03 第 65 页(维特比算法)
- 课程课件:25C03 第 80 页(CRF)
- 课程课件:25C03 第 89 页(Sum-Product 算法)
- CreateMoMo PGM Notes(https://createmomo.github.io/2019/01/07/Probabilistic-Graphical-Models-Revision-Notes/)