压缩感知 · L05

2026/05/28 01:28:18

课程机器学习·13 min read

高级机器学习压缩感知稀疏表示字典学习 RIP

Part 0 · 学习目标

本节在课程中的位置

理解传统"先采样再压缩"的范式为什么在某些场景下本末倒置，以及稀疏性如何重写采样与重建的数学条件。掌握 RIP、 $\ell_1$ 优化和字典学习的核心逻辑。

从课程脉络看：L04 的集成学习用"多样性"对抗高维复杂性，L05 则用"稀疏性"作为另一种结构先验。两者在高维数据处理中互为补充。同时，稀疏先验在 L07/L08 的神经网络剪枝和注意力稀疏化中会以新形式再次出现。

前置知识回顾

线性代数：矩阵运算、奇异值分解、欠定方程组。作用：测量模型 $y = \Phi x$ 本质上是一个欠定线性系统。去哪里补：L02 线性模型。
凸优化： $\ell_1$ 范数是凸函数， $\ell_0$ 范数不是。作用：理解为什么 $\ell_1$ 可以替代 $\ell_0$ 。去哪里补：Boyd & Vandenberghe《Convex Optimization》。
信号处理直觉：Nyquist 采样定理、频域表示。作用：理解压缩感知对传统采样率的突破。去哪里补：DSP 课程笔记。

Part 1 · 背景问题

为什么"先采样再压缩"可能是浪费

传统数字信号采集遵循 Nyquist-Shannon 采样定理：采样频率必须达到信号最高频率的 2 倍以上才能无失真重建。按这个准则采集到的数据量往往极大。但随后，大多数信号又会被压缩编码——N 个采样值最终只保留 K 个主要系数。

这就引出了一个尖锐的问题：既然最终只保留 K 个系数，为什么一开始要采 N 个？

PDF传统采样-压缩的矛盾p.3

机器学习/25C05_压缩感知.pdf · p.3

打开原文

压缩感知的回答是：如果信号在某组基下是稀疏的（只有少数系数显著非零），那么可以在远低于 Nyquist 率的采样次数下直接获取压缩后的测量值，再通过优化算法从少量测量中精确重建原信号。

核心假设：压缩感知真正赌的是"世界有结构"——而这个结构恰好能用稀疏性表达。如果信号完全不稀疏，压缩感知的保证就不成立。

Part 2 · 概念定义

从稀疏性到重建条件

测量模型

设原始信号 $\mathbf{x} \in \mathbb{R}^N$ 在某组基 $\Psi$ 下可表示为 $\mathbf{x} = \Psi \mathbf{s}$ ，其中 $\mathbf{s}$ 是 $$k$$ -稀疏向量（至多 $$k$$ 个非零分量）。测量过程只保留 $M \ll N$ 个线性投影：

\mathbf{y} = \Phi \mathbf{x} = \Phi \Psi \mathbf{s} = A \mathbf{s}

其中 $\Phi \in \mathbb{R}^{M \times N}$ 是测量矩阵， $A = \Phi \Psi \in \mathbb{R}^{M \times N}$ 。

这是一个典型的欠定线性系统（方程数 $$M$$ 少于未知数 $$N$$ ）。如果没有额外假设，解不唯一。但稀疏性恰好提供了所需的额外约束。

受限等距性质 (RIP)

测量矩阵 $$A$$ 满足 $$k$$ -RIP，若存在常数 $\delta_k \in (0,1)$ 使得对任意 $$k$$ -稀疏向量 $\mathbf{s}$ ：

(1 - \delta_k) \|\mathbf{s}\|_2^2 \leq \|A \mathbf{s}\|_2^2 \leq (1 + \delta_k) \|\mathbf{s}\|_2^2

RIP 要求测量矩阵在子空间上近似保持向量长度——即测量过程不会扭曲稀疏信号之间的距离关系。

PDFRIP 定义与 ℓ0/ℓ1 优化p.9

机器学习/25C05_压缩感知.pdf · p.9

打开原文

Part 3 · 推导与结构

为什么 ℓ1 能替代 ℓ0

最直接的想法是找最稀疏的解——用 $\ell_0$ "范数"（非零元素个数）做目标：

\hat{\mathbf{s}} = \arg\min \|\mathbf{s}\|_0 \quad \text{s.t.} \quad \mathbf{y} = A\mathbf{s}

但 $\ell_0$ 优化是组合搜索问题，NP 难。 $\ell_1$ 范数是 $\ell_0$ 最自然的凸松弛：

\hat{\mathbf{s}} = \arg\min \|\mathbf{s}\|_1 \quad \text{s.t.} \quad \mathbf{y} = A\mathbf{s}

ℓ0-ℓ1 等价性定理（Candès-Tao, 2005）

若测量矩阵 $$A$$ 满足 $$2k$$ -RIP 且 $\delta_{2k} < \sqrt{2} - 1$ ，则 $\ell_1$ 最小化的解精确等于 $\ell_0$ 最小化的解（即原始 $$k$$ -稀疏信号 $\mathbf{s}$ ）。

直觉上可以这样理解： $\ell_1$ 范数在几何上对应菱形等高线， $\ell_0$ 对应坐标轴上的点。当解足够稀疏时，菱形的最顶端恰好会落在坐标轴上——凸松弛没有丢失最优解。

关键认识：

\ell_1

替代

\ell_0

不是"差不多"，而是在 RIP 条件下严格等价。这是一种用凸性换可计算性的经典策略。

PDF稀疏性的意义p.10

机器学习/25C05_压缩感知.pdf · p.10

打开原文

Part 3 续 · 字典学习

从固定基到数据驱动表示

真实信号未必在固定的傅里叶基或小波基下稀疏。字典学习让稀疏表示从"选一个预设基"进化到"为数据量身学习表示"：

字典学习目标函数

给定 $$N$$ 个样本 $\{\mathbf{x}^{(i)}\}$ ，联合优化字典 $$B$$ 和稀疏系数 $\{\alpha^{(i)}\}$ ：

\min_{B, \alpha_i} \sum_{i=1}^N \left\|\mathbf{x}^{(i)} - B \alpha^{(i)}\right\|_2^2 + \lambda \|\alpha^{(i)}\|_1

第一项保证重建精度，第二项（ $\ell_1$ 正则）强制系数稀疏。优化策略为交替迭代：固定 $$B$$ 解 $\alpha$ （LASSO 问题），固定 $\alpha$ 更新 $$B$$ （最小二乘）。

PDF字典学习目标函数p.12

机器学习/25C05_压缩感知.pdf · p.12

打开原文

Part 4 · 性质与比较

稀疏表示分类 (SRC)

稀疏性不只是采样理论，它还能直接驱动分类器。SRC 的核心想法非常优雅：将测试样本表示为全体训练样本的稀疏线性组合，非零系数自然指向正确的类别。

SRC 分类流程

将所有类的训练样本按列拼成矩阵 $A = [A_1, A_2, \ldots, A_C] \in \mathbb{R}^{d \times n}$ 。
求解 $\ell_1$ 最小化： $\hat{\mathbf{x}} = \arg\min \|\mathbf{x}\|_1$ s.t. $\|A\mathbf{x} - \mathbf{y}\|_2 \leq \varepsilon$ （允许噪声容忍）。
对每个类别 $$i$$ ，计算残差 $r_i(\mathbf{y}) = \|\mathbf{y} - A \delta_i(\hat{\mathbf{x}})\|_2$ ，其中 $\delta_i$ 只保留第 $$i$$ 类对应的系数。
分类结果： $\hat{c} = \arg\min_i \, r_i(\mathbf{y})$ 。

方法	需要显式特征工程	对遮挡的鲁棒性	理论保证
最近邻分类器	是（距离度量选择）	差	无
SVM	是（核选择）	一般	间隔理论
SRC	否（稀疏系数自动选类）	强（扩展矩阵 $$[A, I]$$ 吸收遮挡）	RIP + $\ell_1$ 等价性

PDFSRC 人脸识别流程p.15

机器学习/25C05_压缩感知.pdf · p.15

打开原文

Part 5 · 例题与应用

例 1：ℓ1 替代 ℓ0 的凸性直觉

例题：在二维空间中看 ℓ0 / ℓ1 / ℓ2 的等高线差异

题目：在 $\mathbb{R}^2$ 中， $\|\mathbf{s}\|_0 \leq 1$ 对应坐标轴上的点， $\|\mathbf{s}\|_1 \leq 1$ 对应菱形， $\|\mathbf{s}\|_2 \leq 1$ 对应圆形。为什么稀疏问题中 $\ell_1$ 菱形比 $\ell_2$ 圆更容易碰到坐标轴？

第一步： $\ell_2$ 约束的等高线是圆，与欠定系统的解空间（一条直线）相切时，切点几乎不会在坐标轴上。
第二步： $\ell_1$ 约束的等高线是菱形，菱形的顶点就在坐标轴上。当解空间直线与菱形相切时，切点很自然地落在顶点——即某个分量为零。
第三步：这正是 $\ell_1$ 产生稀疏解的几何原因。

答案： $\ell_1$ 的菱形形状使得优化解天然偏向坐标轴（稀疏解），而 $\ell_2$ 的圆形没有这种偏好。

易错点：别把"稀疏"理解成数据本身看起来稀少。稀疏指的是在合适的表示基下，信息的能量集中在极少数系数上。

Part 5 续 · 例题与应用

例 2：SRC 端到端人脸识别

例题：3 类人脸、稀疏系数如何自动指向正确类别

题目：假设有 3 类人脸，每类 2 张训练图片（每张压缩到 5 维向量）。训练矩阵 $A = [A_1 \,|\, A_2 \,|\, A_3] \in \mathbb{R}^{5 \times 6}$ 。测试样本 $\mathbf{y}$ 来自第 1 类。写出 SRC 的判断过程。

求解： $\hat{\mathbf{x}} = \arg\min \|\mathbf{x}\|_1$ s.t. $A\mathbf{x} = \mathbf{y}$ 。
理想情况： $\hat{\mathbf{x}}$ 只有对应 $$A_1$$ 的两个位置非零（如 $\hat{x}_1 = 0.6, \hat{x}_2 = 0.4$ ，其余为 0）。
计算残差： $r_1 = \|\mathbf{y} - A_1 \cdot [0.6, 0.4]^T\|_2 \approx 0$ ， $$r_2, r_3$$ 较大。
分类： $\hat{c} = \arg\min \{r_1, r_2, r_3\} = 1$ 。

答案：稀疏系数自然集中在第 1 类对应的列上，最小残差判对类别。整个过程无需手动设计特征或训练分类器。

易错点：如果训练样本不足或噪声太大，

\hat{\mathbf{x}}

可能不再集中在单一类别上。此时需要正则化参数

\varepsilon

控制容忍度。

PDFSRC 对遮挡的鲁棒性p.17

机器学习/25C05_压缩感知.pdf · p.17

打开原文

Part 6 · 后续章节

这一讲会把后面哪些内容撑起来

后续用途 / 连接

L06 采样方法：贝叶斯后验 $p(\mathbf{z}|\mathbf{x})$ 通常不可解析；稀疏先验（Laplace 分布）正是压缩感知中 $\ell_1$ 正则的概率解释。
L07 神经网络：网络剪枝、稀疏激活（ReLU 只保留正半轴）都是稀疏性在深度学习中的体现。
L08 Transformer：稀疏注意力（Sparse Attention）、混合专家（MoE）直接继承了"只激活少量关键组件"的思想。

复习速查

核心问题：传统"先采后压"范式浪费了采样资源。
稀疏性：信号在某组基下只有少数非零系数——这是压缩感知的理论基石。
RIP：测量矩阵近似保持稀疏向量的长度，是 $\ell_1$ 重建有效的前提。
ℓ1 替代 ℓ0：凸松弛 + RIP 保证 = 可高效计算的精确重建。
字典学习：从固定基到数据驱动的自适应表示。
SRC：稀疏系数自动指向正确类别，无需显式分类器。

参考来源

课程课件：25C05 第 3–5 页（传统采样与压缩感知动机）
课程课件：25C05 第 9–11 页（RIP、稀疏性、 $\ell_0/\ell_1$ 优化）
课程课件：25C05 第 12–14 页（字典学习）
课程课件：25C05 第 15–24 页（SRC 人脸识别完整流程）
公开参考：Princeton COS 521 Lecture 21（https://www.cs.princeton.edu/courses/archive/fall18/cos521/Lectures/lec21.pdf）
公开参考：IISc E9 203 课程讲义（https://ece.iisc.ac.in/~cmurthy/e9-203-compressed-sensing-and-sparse-signal-processing-video-lectures-and-notes-2/）

上一页集成学习与随机森林 · L04 枢纽页高级机器学习下一页采样方法与蒙特卡罗方法 · L06