ESC
输入关键词搜索文章
目录

压缩感知

高级机器学习 · L05
先承认信号本质上很稀,再重新设计采样与重建
6核心概念
3完整推导
7课件引用
5参考来源
Part 0 · 学习目标
本节在课程中的位置

理解传统"先采样再压缩"的范式为什么在某些场景下本末倒置,以及稀疏性如何重写采样与重建的数学条件。掌握 RIP、$\ell_1$ 优化和字典学习的核心逻辑。

从课程脉络看:L04 的集成学习用"多样性"对抗高维复杂性,L05 则用"稀疏性"作为另一种结构先验。两者在高维数据处理中互为补充。同时,稀疏先验在 L07/L08 的神经网络剪枝和注意力稀疏化中会以新形式再次出现。

前置知识回顾

  • 线性代数:矩阵运算、奇异值分解、欠定方程组。作用:测量模型 $y = \Phi x$ 本质上是一个欠定线性系统。去哪里补:L02 线性模型。
  • 凸优化$\ell_1$ 范数是凸函数,$\ell_0$ 范数不是。作用:理解为什么 $\ell_1$ 可以替代 $\ell_0$。去哪里补:Boyd & Vandenberghe《Convex Optimization》。
  • 信号处理直觉:Nyquist 采样定理、频域表示。作用:理解压缩感知对传统采样率的突破。去哪里补:DSP 课程笔记。
Part 1 · 背景问题
为什么"先采样再压缩"可能是浪费

传统数字信号采集遵循 Nyquist-Shannon 采样定理:采样频率必须达到信号最高频率的 2 倍以上才能无失真重建。按这个准则采集到的数据量往往极大。但随后,大多数信号又会被压缩编码——N 个采样值最终只保留 K 个主要系数。

这就引出了一个尖锐的问题:既然最终只保留 K 个系数,为什么一开始要采 N 个?

PDF传统采样-压缩的矛盾p.3

机器学习/25C05_压缩感知.pdf · p.3

打开原文

压缩感知的回答是:如果信号在某组基下是稀疏的(只有少数系数显著非零),那么可以在远低于 Nyquist 率的采样次数下直接获取压缩后的测量值,再通过优化算法从少量测量中精确重建原信号。

核心假设:压缩感知真正赌的是"世界有结构"——而这个结构恰好能用稀疏性表达。如果信号完全不稀疏,压缩感知的保证就不成立。
Part 2 · 概念定义
从稀疏性到重建条件

测量模型

设原始信号 $\mathbf{x} \in \mathbb{R}^N$ 在某组基 $\Psi$ 下可表示为 $\mathbf{x} = \Psi \mathbf{s}$,其中 $\mathbf{s}$$k$-稀疏向量(至多 $k$ 个非零分量)。测量过程只保留 $M \ll N$ 个线性投影:

$$\mathbf{y} = \Phi \mathbf{x} = \Phi \Psi \mathbf{s} = A \mathbf{s}$$

其中 $\Phi \in \mathbb{R}^{M \times N}$ 是测量矩阵,$A = \Phi \Psi \in \mathbb{R}^{M \times N}$

这是一个典型的欠定线性系统(方程数 $M$ 少于未知数 $N$)。如果没有额外假设,解不唯一。但稀疏性恰好提供了所需的额外约束。

受限等距性质 (RIP)

测量矩阵 $A$ 满足 $k$-RIP,若存在常数 $\delta_k \in (0,1)$ 使得对任意 $k$-稀疏向量 $\mathbf{s}$

$$(1 - \delta_k) \|\mathbf{s}\|_2^2 \leq \|A \mathbf{s}\|_2^2 \leq (1 + \delta_k) \|\mathbf{s}\|_2^2$$

RIP 要求测量矩阵在子空间上近似保持向量长度——即测量过程不会扭曲稀疏信号之间的距离关系。

PDFRIP 定义与 ℓ0/ℓ1 优化p.9

机器学习/25C05_压缩感知.pdf · p.9

打开原文

Part 3 · 推导与结构
为什么 ℓ1 能替代 ℓ0

最直接的想法是找最稀疏的解——用 $\ell_0$ "范数"(非零元素个数)做目标:

$$\hat{\mathbf{s}} = \arg\min \|\mathbf{s}\|_0 \quad \text{s.t.} \quad \mathbf{y} = A\mathbf{s}$$

$\ell_0$ 优化是组合搜索问题,NP 难。$\ell_1$ 范数是 $\ell_0$ 最自然的凸松弛:

$$\hat{\mathbf{s}} = \arg\min \|\mathbf{s}\|_1 \quad \text{s.t.} \quad \mathbf{y} = A\mathbf{s}$$

ℓ0-ℓ1 等价性定理(Candès-Tao, 2005)

若测量矩阵 $A$ 满足 $2k$-RIP 且 $\delta_{2k} < \sqrt{2} - 1$,则 $\ell_1$ 最小化的解精确等于 $\ell_0$ 最小化的解(即原始 $k$-稀疏信号 $\mathbf{s}$)。

直觉上可以这样理解:$\ell_1$ 范数在几何上对应菱形等高线,$\ell_0$ 对应坐标轴上的点。当解足够稀疏时,菱形的最顶端恰好会落在坐标轴上——凸松弛没有丢失最优解。

关键认识$\ell_1$ 替代 $\ell_0$ 不是"差不多",而是在 RIP 条件下严格等价。这是一种用凸性换可计算性的经典策略。
PDF稀疏性的意义p.10

机器学习/25C05_压缩感知.pdf · p.10

打开原文

Part 3 续 · 字典学习
从固定基到数据驱动表示

真实信号未必在固定的傅里叶基或小波基下稀疏。字典学习让稀疏表示从"选一个预设基"进化到"为数据量身学习表示":

字典学习目标函数

给定 $N$ 个样本 $\{\mathbf{x}^{(i)}\}$,联合优化字典 $B$ 和稀疏系数 $\{\alpha^{(i)}\}$

$$\min_{B, \alpha_i} \sum_{i=1}^N \left\|\mathbf{x}^{(i)} - B \alpha^{(i)}\right\|_2^2 + \lambda \|\alpha^{(i)}\|_1$$

第一项保证重建精度,第二项($\ell_1$ 正则)强制系数稀疏。优化策略为交替迭代:固定 $B$$\alpha$(LASSO 问题),固定 $\alpha$ 更新 $B$(最小二乘)。

PDF字典学习目标函数p.12

机器学习/25C05_压缩感知.pdf · p.12

打开原文

Part 4 · 性质与比较
稀疏表示分类 (SRC)

稀疏性不只是采样理论,它还能直接驱动分类器。SRC 的核心想法非常优雅:将测试样本表示为全体训练样本的稀疏线性组合,非零系数自然指向正确的类别。

SRC 分类流程

  1. 将所有类的训练样本按列拼成矩阵 $A = [A_1, A_2, \ldots, A_C] \in \mathbb{R}^{d \times n}$
  2. 求解 $\ell_1$ 最小化:$\hat{\mathbf{x}} = \arg\min \|\mathbf{x}\|_1$ s.t. $\|A\mathbf{x} - \mathbf{y}\|_2 \leq \varepsilon$(允许噪声容忍)。
  3. 对每个类别 $i$,计算残差 $r_i(\mathbf{y}) = \|\mathbf{y} - A \delta_i(\hat{\mathbf{x}})\|_2$,其中 $\delta_i$ 只保留第 $i$ 类对应的系数。
  4. 分类结果:$\hat{c} = \arg\min_i \, r_i(\mathbf{y})$
方法需要显式特征工程对遮挡的鲁棒性理论保证
最近邻分类器是(距离度量选择)
SVM是(核选择)一般间隔理论
SRC否(稀疏系数自动选类)强(扩展矩阵 $[A, I]$ 吸收遮挡)RIP + $\ell_1$ 等价性
PDFSRC 人脸识别流程p.15

机器学习/25C05_压缩感知.pdf · p.15

打开原文

Part 5 · 例题与应用
例 1:ℓ1 替代 ℓ0 的凸性直觉

例题:在二维空间中看 ℓ0 / ℓ1 / ℓ2 的等高线差异

题目:$\mathbb{R}^2$ 中,$\|\mathbf{s}\|_0 \leq 1$ 对应坐标轴上的点,$\|\mathbf{s}\|_1 \leq 1$ 对应菱形,$\|\mathbf{s}\|_2 \leq 1$ 对应圆形。为什么稀疏问题中 $\ell_1$ 菱形比 $\ell_2$ 圆更容易碰到坐标轴?

  1. 第一步$\ell_2$ 约束的等高线是圆,与欠定系统的解空间(一条直线)相切时,切点几乎不会在坐标轴上。
  2. 第二步$\ell_1$ 约束的等高线是菱形,菱形的顶点就在坐标轴上。当解空间直线与菱形相切时,切点很自然地落在顶点——即某个分量为零。
  3. 第三步:这正是 $\ell_1$ 产生稀疏解的几何原因。

答案: $\ell_1$ 的菱形形状使得优化解天然偏向坐标轴(稀疏解),而 $\ell_2$ 的圆形没有这种偏好。

易错点:别把"稀疏"理解成数据本身看起来稀少。稀疏指的是在合适的表示基下,信息的能量集中在极少数系数上。
Part 5 续 · 例题与应用
例 2:SRC 端到端人脸识别

例题:3 类人脸、稀疏系数如何自动指向正确类别

题目:假设有 3 类人脸,每类 2 张训练图片(每张压缩到 5 维向量)。训练矩阵 $A = [A_1 \,|\, A_2 \,|\, A_3] \in \mathbb{R}^{5 \times 6}$。测试样本 $\mathbf{y}$ 来自第 1 类。写出 SRC 的判断过程。

  1. 求解$\hat{\mathbf{x}} = \arg\min \|\mathbf{x}\|_1$ s.t. $A\mathbf{x} = \mathbf{y}$
  2. 理想情况$\hat{\mathbf{x}}$ 只有对应 $A_1$ 的两个位置非零(如 $\hat{x}_1 = 0.6, \hat{x}_2 = 0.4$,其余为 0)。
  3. 计算残差$r_1 = \|\mathbf{y} - A_1 \cdot [0.6, 0.4]^T\|_2 \approx 0$$r_2, r_3$ 较大。
  4. 分类$\hat{c} = \arg\min \{r_1, r_2, r_3\} = 1$

答案:稀疏系数自然集中在第 1 类对应的列上,最小残差判对类别。整个过程无需手动设计特征或训练分类器。

易错点:如果训练样本不足或噪声太大,$\hat{\mathbf{x}}$ 可能不再集中在单一类别上。此时需要正则化参数 $\varepsilon$ 控制容忍度。
PDFSRC 对遮挡的鲁棒性p.17

机器学习/25C05_压缩感知.pdf · p.17

打开原文

Part 6 · 后续章节
这一讲会把后面哪些内容撑起来

后续用途 / 连接

  • L06 采样方法:贝叶斯后验 $p(\mathbf{z}|\mathbf{x})$ 通常不可解析;稀疏先验(Laplace 分布)正是压缩感知中 $\ell_1$ 正则的概率解释。
  • L07 神经网络:网络剪枝、稀疏激活(ReLU 只保留正半轴)都是稀疏性在深度学习中的体现。
  • L08 Transformer:稀疏注意力(Sparse Attention)、混合专家(MoE)直接继承了"只激活少量关键组件"的思想。

复习速查

  • 核心问题:传统"先采后压"范式浪费了采样资源。
  • 稀疏性:信号在某组基下只有少数非零系数——这是压缩感知的理论基石。
  • RIP:测量矩阵近似保持稀疏向量的长度,是 $\ell_1$ 重建有效的前提。
  • ℓ1 替代 ℓ0:凸松弛 + RIP 保证 = 可高效计算的精确重建。
  • 字典学习:从固定基到数据驱动的自适应表示。
  • SRC:稀疏系数自动指向正确类别,无需显式分类器。

参考来源

  • 课程课件:25C05 第 3–5 页(传统采样与压缩感知动机)
  • 课程课件:25C05 第 9–11 页(RIP、稀疏性、$\ell_0/\ell_1$ 优化)
  • 课程课件:25C05 第 12–14 页(字典学习)
  • 课程课件:25C05 第 15–24 页(SRC 人脸识别完整流程)
  • 公开参考:Princeton COS 521 Lecture 21(https://www.cs.princeton.edu/courses/archive/fall18/cos521/Lectures/lec21.pdf)
  • 公开参考:IISc E9 203 课程讲义(https://ece.iisc.ac.in/~cmurthy/e9-203-compressed-sensing-and-sparse-signal-processing-video-lectures-and-notes-2/)