矩阵分解全景
矩阵分解(Matrix Factorization)是将一个矩阵拆成若干个"更简单"的矩阵之积。核心思想:把复杂问题化为简单问题的组合。
类比:因式分解把 $x^2 - 1$ 拆成 $(x-1)(x+1)$,立刻看出根的位置。矩阵分解也是一样——分解之后,方程组求解、特征值计算、低秩近似等问题都变得直接。
线性代数课程中出现了四种核心分解:
| 分解 | 条件 | 形式 | 核心用途 |
|---|---|---|---|
| LU | 顺序主子式 $\neq 0$ | $A = LU$ | 解线性方程组 |
| Cholesky | 对称正定 | $A = LL^T$ | 正定方程组(最快) |
| QR | 任意矩阵 | $A = QR$ | 最小二乘、特征值 |
| SVD | 任意矩阵 | $A = U\Sigma V^T$ | 低秩近似、伪逆 |
来源:高斯消元过程本身。对矩阵 $A$ 做行消元,相当于左乘一系列初等矩阵。把这些操作"打包"起来,就得到了 LU 分解。
LU 分解
设 $A \in \mathbb{R}^{n \times n}$,若所有顺序主子式 $\Delta_k \neq 0$($k=1,\dots,n-1$),则存在单位下三角矩阵 $L$ 和上三角矩阵 $U$,使得
其中 $L$ 的对角线元素全为 1,$U$ 的对角线元素是高斯消元的主元。
如何使用:解 $A\mathbf{x} = \mathbf{b}$ 分两步走:
- 解 $L\mathbf{y} = \mathbf{b}$(前代,从上往下)
- 解 $U\mathbf{x} = \mathbf{y}$(回代,从下往上)
计算量 $\frac{2}{3}n^3$(分解)+ $2n^2$(求解),远优于求逆矩阵再相乘。
LU 的局限
- 要求顺序主子式不为零(不满足时需要选主元 $PA = LU$)
- 只适用于方阵
- 分解不唯一(除非限定 $L$ 为单位下三角)
来源:当 $A$ 是实对称正定矩阵时,LU 分解中的 $U$ 恰好等于 $L^T$(乘以一个对角矩阵)。调整对角元后,得到更紧凑的形式。
Cholesky 分解
设 $A \in \mathbb{R}^{n \times n}$ 是实对称正定矩阵,则存在唯一的下三角矩阵 $L$(对角元 $> 0$),使得
相比 LU 的优势:
| 对比项 | LU 分解 | Cholesky 分解 |
|---|---|---|
| 适用条件 | 顺序主子式 $\neq 0$ | 对称正定 |
| 唯一性 | 需指定 $L$ 为单位下三角 | 唯一(对角元 $> 0$) |
| 计算量 | $\frac{1}{3}n^3$ | $\frac{1}{6}n^3$(减半) |
| 存储 | 需存 $L$ 和 $U$ | 只需存 $L$($U = L^T$) |
| 数值稳定性 | 一般,需选主元 | 天然稳定 |
来源:LU/Cholesky 用三角矩阵做分解,但三角矩阵的性质不够好。换一个思路:用正交矩阵($Q^TQ = I$)做分解。正交矩阵保持长度和角度不变,数值性质天然优秀。
QR 分解
设 $A \in \mathbb{R}^{m \times n}$($m \geq n$),则存在矩阵 $Q \in \mathbb{R}^{m \times n}$(列正交,$Q^TQ = I$)和上三角矩阵 $R \in \mathbb{R}^{n \times n}$,使得
与 Schmidt 正交化的关系:QR 分解就是 Schmidt 正交化的矩阵写法。对 $A$ 的列做正交化得到 $\mathbf{q}_1, \dots, \mathbf{q}_n$,反过来每个原始列可表示为 $\mathbf{a}_j = \sum_{i=1}^{j} r_{ij}\mathbf{q}_i$,组合系数组成上三角矩阵 $R$。
QR 相比 LU 的本质提升
- 适用范围:任意 $m \times n$ 矩阵(不要求方阵,不要求满秩)
- 数值稳定性:正交变换不放大误差(条件数为 1),这是 QR 在数值计算中地位崇高根本原因
- 最小二乘:$A\mathbf{x} = \mathbf{b}$ 无解时,$R\mathbf{x} = Q^T\mathbf{b}$ 直接给出最小二乘解
例题:用 Schmidt 正交化求 QR 分解
题目:设 $A = \begin{pmatrix} 1 & 1 \\ 1 & 0 \\ 0 & 1 \end{pmatrix}$,求 $A$ 的 QR 分解。
解:
- 第一列:$\mathbf{a}_1 = (1, 1, 0)^T$,$\|\mathbf{a}_1\| = \sqrt{2}$,$\mathbf{q}_1 = \frac{1}{\sqrt{2}}(1, 1, 0)^T$,$r_{11} = \sqrt{2}$
- 投影:$r_{12} = \mathbf{q}_1^T \mathbf{a}_2 = \frac{1}{\sqrt{2}}$
- 正交化:$\mathbf{a}_2 - r_{12}\mathbf{q}_1 = (1, 0, 1)^T - \frac{1}{2}(1, 1, 0)^T = (\frac{1}{2}, -\frac{1}{2}, 1)^T$
- 归一化:$\|\cdot\| = \frac{\sqrt{6}}{2}$,$\mathbf{q}_2 = \frac{1}{\sqrt{6}}(1, -1, 2)^T$,$r_{22} = \frac{\sqrt{6}}{2}$
答案:
来源:QR 分解做到了"正交 + 三角",但三角矩阵 $R$ 仍然不够简单。SVD 更进一步:把两个方向都正交化,中间只留一个对角矩阵。
奇异值分解(SVD)
设 $A \in \mathbb{R}^{m \times n}$,则存在正交矩阵 $U \in \mathbb{R}^{m \times m}$、正交矩阵 $V \in \mathbb{R}^{n \times n}$ 和对角矩阵 $\Sigma \in \mathbb{R}^{m \times n}$,使得
其中 $\Sigma$ 的对角元素 $\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0$ 称为奇异值,$r = \text{rank}(A)$。
几何意义:任何线性变换都可以分解为三步:旋转($V^T$)→ 缩放($\Sigma$,沿坐标轴拉伸/压缩)→ 旋转($U$)。
更详细的 SVD 讨论(Eckart-Young 定理、PCA 关联、应用场景)见
。SVD 是 QR 的推广
对列满秩的 $A$,先做 QR 分解 $A = QR$,再对上三角矩阵 $R$ 做进一步的正交对角化 $R = U'\Sigma V^T$,就得到 $A = (QU')\Sigma V^T$。这就是 SVD——QR 是通往 SVD 的跳板。
四种分解不是孤立的,它们之间存在清晰的特化关系:
递进关系
| 维度 | LU | Cholesky | QR | SVD |
|---|---|---|---|---|
| 矩阵形状 | 方阵 | 方阵 | 任意 $m \times n$ | 任意 $m \times n$ |
| 额外条件 | 主子式 $\neq 0$ | 对称正定 | 无 | 无 |
| 分解形式 | $L$(三角)$U$(三角) | $L$(三角)$L^T$(三角) | $Q$(正交)$R$(三角) | $U$(正交)$\Sigma$(对角)$V$(正交) |
| 唯一性 | 限定 $L$ 后唯一 | 唯一 | 列满秩 + $r_{ii}>0$ 时唯一 | 奇异值唯一,$U,V$ 不唯一 |
| 计算量 | $\frac{1}{3}n^3$ | $\frac{1}{6}n^3$ | $2mn^2$ | $O(mn^2)$(更大常数) |
| 数值稳定性 | 一般(需选主元) | 好 | 好 | 最好 |
| 首要应用 | 解 $A\mathbf{x}=\mathbf{b}$ | 正定方程组 | 最小二乘 | 低秩近似 / PCA |
选择指南:
- 解 $A\mathbf{x} = \mathbf{b}$($A$ 方阵)→ 先试 LU(最通用);若 $A$ 对称正定 → Cholesky(更快更稳)
- 最小二乘问题 → QR(数值稳定的标准方法)
- 需要了解矩阵的"本质结构"(秩、能量分布、低秩近似)→ SVD
- 特征值计算 → QR 迭代(反复做 QR 分解)
LU / Cholesky:解方程组
解 $A\mathbf{x} = \mathbf{b}$ 时,LU 分解将问题拆成两个三角方程组,用前代和回代求解。Cholesky 是正定情形下的加速版。核心优势:换右端项 $\mathbf{b}$ 时不需要重新分解——只需重做前代回代($O(n^2)$),远快于重新求逆。
QR:最小二乘与特征值
最小二乘:$A\mathbf{x} = \mathbf{b}$ 无解时,QR 分解给出最小二乘解 $\hat{\mathbf{x}} = R^{-1}Q^T\mathbf{b}$。这比法方程 $A^TA\mathbf{x} = A^T\mathbf{b}$ 数值更稳定(法方程会将条件数平方)。
QR 迭代:反复执行 $A_k = Q_kR_k$,$A_{k+1} = R_kQ_k$,序列 $\{A_k\}$ 收敛到上三角矩阵(Schur 形),对角元就是特征值。这是求全部特征值的标准数值方法。
SVD:低秩近似与数据压缩
Eckart-Young 定理:截断 SVD 给出最优秩-$k$ 近似 $\|A - A_k\| = \sigma_{k+1}$,在所有秩-$k$ 矩阵中误差最小。
应用链:图像压缩(丢弃小奇异值)→ 推荐系统(用户-物品矩阵补全)→ PCA(数据中心化后 SVD 等价于特征值分解)→ 伪逆($A^+ = V\Sigma^+ U^T$)。
🎯 核心要点
- LU:消元法的矩阵版,解方程组的基础工具。方阵 + 主子式非零。
- Cholesky:LU 的正定特化版,计算量减半,唯一且稳定。
- QR:从三角升级到正交,适用范围扩大到任意矩阵,最小二乘和特征值计算的标准工具。
- SVD:双侧正交 + 对角化,最通用的分解。低秩近似、PCA、伪逆的理论基础。
- 递进关系:条件从严格到宽松,结构从简单到完备,计算量从小到大——越通用的分解,代价越高。
📚 参考资源
- 电子科技大学线性代数课程讲义:1.2(高斯消元)、1.3(初等矩阵与 QR)、2.4(行列式与可逆性)、6.2(正定性与 Cholesky)
- Gilbert Strang, Introduction to Linear Algebra, §2.3–2.7, §6.1–6.3