矩阵分解全景—— LU · Cholesky · QR

2026/05/26 19:30:00

Part 0 · 全景概览

为什么需要矩阵分解？

矩阵分解（Matrix Factorization）是将一个矩阵拆成若干个"更简单"的矩阵之积。核心思想：把复杂问题化为简单问题的组合。

类比：因式分解把 $$x^2 - 1$$ 拆成 $$(x-1)(x+1)$$ ，立刻看出根的位置。矩阵分解也是一样——分解之后，方程组求解、特征值计算、低秩近似等问题都变得直接。

线性代数课程中出现了四种核心分解：

分解	条件	形式	核心用途
LU	顺序主子式 $\neq 0$	$$A = LU$$	解线性方程组
Cholesky	对称正定	$$A = LL^T$$	正定方程组（最快）
QR	任意矩阵	$$A = QR$$	最小二乘、特征值
SVD	任意矩阵	$A = U\Sigma V^T$	低秩近似、伪逆

一条递进线：LU 是最基础的三角分解；Cholesky 是 LU 在对称正定条件下的特化（更快、更稳定）；QR 把"三角"换成"正交"（适用范围扩大到任意矩阵）；SVD 则是终极形式——不仅要求正交，还把对角化做彻底，适用于任何形状的矩阵。

Part 1 · LU 分解

高斯消元法的矩阵语言——

$A = LU$

来源：高斯消元过程本身。对矩阵 $$A$$ 做行消元，相当于左乘一系列初等矩阵。把这些操作"打包"起来，就得到了 LU 分解。

PDF高斯消元法p.1

pdf/线性代数/1.2.pdf · p.1

打开原文

LU 分解

设 $A \in \mathbb{R}^{n \times n}$ ，若所有顺序主子式 $\Delta_k \neq 0$ （ $k=1,\dots,n-1$ ），则存在单位下三角矩阵 $$L$$ 和上三角矩阵 $$U$$ ，使得

$$A = LU$$

其中 $$L$$ 的对角线元素全为 1， $$U$$ 的对角线元素是高斯消元的主元。

如何使用：解 $A\mathbf{x} = \mathbf{b}$ 分两步走：

解 $L\mathbf{y} = \mathbf{b}$ （前代，从上往下）
解 $U\mathbf{x} = \mathbf{y}$ （回代，从下往上）

计算量 $\frac{2}{3}n^3$ （分解）+ $$2n^2$$ （求解），远优于求逆矩阵再相乘。

LU 的局限

要求顺序主子式不为零（不满足时需要选主元 $$PA = LU$$ ）
只适用于方阵
分解不唯一（除非限定 $$L$$ 为单位下三角）

Part 2 · Cholesky 分解

LU 的正定特化——

$A = LL^T$

来源：当 $$A$$ 是实对称正定矩阵时，LU 分解中的 $$U$$ 恰好等于 $$L^T$$ （乘以一个对角矩阵）。调整对角元后，得到更紧凑的形式。

Cholesky 分解

设 $A \in \mathbb{R}^{n \times n}$ 是实对称正定矩阵，则存在唯一的下三角矩阵 $$L$$ （对角元 $$> 0$$ ），使得

$$A = LL^T$$

相比 LU 的优势：

对比项	LU 分解	Cholesky 分解
适用条件	顺序主子式 $\neq 0$	对称正定
唯一性	需指定 $$L$$ 为单位下三角	唯一（对角元 $$> 0$$ ）
计算量	$\frac{1}{3}n^3$	$\frac{1}{6}n^3$ （减半）
存储	需存 $$L$$ 和 $$U$$	只需存 $$L$$ （ $$U = L^T$$ ）
数值稳定性	一般，需选主元	天然稳定

直觉：对称正定矩阵自带"好结构"——所有特征值为正、所有主子式为正。Cholesky 分解就是在利用这些"好性质"把 LU 做到极致：计算量减半、存储减半、还不用选主元。

Part 3 · QR 分解

从三角到正交——

$A = QR$

来源：LU/Cholesky 用三角矩阵做分解，但三角矩阵的性质不够好。换一个思路：用正交矩阵（ $$Q^TQ = I$$ ）做分解。正交矩阵保持长度和角度不变，数值性质天然优秀。

PDFQR 分解p.5

pdf/线性代数/1.3.pdf · p.5

打开原文

QR 分解

设 $A \in \mathbb{R}^{m \times n}$ （ $m \geq n$ ），则存在矩阵 $Q \in \mathbb{R}^{m \times n}$ （列正交， $$Q^TQ = I$$ ）和上三角矩阵 $R \in \mathbb{R}^{n \times n}$ ，使得

$$A = QR$$

与 Schmidt 正交化的关系：QR 分解就是 Schmidt 正交化的矩阵写法。对 $$A$$ 的列做正交化得到 $\mathbf{q}_1, \dots, \mathbf{q}_n$ ，反过来每个原始列可表示为 $\mathbf{a}_j = \sum_{i=1}^{j} r_{ij}\mathbf{q}_i$ ，组合系数组成上三角矩阵 $$R$$ 。

QR 相比 LU 的本质提升

适用范围：任意 $m \times n$ 矩阵（不要求方阵，不要求满秩）
数值稳定性：正交变换不放大误差（条件数为 1），这是 QR 在数值计算中地位崇高根本原因
最小二乘： $A\mathbf{x} = \mathbf{b}$ 无解时， $R\mathbf{x} = Q^T\mathbf{b}$ 直接给出最小二乘解

例题：用 Schmidt 正交化求 QR 分解

题目：设 $A = \begin{pmatrix} 1 & 1 \\ 1 & 0 \\ 0 & 1 \end{pmatrix}$ ，求 $$A$$ 的 QR 分解。

解：

第一列： $\mathbf{a}_1 = (1, 1, 0)^T$ ， $\|\mathbf{a}_1\| = \sqrt{2}$ ， $\mathbf{q}_1 = \frac{1}{\sqrt{2}}(1, 1, 0)^T$ ， $r_{11} = \sqrt{2}$
投影： $r_{12} = \mathbf{q}_1^T \mathbf{a}_2 = \frac{1}{\sqrt{2}}$
正交化： $\mathbf{a}_2 - r_{12}\mathbf{q}_1 = (1, 0, 1)^T - \frac{1}{2}(1, 1, 0)^T = (\frac{1}{2}, -\frac{1}{2}, 1)^T$
归一化： $\|\cdot\| = \frac{\sqrt{6}}{2}$ ， $\mathbf{q}_2 = \frac{1}{\sqrt{6}}(1, -1, 2)^T$ ， $r_{22} = \frac{\sqrt{6}}{2}$

答案：

Q = \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{6}} \\ 0 & \frac{2}{\sqrt{6}} \end{pmatrix}, \quad R = \begin{pmatrix} \sqrt{2} & \frac{1}{\sqrt{2}} \\ 0 & \frac{\sqrt{6}}{2} \end{pmatrix}

Part 4 · SVD（奇异值分解）

终极分解——

A = U\Sigma V^T

来源：QR 分解做到了"正交 + 三角"，但三角矩阵 $$R$$ 仍然不够简单。SVD 更进一步：把两个方向都正交化，中间只留一个对角矩阵。

奇异值分解（SVD）

设 $A \in \mathbb{R}^{m \times n}$ ，则存在正交矩阵 $U \in \mathbb{R}^{m \times m}$ 、正交矩阵 $V \in \mathbb{R}^{n \times n}$ 和对角矩阵 $\Sigma \in \mathbb{R}^{m \times n}$ ，使得

A = U\Sigma V^T

其中 $\Sigma$ 的对角元素 $\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0$ 称为奇异值， $r = \text{rank}(A)$ 。

几何意义：任何线性变换都可以分解为三步：旋转（ $$V^T$$ ）→ 缩放（ $\Sigma$ ，沿坐标轴拉伸/压缩）→ 旋转（ $$U$$ ）。

更详细的 SVD 讨论（Eckart-Young 定理、PCA 关联、应用场景）见

PDFSVD 专题笔记

svd-linear-algebra.html

打开原文

。

SVD 是 QR 的推广

对列满秩的 $$A$$ ，先做 QR 分解 $$A = QR$$ ，再对上三角矩阵 $$R$$ 做进一步的正交对角化 $R = U'\Sigma V^T$ ，就得到 $A = (QU')\Sigma V^T$ 。这就是 SVD——QR 是通往 SVD 的跳板。

Part 5 · 四大分解的关系图

从特殊到一般的递进链

四种分解不是孤立的，它们之间存在清晰的特化关系：

递进关系

\boxed{\text{LU}} \xrightarrow[\text{+ 对称正定}]{\text{利用对称性}} \boxed{\text{Cholesky}} \xrightarrow[\text{三角} \to \text{正交}]{\text{提升数值性质}} \boxed{\text{QR}} \xrightarrow[\text{双侧正交}]{\text{彻底对角化}} \boxed{\text{SVD}}

维度	LU	Cholesky	QR	SVD
矩阵形状	方阵	方阵	任意 $m \times n$	任意 $m \times n$
额外条件	主子式 $\neq 0$	对称正定	无	无
分解形式	$$L$$ （三角） $$U$$ （三角）	$$L$$ （三角） $$L^T$$ （三角）	$$Q$$ （正交） $$R$$ （三角）	$$U$$ （正交） $\Sigma$ （对角） $$V$$ （正交）
唯一性	限定 $$L$$ 后唯一	唯一	列满秩 + $r_{ii}>0$ 时唯一	奇异值唯一， $$U,V$$ 不唯一
计算量	$\frac{1}{3}n^3$	$\frac{1}{6}n^3$	$$2mn^2$$	$$O(mn^2)$$ （更大常数）
数值稳定性	一般（需选主元）	好	好	最好
首要应用	解 $A\mathbf{x}=\mathbf{b}$	正定方程组	最小二乘	低秩近似 / PCA

选择指南：

解 $A\mathbf{x} = \mathbf{b}$ （ $$A$$ 方阵）→ 先试 LU（最通用）；若 $$A$$ 对称正定 → Cholesky（更快更稳）
最小二乘问题 → QR（数值稳定的标准方法）
需要了解矩阵的"本质结构"（秩、能量分布、低秩近似）→ SVD
特征值计算 → QR 迭代（反复做 QR 分解）

Part 6 · 从分解到应用

每种分解解决什么问题？

LU / Cholesky：解方程组

解 $A\mathbf{x} = \mathbf{b}$ 时，LU 分解将问题拆成两个三角方程组，用前代和回代求解。Cholesky 是正定情形下的加速版。核心优势：换右端项 $\mathbf{b}$ 时不需要重新分解——只需重做前代回代（ $$O(n^2)$$ ），远快于重新求逆。

QR：最小二乘与特征值

最小二乘： $A\mathbf{x} = \mathbf{b}$ 无解时，QR 分解给出最小二乘解 $\hat{\mathbf{x}} = R^{-1}Q^T\mathbf{b}$ 。这比法方程 $A^TA\mathbf{x} = A^T\mathbf{b}$ 数值更稳定（法方程会将条件数平方）。

QR 迭代：反复执行 $$A_k = Q_kR_k$$ ， $A_{k+1} = R_kQ_k$ ，序列 $\{A_k\}$ 收敛到上三角矩阵（Schur 形），对角元就是特征值。这是求全部特征值的标准数值方法。

SVD：低秩近似与数据压缩

Eckart-Young 定理：截断 SVD 给出最优秩- $$k$$ 近似 $\|A - A_k\| = \sigma_{k+1}$ ，在所有秩- $$k$$ 矩阵中误差最小。

应用链：图像压缩（丢弃小奇异值）→ 推荐系统（用户-物品矩阵补全）→ PCA（数据中心化后 SVD 等价于特征值分解）→ 伪逆（ $A^+ = V\Sigma^+ U^T$ ）。

内容连接

矩阵分解在课程中的位置

← 矩阵运算（第二章）

LU 分解 = 高斯消元的矩阵形式

初等行变换左乘初等矩阵的累积就是

L^{-1}

。LU 分解把消元过程"冻结"为两个三角矩阵，供反复使用。

PDF矩阵运算笔记

matrix-operations.html

打开原文

← 二次型（第六章）

Cholesky = 正定性的直接产物

正定矩阵的所有主子式为正，保证高斯消元不选主元且

$U = DL^T$

，进而

$A = LL^T$

。

PDF二次型笔记

quadratic-forms.html

打开原文

← Schmidt 正交化（6.1 节）

QR = Schmidt 的矩阵表达

对列做 Schmidt 正交化得到正交矩阵

$Q$

，组合系数自然构成上三角矩阵

$R$

——这就是 QR 分解的构造性证明。

PDF二次型笔记

quadratic-forms.html

打开原文

→ 特征值与 SVD（第五章）

SVD = 特征分解的推广

$A^TA$

和

$AA^T$

的特征值分解给出

$V$

和

$U$

，特征值的平方根就是奇异值。特征分解要求方阵，SVD 不限。

PDFSVD 专题笔记

svd-linear-algebra.html

打开原文

🎯 核心要点

LU：消元法的矩阵版，解方程组的基础工具。方阵 + 主子式非零。
Cholesky：LU 的正定特化版，计算量减半，唯一且稳定。
QR：从三角升级到正交，适用范围扩大到任意矩阵，最小二乘和特征值计算的标准工具。
SVD：双侧正交 + 对角化，最通用的分解。低秩近似、PCA、伪逆的理论基础。
递进关系：条件从严格到宽松，结构从简单到完备，计算量从小到大——越通用的分解，代价越高。

📚 参考资源

电子科技大学线性代数课程讲义：1.2（高斯消元）、1.3（初等矩阵与 QR）、2.4（行列式与可逆性）、6.2（正定性与 Cholesky）
PDFSVD 奇异值分解专题笔记
svd-linear-algebra.html
打开原文
Gilbert Strang, Introduction to Linear Algebra, §2.3–2.7, §6.1–6.3