ESC
输入关键词搜索文章
目录

矩阵分解全景

线性代数 · 四大分解的比较与联系
每种分解都是把矩阵拆成更简单的部件——不同的拆法对应不同的数学结构和应用场景
Part 0 · 全景概览
为什么需要矩阵分解?

矩阵分解(Matrix Factorization)是将一个矩阵拆成若干个"更简单"的矩阵之积。核心思想:把复杂问题化为简单问题的组合

类比:因式分解把 $x^2 - 1$ 拆成 $(x-1)(x+1)$,立刻看出根的位置。矩阵分解也是一样——分解之后,方程组求解、特征值计算、低秩近似等问题都变得直接。

线性代数课程中出现了四种核心分解:

分解条件形式核心用途
LU顺序主子式 $\neq 0$$A = LU$解线性方程组
Cholesky对称正定$A = LL^T$正定方程组(最快)
QR任意矩阵$A = QR$最小二乘、特征值
SVD任意矩阵$A = U\Sigma V^T$低秩近似、伪逆
一条递进线:LU 是最基础的三角分解;Cholesky 是 LU 在对称正定条件下的特化(更快、更稳定);QR 把"三角"换成"正交"(适用范围扩大到任意矩阵);SVD 则是终极形式——不仅要求正交,还把对角化做彻底,适用于任何形状的矩阵。
Part 1 · LU 分解
高斯消元法的矩阵语言——$A = LU$

来源:高斯消元过程本身。对矩阵 $A$ 做行消元,相当于左乘一系列初等矩阵。把这些操作"打包"起来,就得到了 LU 分解。

PDF高斯消元法p.1

pdf/线性代数/1.2.pdf · p.1

打开原文

LU 分解

$A \in \mathbb{R}^{n \times n}$,若所有顺序主子式 $\Delta_k \neq 0$$k=1,\dots,n-1$),则存在单位下三角矩阵 $L$上三角矩阵 $U$,使得

$$A = LU$$

其中 $L$ 的对角线元素全为 1,$U$ 的对角线元素是高斯消元的主元。

如何使用:解 $A\mathbf{x} = \mathbf{b}$ 分两步走:

  1. $L\mathbf{y} = \mathbf{b}$(前代,从上往下)
  2. $U\mathbf{x} = \mathbf{y}$(回代,从下往上)

计算量 $\frac{2}{3}n^3$(分解)+ $2n^2$(求解),远优于求逆矩阵再相乘。

LU 的局限

  • 要求顺序主子式不为零(不满足时需要选主元 $PA = LU$
  • 只适用于方阵
  • 分解不唯一(除非限定 $L$ 为单位下三角)
Part 2 · Cholesky 分解
LU 的正定特化——$A = LL^T$

来源:当 $A$ 是实对称正定矩阵时,LU 分解中的 $U$ 恰好等于 $L^T$(乘以一个对角矩阵)。调整对角元后,得到更紧凑的形式。

Cholesky 分解

$A \in \mathbb{R}^{n \times n}$ 是实对称正定矩阵,则存在唯一的下三角矩阵 $L$(对角元 $> 0$),使得

$$A = LL^T$$

相比 LU 的优势

对比项LU 分解Cholesky 分解
适用条件顺序主子式 $\neq 0$对称正定
唯一性需指定 $L$ 为单位下三角唯一(对角元 $> 0$
计算量$\frac{1}{3}n^3$$\frac{1}{6}n^3$(减半)
存储需存 $L$$U$只需存 $L$$U = L^T$
数值稳定性一般,需选主元天然稳定
直觉:对称正定矩阵自带"好结构"——所有特征值为正、所有主子式为正。Cholesky 分解就是在利用这些"好性质"把 LU 做到极致:计算量减半、存储减半、还不用选主元。
Part 3 · QR 分解
从三角到正交——$A = QR$

来源:LU/Cholesky 用三角矩阵做分解,但三角矩阵的性质不够好。换一个思路:用正交矩阵$Q^TQ = I$)做分解。正交矩阵保持长度和角度不变,数值性质天然优秀。

PDFQR 分解p.5

pdf/线性代数/1.3.pdf · p.5

打开原文

QR 分解

$A \in \mathbb{R}^{m \times n}$$m \geq n$),则存在矩阵 $Q \in \mathbb{R}^{m \times n}$(列正交,$Q^TQ = I$)和上三角矩阵 $R \in \mathbb{R}^{n \times n}$,使得

$$A = QR$$

与 Schmidt 正交化的关系:QR 分解就是 Schmidt 正交化的矩阵写法。对 $A$ 的列做正交化得到 $\mathbf{q}_1, \dots, \mathbf{q}_n$,反过来每个原始列可表示为 $\mathbf{a}_j = \sum_{i=1}^{j} r_{ij}\mathbf{q}_i$,组合系数组成上三角矩阵 $R$

QR 相比 LU 的本质提升

  • 适用范围:任意 $m \times n$ 矩阵(不要求方阵,不要求满秩)
  • 数值稳定性:正交变换不放大误差(条件数为 1),这是 QR 在数值计算中地位崇高根本原因
  • 最小二乘$A\mathbf{x} = \mathbf{b}$ 无解时,$R\mathbf{x} = Q^T\mathbf{b}$ 直接给出最小二乘解

例题:用 Schmidt 正交化求 QR 分解

题目:$A = \begin{pmatrix} 1 & 1 \\ 1 & 0 \\ 0 & 1 \end{pmatrix}$,求 $A$ 的 QR 分解。

解:

  1. 第一列$\mathbf{a}_1 = (1, 1, 0)^T$$\|\mathbf{a}_1\| = \sqrt{2}$$\mathbf{q}_1 = \frac{1}{\sqrt{2}}(1, 1, 0)^T$$r_{11} = \sqrt{2}$
  2. 投影$r_{12} = \mathbf{q}_1^T \mathbf{a}_2 = \frac{1}{\sqrt{2}}$
  3. 正交化$\mathbf{a}_2 - r_{12}\mathbf{q}_1 = (1, 0, 1)^T - \frac{1}{2}(1, 1, 0)^T = (\frac{1}{2}, -\frac{1}{2}, 1)^T$
  4. 归一化$\|\cdot\| = \frac{\sqrt{6}}{2}$$\mathbf{q}_2 = \frac{1}{\sqrt{6}}(1, -1, 2)^T$$r_{22} = \frac{\sqrt{6}}{2}$

答案:

$$Q = \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{6}} \\ 0 & \frac{2}{\sqrt{6}} \end{pmatrix}, \quad R = \begin{pmatrix} \sqrt{2} & \frac{1}{\sqrt{2}} \\ 0 & \frac{\sqrt{6}}{2} \end{pmatrix}$$

Part 4 · SVD(奇异值分解)
终极分解——$A = U\Sigma V^T$

来源:QR 分解做到了"正交 + 三角",但三角矩阵 $R$ 仍然不够简单。SVD 更进一步:把两个方向都正交化,中间只留一个对角矩阵。

奇异值分解(SVD)

$A \in \mathbb{R}^{m \times n}$,则存在正交矩阵 $U \in \mathbb{R}^{m \times m}$、正交矩阵 $V \in \mathbb{R}^{n \times n}$ 和对角矩阵 $\Sigma \in \mathbb{R}^{m \times n}$,使得

$$A = U\Sigma V^T$$

其中 $\Sigma$ 的对角元素 $\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0$ 称为奇异值$r = \text{rank}(A)$

几何意义:任何线性变换都可以分解为三步:旋转$V^T$)→ 缩放$\Sigma$,沿坐标轴拉伸/压缩)→ 旋转$U$)。

更详细的 SVD 讨论(Eckart-Young 定理、PCA 关联、应用场景)见

PDFSVD 专题笔记

svd-linear-algebra.html

打开原文

SVD 是 QR 的推广

对列满秩的 $A$,先做 QR 分解 $A = QR$,再对上三角矩阵 $R$ 做进一步的正交对角化 $R = U'\Sigma V^T$,就得到 $A = (QU')\Sigma V^T$。这就是 SVD——QR 是通往 SVD 的跳板

Part 5 · 四大分解的关系图
从特殊到一般的递进链

四种分解不是孤立的,它们之间存在清晰的特化关系

递进关系

$$\boxed{\text{LU}} \xrightarrow[\text{+ 对称正定}]{\text{利用对称性}} \boxed{\text{Cholesky}} \xrightarrow[\text{三角} \to \text{正交}]{\text{提升数值性质}} \boxed{\text{QR}} \xrightarrow[\text{双侧正交}]{\text{彻底对角化}} \boxed{\text{SVD}}$$
维度LUCholeskyQRSVD
矩阵形状方阵方阵任意 $m \times n$任意 $m \times n$
额外条件主子式 $\neq 0$对称正定
分解形式$L$(三角)$U$(三角)$L$(三角)$L^T$(三角)$Q$(正交)$R$(三角)$U$(正交)$\Sigma$(对角)$V$(正交)
唯一性限定 $L$ 后唯一唯一列满秩 + $r_{ii}>0$ 时唯一奇异值唯一,$U,V$ 不唯一
计算量$\frac{1}{3}n^3$$\frac{1}{6}n^3$$2mn^2$$O(mn^2)$(更大常数)
数值稳定性一般(需选主元)最好
首要应用$A\mathbf{x}=\mathbf{b}$正定方程组最小二乘低秩近似 / PCA

选择指南

  • $A\mathbf{x} = \mathbf{b}$$A$ 方阵)→ 先试 LU(最通用);若 $A$ 对称正定 → Cholesky(更快更稳)
  • 最小二乘问题 → QR(数值稳定的标准方法)
  • 需要了解矩阵的"本质结构"(秩、能量分布、低秩近似)→ SVD
  • 特征值计算 → QR 迭代(反复做 QR 分解)
Part 6 · 从分解到应用
每种分解解决什么问题?

LU / Cholesky:解方程组

$A\mathbf{x} = \mathbf{b}$ 时,LU 分解将问题拆成两个三角方程组,用前代和回代求解。Cholesky 是正定情形下的加速版。核心优势:换右端项 $\mathbf{b}$ 时不需要重新分解——只需重做前代回代($O(n^2)$),远快于重新求逆。

QR:最小二乘与特征值

最小二乘$A\mathbf{x} = \mathbf{b}$ 无解时,QR 分解给出最小二乘解 $\hat{\mathbf{x}} = R^{-1}Q^T\mathbf{b}$。这比法方程 $A^TA\mathbf{x} = A^T\mathbf{b}$ 数值更稳定(法方程会将条件数平方)。

QR 迭代:反复执行 $A_k = Q_kR_k$$A_{k+1} = R_kQ_k$,序列 $\{A_k\}$ 收敛到上三角矩阵(Schur 形),对角元就是特征值。这是求全部特征值的标准数值方法。

SVD:低秩近似与数据压缩

Eckart-Young 定理:截断 SVD 给出最优秩-$k$ 近似 $\|A - A_k\| = \sigma_{k+1}$,在所有秩-$k$ 矩阵中误差最小。

应用链:图像压缩(丢弃小奇异值)→ 推荐系统(用户-物品矩阵补全)→ PCA(数据中心化后 SVD 等价于特征值分解)→ 伪逆($A^+ = V\Sigma^+ U^T$)。

内容连接
矩阵分解在课程中的位置
← 矩阵运算(第二章)
LU 分解 = 高斯消元的矩阵形式
初等行变换左乘初等矩阵的累积就是 $L^{-1}$。LU 分解把消元过程"冻结"为两个三角矩阵,供反复使用。
PDF矩阵运算笔记

matrix-operations.html

打开原文

← 二次型(第六章)
Cholesky = 正定性的直接产物
正定矩阵的所有主子式为正,保证高斯消元不选主元且 $U = DL^T$,进而 $A = LL^T$
PDF二次型笔记

quadratic-forms.html

打开原文

← Schmidt 正交化(6.1 节)
QR = Schmidt 的矩阵表达
对列做 Schmidt 正交化得到正交矩阵 $Q$,组合系数自然构成上三角矩阵 $R$——这就是 QR 分解的构造性证明。
PDF二次型笔记

quadratic-forms.html

打开原文

→ 特征值与 SVD(第五章)
SVD = 特征分解的推广
$A^TA$$AA^T$ 的特征值分解给出 $V$$U$,特征值的平方根就是奇异值。特征分解要求方阵,SVD 不限。
PDFSVD 专题笔记

svd-linear-algebra.html

打开原文

🎯 核心要点

  • LU:消元法的矩阵版,解方程组的基础工具。方阵 + 主子式非零。
  • Cholesky:LU 的正定特化版,计算量减半,唯一且稳定。
  • QR:从三角升级到正交,适用范围扩大到任意矩阵,最小二乘和特征值计算的标准工具。
  • SVD:双侧正交 + 对角化,最通用的分解。低秩近似、PCA、伪逆的理论基础。
  • 递进关系:条件从严格到宽松,结构从简单到完备,计算量从小到大——越通用的分解,代价越高

📚 参考资源

  • 电子科技大学线性代数课程讲义:1.2(高斯消元)、1.3(初等矩阵与 QR)、2.4(行列式与可逆性)、6.2(正定性与 Cholesky)
  • PDFSVD 奇异值分解专题笔记

    svd-linear-algebra.html

    打开原文

  • Gilbert Strang, Introduction to Linear Algebra, §2.3–2.7, §6.1–6.3