特征值与特征向量——线性代数第五章

2026/05/23 21:30:00

Part 0 · 学习目标

特征值：线性变换的不变方向

一个 $n \times n$ 矩阵 $$A$$ 可以看作 $\mathbb{R}^n$ 到自身的线性变换。大部分向量在变换后方向都会改变。但有些向量方向不变——它们只被拉伸或压缩，甚至反转。这些特殊的方向就是矩阵的 特征方向，拉伸倍数就是 特征值。

举一个具体的例子。考虑矩阵 $A = \begin{pmatrix}2 & 0 \\ 0 & 3\end{pmatrix}$ ，它把向量 $$(x, y)^T$$ 映射为 $$(2x, 3y)^T$$ 。向量 $$(1, 0)^T$$ 被送到 $$(2, 0)^T$$ ——方向不变，仅长度变为 2 倍。向量 $$(0, 1)^T$$ 同理，被拉伸 3 倍。这两个方向就是特征方向，2 和 3 就是特征值。反过来，向量 $$(1, 1)^T$$ 被送到 $$(2, 3)^T$$ ，方向完全改变，它不是特征向量。

特征值与特征向量是线性代数的核心概念之一，理解它们等于打开了"矩阵的结构"这扇门。本章覆盖：特征值与特征向量的定义与几何意义、特征多项式的构造、对角化条件与步骤、相似矩阵、实对称矩阵的正交对角化、二次型化标准形。

前置知识回顾

行列式： $\det(A)$ 的计算，尤其是 $\det(A - \lambda I)$ 的展开，参考
PDF行列式定义p.1
pdf/线性代数/2.1.pdf · p.1
打开原文
。
矩阵乘法与线性变换： $A\mathbf{x} = \mathbf{b}$ 表示线性变换，参考
PDF矩阵概念p.1
pdf/线性代数/1.1.pdf · p.1
打开原文
。
齐次线性方程组： $(A - \lambda I)\mathbf{x} = \mathbf{0}$ 有非零解的充要条件是系数矩阵行列式为零。
向量空间与基：一组向量线性无关意味着它们张成的空间维数等于向量个数。

Part 1 · 背景问题

为什么需要特征值？

考虑一个旋转矩阵 $R_\theta = \begin{pmatrix}\cos\theta & -\sin\theta \\ \sin\theta & \cos\theta\end{pmatrix}$ 。在 $\mathbb{R}^2$ 中，绝大多数向量被旋转后方向都会改变。但有没有向量方向不变？

$\theta = 0$ 时所有向量不变， $\theta = \pi$ 时所有向量反向但仍在同一直线上。但对一般的 $\theta$ ，没有非零向量能在旋转后仍与自身共线。旋转矩阵在实数范围内没有特征值。

再看一个拉伸矩阵 $A = \begin{pmatrix}2 & 0 \\ 0 & 3\end{pmatrix}$ ：沿 $$x$$ 轴方向拉伸 2 倍，沿 $$y$$ 轴方向拉伸 3 倍。 $$x$$ 轴单位向量 $$(1,0)^T$$ 和 $$y$$ 轴单位向量 $$(0,1)^T$$ 方向都不变——它们就是特征向量，对应的拉伸倍数 2 和 3 就是特征值。

但现实中的矩阵往往不是对角矩阵。例如 $A = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}$ ，它在标准基下将 $$(1, 0)^T$$ 映射到 $$(4, 2)^T$$ ，将 $$(0, 1)^T$$ 映射到 $$(1, 3)^T$$ ，两个基向量的方向都改变了。但如果我们换一组基——使用特征向量 $$(1, -2)^T$$ 和 $$(1, 1)^T$$ ，在新基下 $$A$$ 就变成了对角矩阵 $\operatorname{diag}(2, 5)$ 。这就是特征值和特征向量的核心作用：把复杂的矩阵化为简单的对角矩阵。

实际工程中的场景更广泛。在振动分析中，特征值对应固有频率，特征向量对应振型；在图像压缩中，奇异值分解（特征值概念的推广）用于消除冗余信息；在搜索引擎的 PageRank 算法中，网页排名向量就是链接矩阵主特征值 1 对应的特征向量。这些应用虽然方向各异，核心思想都围绕着同一个等式 $A\mathbf{x} = \lambda\mathbf{x}$ 。

几何直觉

特征向量是线性变换下方向保持不变的向量，特征值是那个方向上的放大倍数：

A\mathbf{x} = \lambda \mathbf{x}, \quad \mathbf{x} \neq \mathbf{0}

$\lambda > 0$ ：方向不变，长度缩放 $|\lambda|$ 倍
$\lambda < 0$ ：方向反转（反向共线），长度缩放 $|\lambda|$ 倍
$\lambda = 0$ ：压缩到原点， $A\mathbf{x} = \mathbf{0}$ ，特征向量在零空间中
$|\lambda| > 1$ ：拉伸； $|\lambda| < 1$ ：压缩

在 $\mathbb{R}^3$ 中，特征向量就是"沿着旋转轴方向"的向量——例如刚体绕某轴旋转，轴上的点保持不动（特征值 1），其他所有点都被旋转离开原方向。

PDF特征值与特征向量引入p.1

pdf/线性代数/5.1.pdf · p.1

打开原文

Part 2 · 概念定义

特征值与特征向量的严格定义

特征值与特征向量

设 $$A$$ 是 $n \times n$ 矩阵（或 $\mathbb{R}^n$ 上的线性变换）。若非零向量 $\mathbf{x} \in \mathbb{R}^n$ 满足

A\mathbf{x} = \lambda \mathbf{x}

则称 $\lambda$ 为 $$A$$ 的一个 特征值（eigenvalue）， $\mathbf{x}$ 为对应于 $\lambda$ 的 特征向量（eigenvector）。

等价形式： $(A - \lambda I)\mathbf{x} = \mathbf{0}$ 。这是一个齐次线性方程组，有非零解的充要条件是：

\det(A - \lambda I) = 0

这个关于 $\lambda$ 的 $$n$$ 次多项式方程称为 特征方程， $\det(A - \lambda I)$ 称为 特征多项式。

特征空间

对于给定的特征值 $\lambda$ ，所有满足 $A\mathbf{x} = \lambda\mathbf{x}$ 的向量（包括零向量）构成一个子空间，称为 $\lambda$ 的 特征空间 $E_\lambda$ ：

E_\lambda = \{\mathbf{x} \in \mathbb{R}^n \mid (A - \lambda I)\mathbf{x} = \mathbf{0}\} = \ker(A - \lambda I)

特征空间是零空间（核）的特例。它的维数称为 $\lambda$ 的 几何重数（geometric multiplicity）。

如何计算特征值与特征向量

计算流程分三步：

列特征方程：计算 $\det(A - \lambda I) = 0$ ，得到 $$n$$ 次多项式，求解得 $$n$$ 个特征值（含重根和复根）。
求特征向量：对每个特征值 $\lambda_i$ ，解齐次方程组 $(A - \lambda_i I)\mathbf{x} = \mathbf{0}$ ，得到基础解系，即 $\lambda_i$ 的线性无关特征向量（张成 $E_{\lambda_i}$ ）。
归一化（可选）：特征向量乘以任意非零标量仍是特征向量，需要时取单位向量。

速算技巧

对于 $2 \times 2$ 矩阵 $A = \begin{pmatrix}a & b \\ c & d\end{pmatrix}$ ：

\det(A - \lambda I) = \lambda^2 - (a+d)\lambda + (ad-bc) = \lambda^2 - \operatorname{tr}(A)\lambda + \det(A)

特征值之和 $= \operatorname{tr}(A)$ ，特征值之积 $= \det(A)$ 。这两个关系对任何 $$n$$ 阶方阵都成立。

例题 1：求矩阵的特征值与特征向量

题目：设 $A = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}$ ，求 $$A$$ 的全部特征值与特征向量。

目标：掌握特征多项式的展开和特征向量的求解流程。

列特征方程： $A - \lambda I = \begin{pmatrix}4-\lambda & 1 \\ 2 & 3-\lambda\end{pmatrix}$ 。计算行列式： $\det(A - \lambda I) = (4-\lambda)(3-\lambda) - 2 = \lambda^2 - 7\lambda + 10 = (\lambda - 2)(\lambda - 5)$ 。
求特征值： $\lambda_1 = 2,\ \lambda_2 = 5$ 。
求 $\lambda_1 = 2$ 的特征向量： $A - 2I = \begin{pmatrix}2 & 1 \\ 2 & 1\end{pmatrix}$ 。解 $(A-2I)\mathbf{x} = \mathbf{0}$ ： $\begin{cases}2x_1 + x_2 = 0 \\ 2x_1 + x_2 = 0\end{cases}$ ，得 $$x_2 = -2x_1$$ 。基础解系： $\mathbf{x}_1 = \begin{pmatrix}1 \\ -2\end{pmatrix}$ 。特征空间 $E_2 = \operatorname{span}\{(1, -2)^T\}$ 。
求 $\lambda_2 = 5$ 的特征向量： $A - 5I = \begin{pmatrix}-1 & 1 \\ 2 & -2\end{pmatrix}$ 。解 $(A-5I)\mathbf{x} = \mathbf{0}$ ： $\begin{cases}-x_1 + x_2 = 0 \\ 2x_1 - 2x_2 = 0\end{cases}$ ，得 $$x_1 = x_2$$ 。基础解系： $\mathbf{x}_2 = \begin{pmatrix}1 \\ 1\end{pmatrix}$ 。特征空间 $E_5 = \operatorname{span}\{(1, 1)^T\}$ 。

答案： $\lambda_1 = 2,\ \mathbf{x}_1 = k(1, -2)^T\ (k \neq 0)$ ； $\lambda_2 = 5,\ \mathbf{x}_2 = k(1, 1)^T\ (k \neq 0)$ 。

验证：

A\mathbf{x}_1 = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}\begin{pmatrix}1 \\ -2\end{pmatrix} = \begin{pmatrix}2 \\ -4\end{pmatrix} = 2\begin{pmatrix}1 \\ -2\end{pmatrix}

✓。

A\mathbf{x}_2 = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}\begin{pmatrix}1 \\ 1\end{pmatrix} = \begin{pmatrix}5 \\ 5\end{pmatrix} = 5\begin{pmatrix}1 \\ 1\end{pmatrix}

✓。

上例中两个特征值不同，对应的特征向量线性无关，因此 $$A$$ 有两个线性无关的特征向量。这是对角化的前提条件。反过来，如果特征值有重根但几何重数不够，矩阵就不可对角化——比如 $\begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$ 只有一个特征方向（代数量数 2，几何重数 1），无法构成 $\mathbb{R}^2$ 的一组基，因此不可对角化。

还有一点值得注意：求解特征向量的过程实质上就是求解齐次线性方程组 $(A - \lambda I)\mathbf{x} = \mathbf{0}$ 。对不同的 $\lambda$ ，方程组的系数矩阵 $A - \lambda I$ 的秩决定了特征空间的维数。当 $\lambda$ 不是特征值时， $A - \lambda I$ 可逆，只有零解；当 $\lambda$ 是特征值时， $A - \lambda I$ 不可逆，存在非零解——这正是 $\det(A - \lambda I) = 0$ 的意义所在。

PDF特征值与特征向量定义p.3

pdf/线性代数/5.1.pdf · p.3

打开原文

Part 3 · 特征多项式的性质

三大核心关系与代数重数

定理 1：特征值与迹、行列式的关系

设 $$n$$ 阶矩阵 $$A$$ 的特征值为 $\lambda_1, \lambda_2, \dots, \lambda_n$ （含重根，在复数域中计数），则：

\sum_{i=1}^{n} \lambda_i = \operatorname{tr}(A) = a_{11} + a_{22} + \cdots + a_{nn}

\prod_{i=1}^{n} \lambda_i = \det(A)

这两个关系是验证特征值计算是否正确的重要工具。算完特征值后，加一下看是否等于迹，乘一下看是否等于行列式，能快速发现计算错误。例如上文的例题 1 中，特征值 2 和 5 之和为 7 等于迹 $$4+3=7$$ ，之积为 10 等于行列式 $4 \cdot 3 - 1 \cdot 2 = 10$ ，验证通过。

特征多项式具有标准形式：

\det(A - \lambda I) = (-1)^n\lambda^n + (-1)^{n-1}\operatorname{tr}(A)\lambda^{n-1} + \cdots + \det(A)

定理 2：不同特征值的特征向量线性无关

若 $\lambda_1, \lambda_2, \dots, \lambda_k$ 是矩阵 $$A$$ 的两两不同的特征值，对应的特征向量分别为 $\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_k$ ，则 $\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_k\}$ 线性无关。

特征向量的线性组合：是否仍是特征向量？

设 $\mathbf{v}_1, \mathbf{v}_2$ 均为矩阵 $$A$$ 的特征向量， $\mathbf{w} = c_1\mathbf{v}_1 + c_2\mathbf{v}_2$ （ $$c_1, c_2$$ 均非零）。结论取决于两个向量是否属于同一特征值：

同特征值：若 $A\mathbf{v}_1 = \lambda\mathbf{v}_1$ ， $A\mathbf{v}_2 = \lambda\mathbf{v}_2$ ，则 $A\mathbf{w} = \lambda\mathbf{w}$ ——任意非零线性组合仍是特征向量。
不同特征值：若 $\lambda_1 \ne \lambda_2$ ，假设 $A\mathbf{w} = \mu\mathbf{w}$ ，展开得 $c_1\lambda_1\mathbf{v}_1 + c_2\lambda_2\mathbf{v}_2 = \mu c_1\mathbf{v}_1 + \mu c_2\mathbf{v}_2$ 。利用 $\{\mathbf{v}_1, \mathbf{v}_2\}$ 线性无关比较系数，得到 $\lambda_1 = \mu = \lambda_2$ ，与 $\lambda_1 \ne \lambda_2$ 矛盾——故 $\mathbf{w}$ 不是特征向量。

举例： $A = \operatorname{diag}(0, 2)$ ， $\mathbf{v}_1 = (1, 0)^T$ （特征值 0）， $\mathbf{v}_2 = (0, 1)^T$ （特征值 2），则 $\mathbf{v}_1 + \mathbf{v}_2$ 不是特征向量；同属特征值 0 的任意非零线性组合仍是特征值 0 的特征向量。

定理 3：特征值的代数重数与几何重数

代数重数（algebraic multiplicity）：特征多项式 $(\lambda - \lambda_i)^{m_i}$ 中因子 $(\lambda - \lambda_i)$ 的重数 $$m_i$$ 。

几何重数（geometric multiplicity）：特征空间 $\dim(E_{\lambda_i})$ 的维数，即 $(A - \lambda_i I)\mathbf{x} = \mathbf{0}$ 基础解系中向量个数。

对任意特征值，几何重数 $\le$ 代数重数。

Cayley-Hamilton 定理（了解）

设 $p(\lambda) = \det(A - \lambda I)$ 是 $$A$$ 的特征多项式，则 $$p(A) = 0$$ 。也就是说，矩阵 $$A$$ 满足它自己的特征方程。例如，若 $A = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}$ ，特征多项式 $p(\lambda) = \lambda^2 - 7\lambda + 10$ ，则 $$p(A) = A^2 - 7A + 10I = 0$$ 。

Cayley-Hamilton 定理的一个直接应用：任何 $$A$$ 的高次幂（ $k \ge n$ ）都可以表示为 $I, A, A^2, \dots, A^{n-1}$ 的线性组合。这在控制理论和矩阵函数的计算中十分有用。

PDF特征值的性质p.10

pdf/线性代数/5.1.pdf · p.10

打开原文

Part 4 · 相似矩阵与对角化

找到一组基让矩阵变成对角形

一个矩阵能否"变"成对角矩阵？如果存在一组基（新坐标系），使得在该基下的表示矩阵是对角阵，那么原矩阵就是可对角化的。

相似矩阵

设 $$A, B$$ 是两个 $n \times n$ 矩阵。若存在可逆矩阵 $$P$$ 使得

B = P^{-1}AP

则称 $$A$$ 与 $$B$$ 相似（记作 $A \sim B$ ）。相似变换 $P^{-1}AP$ 表示：在 $$P$$ 的列向量构成的新基下， $$A$$ 在新坐标系中的矩阵为 $$B$$ 。

相似矩阵的共性：相似矩阵有相同的特征多项式、特征值（含重数）、迹、行列式和秩。注意特征向量的具体坐标会因基变换而改变——对应的是同一个"几何方向"在新基下的不同表示。

可对角化

若 $$A$$ 相似于某个对角矩阵 $\Lambda$ ，即存在可逆矩阵 $$P$$ 使得

P^{-1}AP = \Lambda = \operatorname{diag}(\lambda_1, \lambda_2, \dots, \lambda_n)

则称 $$A$$ 是可对角化的（diagonalizable）。等价地， $$A$$ 有 $$n$$ 个线性无关的特征向量。

对角化的充要条件

条件	说明
$$n$$ 个不同特征值	充分条件（非必要）
每个特征值的几何重数 = 代数重数	充要条件
$$A$$ 是实对称矩阵	一定可对角化（且可用正交矩阵）
$$A$$ 有 $$n$$ 个线性无关的特征向量	等价条件

对角化步骤

求 $$A$$ 的全部特征值 $\lambda_1, \dots, \lambda_n$ （含重数）。
对每个特征值，求 $(A - \lambda_i I)\mathbf{x} = \mathbf{0}$ 的基础解系，得到线性无关的特征向量。
若总共收集到少于 $$n$$ 个线性无关的特征向量，则 $$A$$ 不可对角化。
将 $$n$$ 个线性无关的特征向量按列排成矩阵 $$P$$ 。
令 $\Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_n)$ ， $\lambda_i$ 的位置与 $$P$$ 中对应列一致。
验证： $AP = P\Lambda$ （或 $P^{-1}AP = \Lambda$ ）。

例题 2：判断能否对角化，若能则写出 $$P$$ 和 $\Lambda$

题目：设 $A = \begin{pmatrix}0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0\end{pmatrix}$ ，判断 $$A$$ 是否可对角化，并求出可逆矩阵 $$P$$ 和对角矩阵 $\Lambda$ 。

目标：掌握三阶矩阵对角化的完整流程。

列特征方程： $\det(A - \lambda I) = \det\begin{pmatrix}-\lambda & 1 & 1 \\ 1 & -\lambda & 1 \\ 1 & 1 & -\lambda\end{pmatrix} = (-\lambda - 1)^2(2 - \lambda) = 0$
（计算技巧：将第 2、3 行加到第 1 行提出因子，再行变换化简）

特征值： $\lambda_1 = -1$ （代数重数 2）， $\lambda_2 = 2$ （代数重数 1）。
求 $\lambda = -1$ 的特征向量： $A + I = \begin{pmatrix}1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1\end{pmatrix}$ ，秩为 1，零空间维数 = $$3 - 1 = 2$$ 。基础解系： $\mathbf{x}_1 = (-1, 1, 0)^T$ ， $\mathbf{x}_2 = (-1, 0, 1)^T$ 。几何重数 = 2 = 代数重数 ✓。
求 $\lambda = 2$ 的特征向量： $A - 2I = \begin{pmatrix}-2 & 1 & 1 \\ 1 & -2 & 1 \\ 1 & 1 & -2\end{pmatrix}$ ，行化简得 $$x_1 = x_2 = x_3$$ 。基础解系： $\mathbf{x}_3 = (1, 1, 1)^T$ 。
组装 $$P$$ 和 $\Lambda$ ： $P = \begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix}$ ， $\Lambda = \operatorname{diag}(-1, -1, 2)$ 。
验证： $AP = \begin{pmatrix}0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0\end{pmatrix}\begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix} = \begin{pmatrix}1 & 1 & 2 \\ -1 & 0 & 2 \\ -1 & 1 & 2\end{pmatrix}$ ， $P\Lambda = \begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix}\begin{pmatrix}-1 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & 2\end{pmatrix} = \begin{pmatrix}1 & 1 & 2 \\ -1 & 0 & 2 \\ -1 & 1 & 2\end{pmatrix}$ ✓。

答案： $$A$$ 可对角化， $P = \begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix}$ ， $\Lambda = \operatorname{diag}(-1, -1, 2)$ 。

关键验证：本例中

\lambda = -1

的代数重数为 2、几何重数也为 2（零空间有 2 个自由变量），因此可对角化。如果几何重数小于代数重数（如第一部分

\begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}

），则矩阵 不可对角化。

对角化的价值：一旦 $$A$$ 被对角化为 $\Lambda$ ，计算 $$A^k$$ 就变得极其简单—— $A^k = P\Lambda^k P^{-1}$ ，而 $\Lambda^k = \operatorname{diag}(\lambda_1^k, \dots, \lambda_n^k)$ 。这在马尔可夫链、动力系统、差分方程等场景中极为有用。

举一个简单的例子：如果 $$A^2 = I$$ ，则 $$A$$ 的特征值只能是 $\pm 1$ （为什么？因为 $A\mathbf{x} = \lambda\mathbf{x}$ 两边左乘 $$A$$ 得 $A^2\mathbf{x} = \lambda^2\mathbf{x} = \mathbf{x}$ ，所以 $\lambda^2 = 1$ ）。同样地， $A^k \to 0$ （稳定）当且仅当所有特征值的模小于 1。

可对角化与不可对角化的本质区别

可对角化意味着空间可以分解为特征方向的直和： $\mathbb{R}^n = E_{\lambda_1} \oplus E_{\lambda_2} \oplus \cdots \oplus E_{\lambda_k}$ 。矩阵在每个特征方向上的作用就是简单的标量乘法。不可对角化则意味着空间中有"旋转+拉伸"混合的方向。处理不可对角化矩阵的工具是 Jordan 标准形——它将矩阵化为由 Jordan 块组成的准对角矩阵，每个 Jordan 块对应一个特征值和一个特征向量。

PDF相似矩阵与对角化p.1

pdf/线性代数/5.2.pdf · p.1

打开原文

Part 5 · 实对称矩阵的正交对角化

用一组标准正交基对角化——谱定理

实对称矩阵（ $$A^T = A$$ ）是最"好"的一类矩阵：特征值全是实数，且一定能用正交矩阵对角化。

实对称矩阵的谱定理（Spectral Theorem）

若 $$A$$ 是 $n \times n$ 实对称矩阵，则：

（1） $$A$$ 的所有特征值均为实数。

（2）不同特征值对应的特征向量互相正交。

（3） $$A$$ 可被正交矩阵对角化，即存在正交矩阵 $$Q$$ （ $Q^T = Q^{-1}$ ）使得

Q^T A Q = \Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_n)

正交对角化步骤

求 $$A$$ 的全部特征值和特征向量。
对每个特征值 $\lambda_i$，从特征空间 $E_{\lambda_i}$ 中选出一组标准正交基：
- 若 $\dim(E_{\lambda_i}) = 1$ ，将特征向量单位化即可。
- 若 $\dim(E_{\lambda_i}) > 1$ （重根），用 Gram-Schmidt 正交化得到该子空间中的标准正交基。
将所有标准正交基按列组成矩阵 $$Q$$ ，则 $Q^{-1} = Q^T$ ， $Q^T A Q = \Lambda$ 。

为什么实对称矩阵的特征向量的正交性重要？

对一般的可对角化矩阵，特征向量之间不一定正交，因此 $P^{-1} \neq P^T$ （计算 $P^{-1}$ 需要求逆，可能涉及复杂计算）。但实对称矩阵的特征向量可选出标准正交基，于是 $Q^{-1} = Q^T$ ——计算量大幅减少。这个性质也是奇异值分解（SVD）和 PCA 的理论基础。

Gram-Schmidt 正交化

当特征值有重根时，同一特征空间中的特征向量不一定互相正交，需要人为构造正交基。Gram-Schmidt 正交化从一个线性无关向量组 $\{\mathbf{v}_1, \dots, \mathbf{v}_k\}$ 出发，逐步构造出一个正交向量组 $\{\mathbf{u}_1, \dots, \mathbf{u}_k\}$ ：

\mathbf{u}_1 = \mathbf{v}_1, \quad \mathbf{u}_j = \mathbf{v}_j - \sum_{i=1}^{j-1} \frac{\mathbf{v}_j \cdot \mathbf{u}_i}{\mathbf{u}_i \cdot \mathbf{u}_i} \mathbf{u}_i

核心思路：对第 $$j$$ 个向量，减去它在前 $$j-1$$ 个已构造好的正交方向上的投影，剩下的部分自然与前面所有方向正交。最后再单位化，就得到标准正交基。

谱分解

实对称矩阵的正交对角化可以写成谱分解形式：

A = Q\Lambda Q^T = \lambda_1 \mathbf{q}_1\mathbf{q}_1^T + \lambda_2 \mathbf{q}_2\mathbf{q}_2^T + \cdots + \lambda_n \mathbf{q}_n\mathbf{q}_n^T

其中 $\mathbf{q}_i$ 是 $$Q$$ 的第 $$i$$ 列（单位特征向量）， $\mathbf{q}_i\mathbf{q}_i^T$ 是秩为 1 的投影矩阵。这个分解把 $$A$$ 拆成了 $$n$$ 个秩 1 矩阵的和，每一项对应一个特征方向。谱分解在数据降维（PCA 中保留前 $$k$$ 个最大特征值对应的特征向量）、量子力学（观测算子的谱）和图论（拉普拉斯矩阵的谱聚类）中有广泛的应用。

PDF正交对角化p.10

pdf/线性代数/5.2.pdf · p.10

打开原文

Part 6 · 二次型化标准形

用特征值化简二次曲面方程

二次型是一个关于 $$n$$ 个变量的齐二次多项式函数：

f(x_1, x_2, \dots, x_n) = \sum_{i=1}^{n}\sum_{j=1}^{n} a_{ij}x_i x_j = \mathbf{x}^T A \mathbf{x}

其中 $$A$$ 是实对称矩阵（要求 $a_{ij} = a_{ji}$ ，即 $$A^T = A$$ ）。

二次型的矩阵表示

例如： $$f(x_1, x_2, x_3) = x_1^2 + 2x_2^2 + 3x_3^2 + 4x_1x_2 + 5x_1x_3 + 6x_2x_3$$

写成矩阵形式 $\mathbf{x}^T A \mathbf{x}$ ：

A = \begin{pmatrix}1 & 2 & 2.5 \\ 2 & 2 & 3 \\ 2.5 & 3 & 3\end{pmatrix}

注意交叉项 $$x_i x_j$$ （ $i \neq j$ ）的系数在 $$A$$ 中平分： $a_{ij} = a_{ji} = \frac{\text{系数}}{2}$ 。

化标准形（仅含平方项）

目标：找到可逆线性变换 $\mathbf{x} = P\mathbf{y}$ ，使得在新变量 $\mathbf{y}$ 下二次型只含平方项：

f = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2

两种主要方法：

方法	原理	变换矩阵	特点
配方法	逐步配方消去交叉项	可逆但一般不是正交的	计算简单，适合低阶
正交变换法	正交对角化 $$A$$	$$Q$$ 正交： $Q^T A Q = \Lambda$	保持几何形状（旋转+反射）

例题 3：用正交变换化二次型为标准形

题目：将二次型 $$f(x_1, x_2, x_3) = 2x_1^2 + 2x_2^2 + 2x_3^2 + 2x_1x_2 + 2x_1x_3 + 2x_2x_3$$ 化为标准形，并写出正交变换矩阵。

目标：掌握实对称矩阵的正交对角化在二次型中的应用。

写出矩阵 $$A$$ ：交叉项系数 $$2$$ 平分得 $a_{ij} = 1$ 。
$A = \begin{pmatrix}2 & 1 & 1 \\ 1 & 2 & 1 \\ 1 & 1 & 2\end{pmatrix}$

求特征值：
特征多项式 $\det(A - \lambda I) = \det\begin{pmatrix}2-\lambda & 1 & 1 \\ 1 & 2-\lambda & 1 \\ 1 & 1 & 2-\lambda\end{pmatrix} = (1-\lambda)^2(4-\lambda)$ 。

得 $\lambda_1 = \lambda_2 = 1$ （代数重数 2）， $\lambda_3 = 4$ （代数重数 1）。

求 $\lambda = 1$ 的特征向量（并正交化）：
$A - I = \begin{pmatrix}1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1\end{pmatrix}$ ，得特征向量 $\mathbf{v}_1 = (1, -1, 0)^T$ ， $\mathbf{v}_2 = (1, 0, -1)^T$ 。用 Gram-Schmidt 正交化：

$\mathbf{u}_1 = \mathbf{v}_1 = (1, -1, 0)^T$ ，

$\mathbf{u}_2 = \mathbf{v}_2 - \frac{\mathbf{v}_2 \cdot \mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1}\mathbf{u}_1 = (1, 0, -1) - \frac{1}{2}(1, -1, 0) = \left(\frac12, \frac12, -1\right)$ 。

单位化： $\mathbf{q}_1 = \frac{1}{\sqrt{2}}(1, -1, 0)^T$ ， $\mathbf{q}_2 = \frac{1}{\sqrt{6}}(1, 1, -2)^T$ 。

求 $\lambda = 4$ 的特征向量：
$A - 4I = \begin{pmatrix}-2 & 1 & 1 \\ 1 & -2 & 1 \\ 1 & 1 & -2\end{pmatrix}$ ，得 $\mathbf{v}_3 = (1, 1, 1)^T$ ，单位化： $\mathbf{q}_3 = \frac{1}{\sqrt{3}}(1, 1, 1)^T$ 。

组装正交矩阵：
$Q = \begin{pmatrix}1/\sqrt{2} & 1/\sqrt{6} & 1/\sqrt{3} \\ -1/\sqrt{2} & 1/\sqrt{6} & 1/\sqrt{3} \\ 0 & -2/\sqrt{6} & 1/\sqrt{3}\end{pmatrix}$ 。

标准形：令 $\mathbf{x} = Q\mathbf{y}$ ，则 $$f = y_1^2 + y_2^2 + 4y_3^2$$ 。

答案：标准形 $$f = y_1^2 + y_2^2 + 4y_3^2$$ ，正交变换矩阵 $$Q$$ 如上。

验证：

Q^T A Q = \operatorname{diag}(1, 1, 4)

。新变量的平方项系数就是

$A$

的特征值。

1+1+4 = 6 = \operatorname{tr}(A) = 2+2+2

✓，

1\cdot 1 \cdot 4 = 4 = \det(A)

✓。

二次型标准形的应用

二次曲面分类： $$f$$ 的符号由特征值的正负决定。三个特征值全为正 $\to$ 椭球面；两正一负 $\to$ 单叶双曲面；一正两负 $\to$ 双叶双曲面；有零特征值 $\to$ 柱面或抛物面。例如 $$f = y_1^2 + y_2^2 + 4y_3^2 = 1$$ 是一个椭球面——因为三个系数都为正，且 $$1 < 4$$ ，所以在 $$y_3$$ 方向上被压扁。如果第二个系数改为 $$-1$$ ， $$f = y_1^2 - y_2^2 + 4y_3^2 = 1$$ 就是一个单叶双曲面。
正定矩阵判定： $$A$$ 正定 $\iff$ 所有特征值 $$> 0$$ ；半正定 $\iff$ 所有特征值 $\ge 0$ 。这与顺序主子式判别法等价： $$A$$ 正定当且仅当所有左上角顺序主子式 $$> 0$$ 。
主轴定理：正交变换将二次型化为标准形，几何意义是旋转坐标轴，使二次曲面的对称轴与坐标轴重合——这就是"主轴"（principal axes）的含义。主轴方向就是特征向量的方向，轴上拉伸系数就是特征值。
惯性定理：二次型化为标准形后，正系数、负系数、零系数的个数是唯一确定的（与所选取的变换无关）。正系数个数称为正惯性指数，负系数个数称为负惯性指数。这个定理说明二次型的本质特征不随坐标变换而改变。

PDF特征值应用——二次型p.1

pdf/线性代数/5.3.pdf · p.1

打开原文

PDF特征值续——二次型与实对称矩阵p.1

pdf/线性代数/5.4.pdf · p.1

打开原文

Part 7 · 与后续章节的关系

特征值在课程全局中的位置

→ 行列式（第二章）

\det(A - \lambda I) = 0

是特征方程

特征值的乘积等于

\det(A)

，这个关系贯穿第五章。实对称矩阵的特征多项式系数可由行列式子式给出。

PDF行列式的性质p.1

pdf/线性代数/2.2.pdf · p.1

打开原文

→ 线性方程组（第四章）

特征向量是

(A - \lambda I)\mathbf{x} = \mathbf{0}

的非零解

求解特征空间就是解齐次线性方程组。零空间维数 = 几何重数 =

n - \operatorname{rank}(A - \lambda I)

。

→ 矩阵分解（后续）

特征分解

A = P\Lambda P^{-1}

这是三大矩阵分解（LU、QR、特征分解）之一。实对称矩阵的谱分解是奇异值分解（SVD）的特例。

→ 数值线性代数（后续课）

QR 算法求特征值

实际工程中不直接解特征多项式（数值不稳定），而是用 QR 迭代得到所有特征值。幂法和反幂法可用于求极值特征值。

→ 马尔可夫链（概率论）

稳态分布 = 特征值 1 的特征向量

转移概率矩阵的主特征值恒为 1，对应的特征向量就是稳态分布。Perron-Frobenius 定理保证了非负矩阵存在正特征向量。

→ PCA（机器学习）

主成分 = 协方差矩阵的特征向量

PCA 的本质是对协方差矩阵（实对称半正定）做正交对角化，取最大特征值对应的特征向量作为第一主成分方向。

复习速查

概念	定义 / 公式	关键点
特征值/特征向量	$A\mathbf{x} = \lambda\mathbf{x},\ \mathbf{x} \neq \mathbf{0}$	特征向量方向不变，仅缩放 $\lambda$ 倍
特征多项式	$\det(A - \lambda I) = 0$	$$n$$ 次方程，有 $$n$$ 个根（含重根和复根）
迹与特征值	$\sum \lambda_i = \operatorname{tr}(A)$	对角线元素之和
行列式与特征值	$\prod \lambda_i = \det(A)$	所有特征值的乘积
可对角化充要条件	几何重数 = 代数重数（对所有特征值）	等价于 $$n$$ 个线性无关的特征向量
相似矩阵	$B = P^{-1}AP$	相同特征值、特征多项式、迹、行列式
实对称矩阵	$$A^T = A$$	特征值为实数；不同特征值特征向量正交；可用正交矩阵对角化
正交对角化	$Q^T A Q = \Lambda$ ， $Q^T = Q^{-1}$	$$Q$$ 的列是标准正交的特征向量
二次型	$f = \mathbf{x}^T A \mathbf{x}$	$$A$$ 为实对称矩阵
标准形	$f = \lambda_1 y_1^2 + \cdots + \lambda_n y_n^2$	系数是 $$A$$ 的特征值
正定矩阵	所有特征值 $$> 0$$	$\mathbf{x}^T A \mathbf{x} > 0$ 对所有 $\mathbf{x} \neq \mathbf{0}$

参考来源

电子科技大学线性代数课程组（邓良剑）：线性代数枢纽页 · 讲义 PDF（5.1 特征值与特征向量、5.2 对角化、5.3 特征值应用、5.4 特征值续）
Wikipedia 特征值与特征向量词条：https://zh.wikipedia.org/zh-hans/特征值和特征向量 — 定义、谱定理、几何解释
知乎线性代数特征值笔记：https://zhuanlan.zhihu.com/p/666157660 — 特征值相似矩阵、对角化与实对称矩阵系统性笔记
CSDN 二次型化标准形五种方法：https://blog.csdn.net/weixin_45826022/article/details/106214444 — 配方法、正交变换法等实例
上海交通大学《线性代数》讲义 12-13：https://basics.sjtu.edu.cn/~yangqizhe/pdf/la2024s/slides/LALec12-handout-zh.pdf — 特征值与对称矩阵

上一章线性方程组枢纽页线性代数枢纽页下一章二次型与欧氏空间

特征值与特征向量

前置知识回顾

几何直觉

特征值与特征向量

速算技巧

例题 1：求矩阵的特征值与特征向量

定理 1：特征值与迹、行列式的关系

定理 2：不同特征值的特征向量线性无关

特征向量的线性组合：是否仍是特征向量？

定理 3：特征值的代数重数与几何重数

相关性质速查

Cayley-Hamilton 定理（了解）

相似矩阵

可对角化

例题 2：判断能否对角化，若能则写出 $P$ 和 $\Lambda$

实对称矩阵的谱定理（Spectral Theorem）

为什么实对称矩阵的特征向量的正交性重要？

二次型的矩阵表示

例题 3：用正交变换化二次型为标准形

复习速查

参考来源

例题 2：判断能否对角化，若能则写出 $$P$$ 和 $\Lambda$