特征值与特征向量
一个 $n \times n$ 矩阵 $A$ 可以看作 $\mathbb{R}^n$ 到自身的线性变换。大部分向量在变换后方向都会改变。但有些向量方向不变——它们只被拉伸或压缩,甚至反转。这些特殊的方向就是矩阵的 特征方向,拉伸倍数就是 特征值。
举一个具体的例子。考虑矩阵 $A = \begin{pmatrix}2 & 0 \\ 0 & 3\end{pmatrix}$,它把向量 $(x, y)^T$ 映射为 $(2x, 3y)^T$。向量 $(1, 0)^T$ 被送到 $(2, 0)^T$——方向不变,仅长度变为 2 倍。向量 $(0, 1)^T$ 同理,被拉伸 3 倍。这两个方向就是特征方向,2 和 3 就是特征值。反过来,向量 $(1, 1)^T$ 被送到 $(2, 3)^T$,方向完全改变,它不是特征向量。
特征值与特征向量是线性代数的核心概念之一,理解它们等于打开了"矩阵的结构"这扇门。本章覆盖:特征值与特征向量的定义与几何意义、特征多项式的构造、对角化条件与步骤、相似矩阵、实对称矩阵的正交对角化、二次型化标准形。
前置知识回顾
- 行列式:$\det(A)$ 的计算,尤其是 $\det(A - \lambda I)$ 的展开,参考 。
- 矩阵乘法与线性变换:$A\mathbf{x} = \mathbf{b}$ 表示线性变换,参考 。
- 齐次线性方程组:$(A - \lambda I)\mathbf{x} = \mathbf{0}$ 有非零解的充要条件是系数矩阵行列式为零。
- 向量空间与基:一组向量线性无关意味着它们张成的空间维数等于向量个数。
考虑一个旋转矩阵 $R_\theta = \begin{pmatrix}\cos\theta & -\sin\theta \\ \sin\theta & \cos\theta\end{pmatrix}$。在 $\mathbb{R}^2$ 中,绝大多数向量被旋转后方向都会改变。但有没有向量方向不变?
$\theta = 0$ 时所有向量不变,$\theta = \pi$ 时所有向量反向但仍在同一直线上。但对一般的 $\theta$,没有非零向量能在旋转后仍与自身共线。旋转矩阵在实数范围内没有特征值。
再看一个拉伸矩阵 $A = \begin{pmatrix}2 & 0 \\ 0 & 3\end{pmatrix}$:沿 $x$ 轴方向拉伸 2 倍,沿 $y$ 轴方向拉伸 3 倍。$x$ 轴单位向量 $(1,0)^T$ 和 $y$ 轴单位向量 $(0,1)^T$ 方向都不变——它们就是特征向量,对应的拉伸倍数 2 和 3 就是特征值。
但现实中的矩阵往往不是对角矩阵。例如 $A = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}$,它在标准基下将 $(1, 0)^T$ 映射到 $(4, 2)^T$,将 $(0, 1)^T$ 映射到 $(1, 3)^T$,两个基向量的方向都改变了。但如果我们换一组基——使用特征向量 $(1, -2)^T$ 和 $(1, 1)^T$,在新基下 $A$ 就变成了对角矩阵 $\operatorname{diag}(2, 5)$。这就是特征值和特征向量的核心作用:把复杂的矩阵化为简单的对角矩阵。
实际工程中的场景更广泛。在振动分析中,特征值对应固有频率,特征向量对应振型;在图像压缩中,奇异值分解(特征值概念的推广)用于消除冗余信息;在搜索引擎的 PageRank 算法中,网页排名向量就是链接矩阵主特征值 1 对应的特征向量。这些应用虽然方向各异,核心思想都围绕着同一个等式 $A\mathbf{x} = \lambda\mathbf{x}$。
几何直觉
特征向量是线性变换下方向保持不变的向量,特征值是那个方向上的放大倍数:
- $\lambda > 0$:方向不变,长度缩放 $|\lambda|$ 倍
- $\lambda < 0$:方向反转(反向共线),长度缩放 $|\lambda|$ 倍
- $\lambda = 0$:压缩到原点,$A\mathbf{x} = \mathbf{0}$,特征向量在零空间中
- $|\lambda| > 1$:拉伸;$|\lambda| < 1$:压缩
在 $\mathbb{R}^3$ 中,特征向量就是"沿着旋转轴方向"的向量——例如刚体绕某轴旋转,轴上的点保持不动(特征值 1),其他所有点都被旋转离开原方向。

特征值与特征向量
设 $A$ 是 $n \times n$ 矩阵(或 $\mathbb{R}^n$ 上的线性变换)。若非零向量 $\mathbf{x} \in \mathbb{R}^n$ 满足
则称 $\lambda$ 为 $A$ 的一个 特征值(eigenvalue),$\mathbf{x}$ 为对应于 $\lambda$ 的 特征向量(eigenvector)。
等价形式:$(A - \lambda I)\mathbf{x} = \mathbf{0}$。这是一个齐次线性方程组,有非零解的充要条件是:
这个关于 $\lambda$ 的 $n$ 次多项式方程称为 特征方程,$\det(A - \lambda I)$ 称为 特征多项式。
特征空间
对于给定的特征值 $\lambda$,所有满足 $A\mathbf{x} = \lambda\mathbf{x}$ 的向量(包括零向量)构成一个子空间,称为 $\lambda$ 的 特征空间 $E_\lambda$:
特征空间是零空间(核)的特例。它的维数称为 $\lambda$ 的 几何重数(geometric multiplicity)。
如何计算特征值与特征向量
计算流程分三步:
- 列特征方程:计算 $\det(A - \lambda I) = 0$,得到 $n$ 次多项式,求解得 $n$ 个特征值(含重根和复根)。
- 求特征向量:对每个特征值 $\lambda_i$,解齐次方程组 $(A - \lambda_i I)\mathbf{x} = \mathbf{0}$,得到基础解系,即 $\lambda_i$ 的线性无关特征向量(张成 $E_{\lambda_i}$)。
- 归一化(可选):特征向量乘以任意非零标量仍是特征向量,需要时取单位向量。
速算技巧
对于 $2 \times 2$ 矩阵 $A = \begin{pmatrix}a & b \\ c & d\end{pmatrix}$:
特征值之和 $= \operatorname{tr}(A)$,特征值之积 $= \det(A)$。这两个关系对任何 $n$ 阶方阵都成立。
例题 1:求矩阵的特征值与特征向量
题目:设 $A = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}$,求 $A$ 的全部特征值与特征向量。
目标:掌握特征多项式的展开和特征向量的求解流程。
- 列特征方程:$A - \lambda I = \begin{pmatrix}4-\lambda & 1 \\ 2 & 3-\lambda\end{pmatrix}$。计算行列式:$\det(A - \lambda I) = (4-\lambda)(3-\lambda) - 2 = \lambda^2 - 7\lambda + 10 = (\lambda - 2)(\lambda - 5)$。
- 求特征值:$\lambda_1 = 2,\ \lambda_2 = 5$。
- 求 $\lambda_1 = 2$ 的特征向量:$A - 2I = \begin{pmatrix}2 & 1 \\ 2 & 1\end{pmatrix}$。解 $(A-2I)\mathbf{x} = \mathbf{0}$:$\begin{cases}2x_1 + x_2 = 0 \\ 2x_1 + x_2 = 0\end{cases}$,得 $x_2 = -2x_1$。基础解系:$\mathbf{x}_1 = \begin{pmatrix}1 \\ -2\end{pmatrix}$。特征空间 $E_2 = \operatorname{span}\{(1, -2)^T\}$。
- 求 $\lambda_2 = 5$ 的特征向量:$A - 5I = \begin{pmatrix}-1 & 1 \\ 2 & -2\end{pmatrix}$。解 $(A-5I)\mathbf{x} = \mathbf{0}$:$\begin{cases}-x_1 + x_2 = 0 \\ 2x_1 - 2x_2 = 0\end{cases}$,得 $x_1 = x_2$。基础解系:$\mathbf{x}_2 = \begin{pmatrix}1 \\ 1\end{pmatrix}$。特征空间 $E_5 = \operatorname{span}\{(1, 1)^T\}$。
答案:$\lambda_1 = 2,\ \mathbf{x}_1 = k(1, -2)^T\ (k \neq 0)$;$\lambda_2 = 5,\ \mathbf{x}_2 = k(1, 1)^T\ (k \neq 0)$。
上例中两个特征值不同,对应的特征向量线性无关,因此 $A$ 有两个线性无关的特征向量。这是对角化的前提条件。反过来,如果特征值有重根但几何重数不够,矩阵就不可对角化——比如 $\begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$ 只有一个特征方向(代数量数 2,几何重数 1),无法构成 $\mathbb{R}^2$ 的一组基,因此不可对角化。
还有一点值得注意:求解特征向量的过程实质上就是求解齐次线性方程组 $(A - \lambda I)\mathbf{x} = \mathbf{0}$。对不同的 $\lambda$,方程组的系数矩阵 $A - \lambda I$ 的秩决定了特征空间的维数。当 $\lambda$ 不是特征值时,$A - \lambda I$ 可逆,只有零解;当 $\lambda$ 是特征值时,$A - \lambda I$ 不可逆,存在非零解——这正是 $\det(A - \lambda I) = 0$ 的意义所在。
定理 1:特征值与迹、行列式的关系
设 $n$ 阶矩阵 $A$ 的特征值为 $\lambda_1, \lambda_2, \dots, \lambda_n$(含重根,在复数域中计数),则:
这两个关系是验证特征值计算是否正确的重要工具。算完特征值后,加一下看是否等于迹,乘一下看是否等于行列式,能快速发现计算错误。例如上文的例题 1 中,特征值 2 和 5 之和为 7 等于迹 $4+3=7$,之积为 10 等于行列式 $4 \cdot 3 - 1 \cdot 2 = 10$,验证通过。
特征多项式具有标准形式:
定理 2:不同特征值的特征向量线性无关
若 $\lambda_1, \lambda_2, \dots, \lambda_k$ 是矩阵 $A$ 的两两不同的特征值,对应的特征向量分别为 $\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_k$,则 $\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_k\}$ 线性无关。
特征向量的线性组合:是否仍是特征向量?
设 $\mathbf{v}_1, \mathbf{v}_2$ 均为矩阵 $A$ 的特征向量,$\mathbf{w} = c_1\mathbf{v}_1 + c_2\mathbf{v}_2$($c_1, c_2$ 均非零)。结论取决于两个向量是否属于同一特征值:
- 同特征值:若 $A\mathbf{v}_1 = \lambda\mathbf{v}_1$,$A\mathbf{v}_2 = \lambda\mathbf{v}_2$,则 $A\mathbf{w} = \lambda\mathbf{w}$——任意非零线性组合仍是特征向量。
- 不同特征值:若 $\lambda_1 \ne \lambda_2$,假设 $A\mathbf{w} = \mu\mathbf{w}$,展开得 $c_1\lambda_1\mathbf{v}_1 + c_2\lambda_2\mathbf{v}_2 = \mu c_1\mathbf{v}_1 + \mu c_2\mathbf{v}_2$。利用 $\{\mathbf{v}_1, \mathbf{v}_2\}$ 线性无关比较系数,得到 $\lambda_1 = \mu = \lambda_2$,与 $\lambda_1 \ne \lambda_2$ 矛盾——故 $\mathbf{w}$ 不是特征向量。
举例:$A = \operatorname{diag}(0, 2)$,$\mathbf{v}_1 = (1, 0)^T$(特征值 0),$\mathbf{v}_2 = (0, 1)^T$(特征值 2),则 $\mathbf{v}_1 + \mathbf{v}_2$ 不是特征向量;同属特征值 0 的任意非零线性组合仍是特征值 0 的特征向量。
定理 3:特征值的代数重数与几何重数
代数重数(algebraic multiplicity):特征多项式 $(\lambda - \lambda_i)^{m_i}$ 中因子 $(\lambda - \lambda_i)$ 的重数 $m_i$。
几何重数(geometric multiplicity):特征空间 $\dim(E_{\lambda_i})$ 的维数,即 $(A - \lambda_i I)\mathbf{x} = \mathbf{0}$ 基础解系中向量个数。
对任意特征值,几何重数 $\le$ 代数重数。
相关性质速查
- 若 $\lambda$ 是 $A$ 的特征值,则 $k\lambda$ 是 $kA$ 的特征值($k$ 为常数)
- 若 $\lambda$ 是 $A$ 的特征值,则 $\lambda^k$ 是 $A^k$ 的特征值(对应相同特征向量)
- 若 $\lambda \neq 0$ 是 $A$ 的特征值,则 $1/\lambda$ 是 $A^{-1}$ 的特征值
- 若 $\lambda$ 是 $A$ 的特征值,则 $\lambda + \mu$ 是 $A + \mu I$ 的特征值
- $A$ 可逆 $\iff$ 所有特征值非零 $\iff \det(A) \neq 0$
- 实对称矩阵的特征值全为实数(谱定理)
- 反对称矩阵($A^T = -A$)的特征值为 0 或纯虚数
- 正交矩阵($Q^T Q = I$)的特征值的模为 1(即 $|\lambda| = 1$)
- 幂等矩阵($A^2 = A$)的特征值只能是 0 或 1
代数重数与几何重数示例
考虑 $A = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$。特征多项式 $\det(A - \lambda I) = \lambda^2$,$\lambda = 0$ 的代数重数为 2。$A - 0I = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$ 的秩为 1,零空间维数 = $2 - 1 = 1$,即几何重数为 1。代数量数为 2,几何重数为 1——这个矩阵不可对角化。
重根与对角化的关系:矩阵可对角化 $\iff$ 每个特征值的几何重数 = 代数重数。换句话说,对每个特征值 $\lambda_i$,$n - \operatorname{rank}(A - \lambda_i I)$ 必须等于 $\lambda_i$ 在特征多项式中的重数。
Cayley-Hamilton 定理(了解)
设 $p(\lambda) = \det(A - \lambda I)$ 是 $A$ 的特征多项式,则 $p(A) = 0$。也就是说,矩阵 $A$ 满足它自己的特征方程。例如,若 $A = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}$,特征多项式 $p(\lambda) = \lambda^2 - 7\lambda + 10$,则 $p(A) = A^2 - 7A + 10I = 0$。
Cayley-Hamilton 定理的一个直接应用:任何 $A$ 的高次幂($k \ge n$)都可以表示为 $I, A, A^2, \dots, A^{n-1}$ 的线性组合。这在控制理论和矩阵函数的计算中十分有用。
一个矩阵能否"变"成对角矩阵?如果存在一组基(新坐标系),使得在该基下的表示矩阵是对角阵,那么原矩阵就是可对角化的。
相似矩阵
设 $A, B$ 是两个 $n \times n$ 矩阵。若存在可逆矩阵 $P$ 使得
则称 $A$ 与 $B$ 相似(记作 $A \sim B$)。相似变换 $P^{-1}AP$ 表示:在 $P$ 的列向量构成的新基下,$A$ 在新坐标系中的矩阵为 $B$。
相似矩阵的共性:相似矩阵有相同的特征多项式、特征值(含重数)、迹、行列式和秩。注意特征向量的具体坐标会因基变换而改变——对应的是同一个"几何方向"在新基下的不同表示。
可对角化
若 $A$ 相似于某个对角矩阵 $\Lambda$,即存在可逆矩阵 $P$ 使得
则称 $A$ 是可对角化的(diagonalizable)。等价地,$A$ 有 $n$ 个线性无关的特征向量。
对角化的充要条件
| 条件 | 说明 |
|---|---|
| $n$ 个不同特征值 | 充分条件(非必要) |
| 每个特征值的几何重数 = 代数重数 | 充要条件 |
| $A$ 是实对称矩阵 | 一定可对角化(且可用正交矩阵) |
| $A$ 有 $n$ 个线性无关的特征向量 | 等价条件 |
对角化步骤
- 求 $A$ 的全部特征值 $\lambda_1, \dots, \lambda_n$(含重数)。
- 对每个特征值,求 $(A - \lambda_i I)\mathbf{x} = \mathbf{0}$ 的基础解系,得到线性无关的特征向量。
- 若总共收集到少于 $n$ 个线性无关的特征向量,则 $A$ 不可对角化。
- 将 $n$ 个线性无关的特征向量按列排成矩阵 $P$。
- 令 $\Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_n)$,$\lambda_i$ 的位置与 $P$ 中对应列一致。
- 验证:$AP = P\Lambda$(或 $P^{-1}AP = \Lambda$)。
例题 2:判断能否对角化,若能则写出 $P$ 和 $\Lambda$
题目:设 $A = \begin{pmatrix}0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0\end{pmatrix}$,判断 $A$ 是否可对角化,并求出可逆矩阵 $P$ 和对角矩阵 $\Lambda$。
目标:掌握三阶矩阵对角化的完整流程。
- 列特征方程:
$$\det(A - \lambda I) = \det\begin{pmatrix}-\lambda & 1 & 1 \\ 1 & -\lambda & 1 \\ 1 & 1 & -\lambda\end{pmatrix} = (-\lambda - 1)^2(2 - \lambda) = 0$$
(计算技巧:将第 2、3 行加到第 1 行提出因子,再行变换化简)
- 特征值:$\lambda_1 = -1$(代数重数 2),$\lambda_2 = 2$(代数重数 1)。
- 求 $\lambda = -1$ 的特征向量:$A + I = \begin{pmatrix}1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1\end{pmatrix}$,秩为 1,零空间维数 = $3 - 1 = 2$。基础解系:$\mathbf{x}_1 = (-1, 1, 0)^T$,$\mathbf{x}_2 = (-1, 0, 1)^T$。几何重数 = 2 = 代数重数 ✓。
- 求 $\lambda = 2$ 的特征向量:$A - 2I = \begin{pmatrix}-2 & 1 & 1 \\ 1 & -2 & 1 \\ 1 & 1 & -2\end{pmatrix}$,行化简得 $x_1 = x_2 = x_3$。基础解系:$\mathbf{x}_3 = (1, 1, 1)^T$。
- 组装 $P$ 和 $\Lambda$:$P = \begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix}$,$\Lambda = \operatorname{diag}(-1, -1, 2)$。
- 验证:$AP = \begin{pmatrix}0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0\end{pmatrix}\begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix} = \begin{pmatrix}1 & 1 & 2 \\ -1 & 0 & 2 \\ -1 & 1 & 2\end{pmatrix}$,$P\Lambda = \begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix}\begin{pmatrix}-1 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & 2\end{pmatrix} = \begin{pmatrix}1 & 1 & 2 \\ -1 & 0 & 2 \\ -1 & 1 & 2\end{pmatrix}$ ✓。
答案:$A$ 可对角化,$P = \begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix}$,$\Lambda = \operatorname{diag}(-1, -1, 2)$。
对角化的价值:一旦 $A$ 被对角化为 $\Lambda$,计算 $A^k$ 就变得极其简单——$A^k = P\Lambda^k P^{-1}$,而 $\Lambda^k = \operatorname{diag}(\lambda_1^k, \dots, \lambda_n^k)$。这在马尔可夫链、动力系统、差分方程等场景中极为有用。
举一个简单的例子:如果 $A^2 = I$,则 $A$ 的特征值只能是 $\pm 1$(为什么?因为 $A\mathbf{x} = \lambda\mathbf{x}$ 两边左乘 $A$ 得 $A^2\mathbf{x} = \lambda^2\mathbf{x} = \mathbf{x}$,所以 $\lambda^2 = 1$)。同样地,$A^k \to 0$(稳定)当且仅当所有特征值的模小于 1。
可对角化与不可对角化的本质区别
可对角化意味着空间可以分解为特征方向的直和:$\mathbb{R}^n = E_{\lambda_1} \oplus E_{\lambda_2} \oplus \cdots \oplus E_{\lambda_k}$。矩阵在每个特征方向上的作用就是简单的标量乘法。不可对角化则意味着空间中有"旋转+拉伸"混合的方向。处理不可对角化矩阵的工具是 Jordan 标准形——它将矩阵化为由 Jordan 块组成的准对角矩阵,每个 Jordan 块对应一个特征值和一个特征向量。
实对称矩阵($A^T = A$)是最"好"的一类矩阵:特征值全是实数,且一定能用正交矩阵对角化。
实对称矩阵的谱定理(Spectral Theorem)
若 $A$ 是 $n \times n$ 实对称矩阵,则:
(1)$A$ 的所有特征值均为实数。
(2)不同特征值对应的特征向量互相正交。
(3)$A$ 可被正交矩阵对角化,即存在正交矩阵 $Q$($Q^T = Q^{-1}$)使得
正交对角化步骤
- 求 $A$ 的全部特征值和特征向量。
- 对每个特征值 $\lambda_i$,从特征空间 $E_{\lambda_i}$ 中选出一组标准正交基:
- 若 $\dim(E_{\lambda_i}) = 1$,将特征向量单位化即可。
- 若 $\dim(E_{\lambda_i}) > 1$(重根),用 Gram-Schmidt 正交化得到该子空间中的标准正交基。
- 将所有标准正交基按列组成矩阵 $Q$,则 $Q^{-1} = Q^T$,$Q^T A Q = \Lambda$。
为什么实对称矩阵的特征向量的正交性重要?
对一般的可对角化矩阵,特征向量之间不一定正交,因此 $P^{-1} \neq P^T$(计算 $P^{-1}$ 需要求逆,可能涉及复杂计算)。但实对称矩阵的特征向量可选出标准正交基,于是 $Q^{-1} = Q^T$——计算量大幅减少。这个性质也是奇异值分解(SVD)和 PCA 的理论基础。
Gram-Schmidt 正交化
当特征值有重根时,同一特征空间中的特征向量不一定互相正交,需要人为构造正交基。Gram-Schmidt 正交化从一个线性无关向量组 $\{\mathbf{v}_1, \dots, \mathbf{v}_k\}$ 出发,逐步构造出一个正交向量组 $\{\mathbf{u}_1, \dots, \mathbf{u}_k\}$:
核心思路:对第 $j$ 个向量,减去它在前 $j-1$ 个已构造好的正交方向上的投影,剩下的部分自然与前面所有方向正交。最后再单位化,就得到标准正交基。
谱分解
实对称矩阵的正交对角化可以写成谱分解形式:
其中 $\mathbf{q}_i$ 是 $Q$ 的第 $i$ 列(单位特征向量),$\mathbf{q}_i\mathbf{q}_i^T$ 是秩为 1 的投影矩阵。这个分解把 $A$ 拆成了 $n$ 个秩 1 矩阵的和,每一项对应一个特征方向。谱分解在数据降维(PCA 中保留前 $k$ 个最大特征值对应的特征向量)、量子力学(观测算子的谱)和图论(拉普拉斯矩阵的谱聚类)中有广泛的应用。
二次型是一个关于 $n$ 个变量的齐二次多项式函数:
其中 $A$ 是实对称矩阵(要求 $a_{ij} = a_{ji}$,即 $A^T = A$)。
二次型的矩阵表示
例如:$f(x_1, x_2, x_3) = x_1^2 + 2x_2^2 + 3x_3^2 + 4x_1x_2 + 5x_1x_3 + 6x_2x_3$
写成矩阵形式 $\mathbf{x}^T A \mathbf{x}$:
注意交叉项 $x_i x_j$($i \neq j$)的系数在 $A$ 中平分:$a_{ij} = a_{ji} = \frac{\text{系数}}{2}$。
化标准形(仅含平方项)
目标:找到可逆线性变换 $\mathbf{x} = P\mathbf{y}$,使得在新变量 $\mathbf{y}$ 下二次型只含平方项:
两种主要方法:
| 方法 | 原理 | 变换矩阵 | 特点 |
|---|---|---|---|
| 配方法 | 逐步配方消去交叉项 | 可逆但一般不是正交的 | 计算简单,适合低阶 |
| 正交变换法 | 正交对角化 $A$ | $Q$ 正交:$Q^T A Q = \Lambda$ | 保持几何形状(旋转+反射) |
例题 3:用正交变换化二次型为标准形
题目:将二次型 $f(x_1, x_2, x_3) = 2x_1^2 + 2x_2^2 + 2x_3^2 + 2x_1x_2 + 2x_1x_3 + 2x_2x_3$ 化为标准形,并写出正交变换矩阵。
目标:掌握实对称矩阵的正交对角化在二次型中的应用。
- 写出矩阵 $A$:交叉项系数 $2$ 平分得 $a_{ij} = 1$。
$$A = \begin{pmatrix}2 & 1 & 1 \\ 1 & 2 & 1 \\ 1 & 1 & 2\end{pmatrix}$$
- 求特征值:
特征多项式 $\det(A - \lambda I) = \det\begin{pmatrix}2-\lambda & 1 & 1 \\ 1 & 2-\lambda & 1 \\ 1 & 1 & 2-\lambda\end{pmatrix} = (1-\lambda)^2(4-\lambda)$。
得 $\lambda_1 = \lambda_2 = 1$(代数重数 2),$\lambda_3 = 4$(代数重数 1)。
- 求 $\lambda = 1$ 的特征向量(并正交化):
$A - I = \begin{pmatrix}1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1\end{pmatrix}$,得特征向量 $\mathbf{v}_1 = (1, -1, 0)^T$,$\mathbf{v}_2 = (1, 0, -1)^T$。用 Gram-Schmidt 正交化:
$\mathbf{u}_1 = \mathbf{v}_1 = (1, -1, 0)^T$,
$\mathbf{u}_2 = \mathbf{v}_2 - \frac{\mathbf{v}_2 \cdot \mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1}\mathbf{u}_1 = (1, 0, -1) - \frac{1}{2}(1, -1, 0) = \left(\frac12, \frac12, -1\right)$。
单位化:$\mathbf{q}_1 = \frac{1}{\sqrt{2}}(1, -1, 0)^T$,$\mathbf{q}_2 = \frac{1}{\sqrt{6}}(1, 1, -2)^T$。
- 求 $\lambda = 4$ 的特征向量:
$A - 4I = \begin{pmatrix}-2 & 1 & 1 \\ 1 & -2 & 1 \\ 1 & 1 & -2\end{pmatrix}$,得 $\mathbf{v}_3 = (1, 1, 1)^T$,单位化:$\mathbf{q}_3 = \frac{1}{\sqrt{3}}(1, 1, 1)^T$。
- 组装正交矩阵:
$Q = \begin{pmatrix}1/\sqrt{2} & 1/\sqrt{6} & 1/\sqrt{3} \\ -1/\sqrt{2} & 1/\sqrt{6} & 1/\sqrt{3} \\ 0 & -2/\sqrt{6} & 1/\sqrt{3}\end{pmatrix}$。
- 标准形:令 $\mathbf{x} = Q\mathbf{y}$,则 $f = y_1^2 + y_2^2 + 4y_3^2$。
答案:标准形 $f = y_1^2 + y_2^2 + 4y_3^2$,正交变换矩阵 $Q$ 如上。
二次型标准形的应用
- 二次曲面分类:$f$ 的符号由特征值的正负决定。三个特征值全为正 $\to$ 椭球面;两正一负 $\to$ 单叶双曲面;一正两负 $\to$ 双叶双曲面;有零特征值 $\to$ 柱面或抛物面。例如 $f = y_1^2 + y_2^2 + 4y_3^2 = 1$ 是一个椭球面——因为三个系数都为正,且 $1 < 4$,所以在 $y_3$ 方向上被压扁。如果第二个系数改为 $-1$,$f = y_1^2 - y_2^2 + 4y_3^2 = 1$ 就是一个单叶双曲面。
- 正定矩阵判定:$A$ 正定 $\iff$ 所有特征值 $> 0$;半正定 $\iff$ 所有特征值 $\ge 0$。这与顺序主子式判别法等价:$A$ 正定当且仅当所有左上角顺序主子式 $> 0$。
- 主轴定理:正交变换将二次型化为标准形,几何意义是旋转坐标轴,使二次曲面的对称轴与坐标轴重合——这就是"主轴"(principal axes)的含义。主轴方向就是特征向量的方向,轴上拉伸系数就是特征值。
- 惯性定理:二次型化为标准形后,正系数、负系数、零系数的个数是唯一确定的(与所选取的变换无关)。正系数个数称为正惯性指数,负系数个数称为负惯性指数。这个定理说明二次型的本质特征不随坐标变换而改变。
复习速查
| 概念 | 定义 / 公式 | 关键点 |
|---|---|---|
| 特征值/特征向量 | $A\mathbf{x} = \lambda\mathbf{x},\ \mathbf{x} \neq \mathbf{0}$ | 特征向量方向不变,仅缩放 $\lambda$ 倍 |
| 特征多项式 | $\det(A - \lambda I) = 0$ | $n$ 次方程,有 $n$ 个根(含重根和复根) |
| 迹与特征值 | $\sum \lambda_i = \operatorname{tr}(A)$ | 对角线元素之和 |
| 行列式与特征值 | $\prod \lambda_i = \det(A)$ | 所有特征值的乘积 |
| 可对角化充要条件 | 几何重数 = 代数重数(对所有特征值) | 等价于 $n$ 个线性无关的特征向量 |
| 相似矩阵 | $B = P^{-1}AP$ | 相同特征值、特征多项式、迹、行列式 |
| 实对称矩阵 | $A^T = A$ | 特征值为实数;不同特征值特征向量正交;可用正交矩阵对角化 |
| 正交对角化 | $Q^T A Q = \Lambda$,$Q^T = Q^{-1}$ | $Q$ 的列是标准正交的特征向量 |
| 二次型 | $f = \mathbf{x}^T A \mathbf{x}$ | $A$ 为实对称矩阵 |
| 标准形 | $f = \lambda_1 y_1^2 + \cdots + \lambda_n y_n^2$ | 系数是 $A$ 的特征值 |
| 正定矩阵 | 所有特征值 $> 0$ | $\mathbf{x}^T A \mathbf{x} > 0$ 对所有 $\mathbf{x} \neq \mathbf{0}$ |
参考来源
- 电子科技大学线性代数课程组(邓良剑):线性代数枢纽页 · 讲义 PDF(5.1 特征值与特征向量、5.2 对角化、5.3 特征值应用、5.4 特征值续)
- Wikipedia 特征值与特征向量词条:https://zh.wikipedia.org/zh-hans/特征值和特征向量 — 定义、谱定理、几何解释
- 知乎线性代数特征值笔记:https://zhuanlan.zhihu.com/p/666157660 — 特征值相似矩阵、对角化与实对称矩阵系统性笔记
- CSDN 二次型化标准形五种方法:https://blog.csdn.net/weixin_45826022/article/details/106214444 — 配方法、正交变换法等实例
- 上海交通大学《线性代数》讲义 12-13:https://basics.sjtu.edu.cn/~yangqizhe/pdf/la2024s/slides/LALec12-handout-zh.pdf — 特征值与对称矩阵