ESC
输入关键词搜索文章
目录

特征值与特征向量

线性代数 · 第五章
矩阵的不变方向——特征值揭示线性变换的本质
Part 0 · 学习目标
特征值:线性变换的不变方向

一个 $n \times n$ 矩阵 $A$ 可以看作 $\mathbb{R}^n$ 到自身的线性变换。大部分向量在变换后方向都会改变。但有些向量方向不变——它们只被拉伸或压缩,甚至反转。这些特殊的方向就是矩阵的 特征方向,拉伸倍数就是 特征值

举一个具体的例子。考虑矩阵 $A = \begin{pmatrix}2 & 0 \\ 0 & 3\end{pmatrix}$,它把向量 $(x, y)^T$ 映射为 $(2x, 3y)^T$。向量 $(1, 0)^T$ 被送到 $(2, 0)^T$——方向不变,仅长度变为 2 倍。向量 $(0, 1)^T$ 同理,被拉伸 3 倍。这两个方向就是特征方向,2 和 3 就是特征值。反过来,向量 $(1, 1)^T$ 被送到 $(2, 3)^T$,方向完全改变,它不是特征向量。

特征值与特征向量是线性代数的核心概念之一,理解它们等于打开了"矩阵的结构"这扇门。本章覆盖:特征值与特征向量的定义与几何意义、特征多项式的构造、对角化条件与步骤、相似矩阵、实对称矩阵的正交对角化、二次型化标准形。

前置知识回顾

  • 行列式$\det(A)$ 的计算,尤其是 $\det(A - \lambda I)$ 的展开,参考
    PDF行列式定义p.1

    pdf/线性代数/2.1.pdf · p.1

    打开原文

  • 矩阵乘法与线性变换$A\mathbf{x} = \mathbf{b}$ 表示线性变换,参考
    PDF矩阵概念p.1

    pdf/线性代数/1.1.pdf · p.1

    打开原文

  • 齐次线性方程组$(A - \lambda I)\mathbf{x} = \mathbf{0}$ 有非零解的充要条件是系数矩阵行列式为零。
  • 向量空间与基:一组向量线性无关意味着它们张成的空间维数等于向量个数。
Part 1 · 背景问题
为什么需要特征值?

考虑一个旋转矩阵 $R_\theta = \begin{pmatrix}\cos\theta & -\sin\theta \\ \sin\theta & \cos\theta\end{pmatrix}$。在 $\mathbb{R}^2$ 中,绝大多数向量被旋转后方向都会改变。但有没有向量方向不变?

$\theta = 0$ 时所有向量不变,$\theta = \pi$ 时所有向量反向但仍在同一直线上。但对一般的 $\theta$,没有非零向量能在旋转后仍与自身共线。旋转矩阵在实数范围内没有特征值。

再看一个拉伸矩阵 $A = \begin{pmatrix}2 & 0 \\ 0 & 3\end{pmatrix}$:沿 $x$ 轴方向拉伸 2 倍,沿 $y$ 轴方向拉伸 3 倍。$x$ 轴单位向量 $(1,0)^T$$y$ 轴单位向量 $(0,1)^T$ 方向都不变——它们就是特征向量,对应的拉伸倍数 2 和 3 就是特征值。

但现实中的矩阵往往不是对角矩阵。例如 $A = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}$,它在标准基下将 $(1, 0)^T$ 映射到 $(4, 2)^T$,将 $(0, 1)^T$ 映射到 $(1, 3)^T$,两个基向量的方向都改变了。但如果我们换一组基——使用特征向量 $(1, -2)^T$$(1, 1)^T$,在新基下 $A$ 就变成了对角矩阵 $\operatorname{diag}(2, 5)$。这就是特征值和特征向量的核心作用:把复杂的矩阵化为简单的对角矩阵

实际工程中的场景更广泛。在振动分析中,特征值对应固有频率,特征向量对应振型;在图像压缩中,奇异值分解(特征值概念的推广)用于消除冗余信息;在搜索引擎的 PageRank 算法中,网页排名向量就是链接矩阵主特征值 1 对应的特征向量。这些应用虽然方向各异,核心思想都围绕着同一个等式 $A\mathbf{x} = \lambda\mathbf{x}$

几何直觉

特征向量是线性变换下方向保持不变的向量,特征值是那个方向上的放大倍数:

$$A\mathbf{x} = \lambda \mathbf{x}, \quad \mathbf{x} \neq \mathbf{0}$$
  • $\lambda > 0$:方向不变,长度缩放 $|\lambda|$
  • $\lambda < 0$:方向反转(反向共线),长度缩放 $|\lambda|$
  • $\lambda = 0$:压缩到原点,$A\mathbf{x} = \mathbf{0}$,特征向量在零空间中
  • $|\lambda| > 1$:拉伸;$|\lambda| < 1$:压缩

$\mathbb{R}^3$ 中,特征向量就是"沿着旋转轴方向"的向量——例如刚体绕某轴旋转,轴上的点保持不动(特征值 1),其他所有点都被旋转离开原方向。

PDF特征值与特征向量引入p.1

pdf/线性代数/5.1.pdf · p.1

打开原文

特征值引入
特征值与特征向量引入 · 电子科技大学线性代数课件
Part 2 · 概念定义
特征值与特征向量的严格定义

特征值与特征向量

$A$$n \times n$ 矩阵(或 $\mathbb{R}^n$ 上的线性变换)。若非零向量 $\mathbf{x} \in \mathbb{R}^n$ 满足

$$A\mathbf{x} = \lambda \mathbf{x}$$

则称 $\lambda$$A$ 的一个 特征值(eigenvalue),$\mathbf{x}$ 为对应于 $\lambda$特征向量(eigenvector)。

等价形式:$(A - \lambda I)\mathbf{x} = \mathbf{0}$。这是一个齐次线性方程组,有非零解的充要条件是:

$$\det(A - \lambda I) = 0$$

这个关于 $\lambda$$n$ 次多项式方程称为 特征方程$\det(A - \lambda I)$ 称为 特征多项式

特征空间

对于给定的特征值 $\lambda$,所有满足 $A\mathbf{x} = \lambda\mathbf{x}$ 的向量(包括零向量)构成一个子空间,称为 $\lambda$特征空间 $E_\lambda$

$$E_\lambda = \{\mathbf{x} \in \mathbb{R}^n \mid (A - \lambda I)\mathbf{x} = \mathbf{0}\} = \ker(A - \lambda I)$$

特征空间是零空间(核)的特例。它的维数称为 $\lambda$几何重数(geometric multiplicity)。

如何计算特征值与特征向量

计算流程分三步:

  1. 列特征方程:计算 $\det(A - \lambda I) = 0$,得到 $n$ 次多项式,求解得 $n$ 个特征值(含重根和复根)。
  2. 求特征向量:对每个特征值 $\lambda_i$,解齐次方程组 $(A - \lambda_i I)\mathbf{x} = \mathbf{0}$,得到基础解系,即 $\lambda_i$ 的线性无关特征向量(张成 $E_{\lambda_i}$)。
  3. 归一化(可选):特征向量乘以任意非零标量仍是特征向量,需要时取单位向量。

速算技巧

对于 $2 \times 2$ 矩阵 $A = \begin{pmatrix}a & b \\ c & d\end{pmatrix}$

$$\det(A - \lambda I) = \lambda^2 - (a+d)\lambda + (ad-bc) = \lambda^2 - \operatorname{tr}(A)\lambda + \det(A)$$

特征值之和 $= \operatorname{tr}(A)$,特征值之积 $= \det(A)$。这两个关系对任何 $n$ 阶方阵都成立。

例题 1:求矩阵的特征值与特征向量

题目:$A = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}$,求 $A$ 的全部特征值与特征向量。

目标:掌握特征多项式的展开和特征向量的求解流程。

  1. 列特征方程$A - \lambda I = \begin{pmatrix}4-\lambda & 1 \\ 2 & 3-\lambda\end{pmatrix}$。计算行列式:$\det(A - \lambda I) = (4-\lambda)(3-\lambda) - 2 = \lambda^2 - 7\lambda + 10 = (\lambda - 2)(\lambda - 5)$
  2. 求特征值$\lambda_1 = 2,\ \lambda_2 = 5$
  3. $\lambda_1 = 2$ 的特征向量$A - 2I = \begin{pmatrix}2 & 1 \\ 2 & 1\end{pmatrix}$。解 $(A-2I)\mathbf{x} = \mathbf{0}$$\begin{cases}2x_1 + x_2 = 0 \\ 2x_1 + x_2 = 0\end{cases}$,得 $x_2 = -2x_1$。基础解系:$\mathbf{x}_1 = \begin{pmatrix}1 \\ -2\end{pmatrix}$。特征空间 $E_2 = \operatorname{span}\{(1, -2)^T\}$
  4. $\lambda_2 = 5$ 的特征向量$A - 5I = \begin{pmatrix}-1 & 1 \\ 2 & -2\end{pmatrix}$。解 $(A-5I)\mathbf{x} = \mathbf{0}$$\begin{cases}-x_1 + x_2 = 0 \\ 2x_1 - 2x_2 = 0\end{cases}$,得 $x_1 = x_2$。基础解系:$\mathbf{x}_2 = \begin{pmatrix}1 \\ 1\end{pmatrix}$。特征空间 $E_5 = \operatorname{span}\{(1, 1)^T\}$

答案:$\lambda_1 = 2,\ \mathbf{x}_1 = k(1, -2)^T\ (k \neq 0)$$\lambda_2 = 5,\ \mathbf{x}_2 = k(1, 1)^T\ (k \neq 0)$

验证:$A\mathbf{x}_1 = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}\begin{pmatrix}1 \\ -2\end{pmatrix} = \begin{pmatrix}2 \\ -4\end{pmatrix} = 2\begin{pmatrix}1 \\ -2\end{pmatrix}$ ✓。$A\mathbf{x}_2 = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}\begin{pmatrix}1 \\ 1\end{pmatrix} = \begin{pmatrix}5 \\ 5\end{pmatrix} = 5\begin{pmatrix}1 \\ 1\end{pmatrix}$ ✓。

上例中两个特征值不同,对应的特征向量线性无关,因此 $A$ 有两个线性无关的特征向量。这是对角化的前提条件。反过来,如果特征值有重根但几何重数不够,矩阵就不可对角化——比如 $\begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$ 只有一个特征方向(代数量数 2,几何重数 1),无法构成 $\mathbb{R}^2$ 的一组基,因此不可对角化。

还有一点值得注意:求解特征向量的过程实质上就是求解齐次线性方程组 $(A - \lambda I)\mathbf{x} = \mathbf{0}$。对不同的 $\lambda$,方程组的系数矩阵 $A - \lambda I$ 的秩决定了特征空间的维数。当 $\lambda$ 不是特征值时,$A - \lambda I$ 可逆,只有零解;当 $\lambda$ 是特征值时,$A - \lambda I$ 不可逆,存在非零解——这正是 $\det(A - \lambda I) = 0$ 的意义所在。

PDF特征值与特征向量定义p.3

pdf/线性代数/5.1.pdf · p.3

打开原文

Part 3 · 特征多项式的性质
三大核心关系与代数重数

定理 1:特征值与迹、行列式的关系

$n$ 阶矩阵 $A$ 的特征值为 $\lambda_1, \lambda_2, \dots, \lambda_n$(含重根,在复数域中计数),则:

$$\sum_{i=1}^{n} \lambda_i = \operatorname{tr}(A) = a_{11} + a_{22} + \cdots + a_{nn}$$
$$\prod_{i=1}^{n} \lambda_i = \det(A)$$

这两个关系是验证特征值计算是否正确的重要工具。算完特征值后,加一下看是否等于迹,乘一下看是否等于行列式,能快速发现计算错误。例如上文的例题 1 中,特征值 2 和 5 之和为 7 等于迹 $4+3=7$,之积为 10 等于行列式 $4 \cdot 3 - 1 \cdot 2 = 10$,验证通过。

特征多项式具有标准形式:

$$\det(A - \lambda I) = (-1)^n\lambda^n + (-1)^{n-1}\operatorname{tr}(A)\lambda^{n-1} + \cdots + \det(A)$$

定理 2:不同特征值的特征向量线性无关

$\lambda_1, \lambda_2, \dots, \lambda_k$ 是矩阵 $A$ 的两两不同的特征值,对应的特征向量分别为 $\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_k$,则 $\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_k\}$ 线性无关。

特征向量的线性组合:是否仍是特征向量?

$\mathbf{v}_1, \mathbf{v}_2$ 均为矩阵 $A$ 的特征向量,$\mathbf{w} = c_1\mathbf{v}_1 + c_2\mathbf{v}_2$$c_1, c_2$ 均非零)。结论取决于两个向量是否属于同一特征值:

  • 同特征值:若 $A\mathbf{v}_1 = \lambda\mathbf{v}_1$$A\mathbf{v}_2 = \lambda\mathbf{v}_2$,则 $A\mathbf{w} = \lambda\mathbf{w}$——任意非零线性组合仍是特征向量。
  • 不同特征值:若 $\lambda_1 \ne \lambda_2$,假设 $A\mathbf{w} = \mu\mathbf{w}$,展开得 $c_1\lambda_1\mathbf{v}_1 + c_2\lambda_2\mathbf{v}_2 = \mu c_1\mathbf{v}_1 + \mu c_2\mathbf{v}_2$。利用 $\{\mathbf{v}_1, \mathbf{v}_2\}$ 线性无关比较系数,得到 $\lambda_1 = \mu = \lambda_2$,与 $\lambda_1 \ne \lambda_2$ 矛盾——故 $\mathbf{w}$ 不是特征向量。

举例:$A = \operatorname{diag}(0, 2)$$\mathbf{v}_1 = (1, 0)^T$(特征值 0),$\mathbf{v}_2 = (0, 1)^T$(特征值 2),则 $\mathbf{v}_1 + \mathbf{v}_2$ 不是特征向量;同属特征值 0 的任意非零线性组合仍是特征值 0 的特征向量。

定理 3:特征值的代数重数与几何重数

代数重数(algebraic multiplicity):特征多项式 $(\lambda - \lambda_i)^{m_i}$ 中因子 $(\lambda - \lambda_i)$ 的重数 $m_i$

几何重数(geometric multiplicity):特征空间 $\dim(E_{\lambda_i})$ 的维数,即 $(A - \lambda_i I)\mathbf{x} = \mathbf{0}$ 基础解系中向量个数。

对任意特征值,几何重数 $\le$ 代数重数

相关性质速查

  • $\lambda$$A$ 的特征值,则 $k\lambda$$kA$ 的特征值($k$ 为常数)
  • $\lambda$$A$ 的特征值,则 $\lambda^k$$A^k$ 的特征值(对应相同特征向量)
  • $\lambda \neq 0$$A$ 的特征值,则 $1/\lambda$$A^{-1}$ 的特征值
  • $\lambda$$A$ 的特征值,则 $\lambda + \mu$$A + \mu I$ 的特征值
  • $A$ 可逆 $\iff$ 所有特征值非零 $\iff \det(A) \neq 0$
  • 实对称矩阵的特征值全为实数(谱定理)
  • 反对称矩阵($A^T = -A$)的特征值为 0 或纯虚数
  • 正交矩阵($Q^T Q = I$)的特征值的模为 1(即 $|\lambda| = 1$
  • 幂等矩阵($A^2 = A$)的特征值只能是 0 或 1

代数重数与几何重数示例

考虑 $A = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$。特征多项式 $\det(A - \lambda I) = \lambda^2$$\lambda = 0$ 的代数重数为 2。$A - 0I = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$ 的秩为 1,零空间维数 = $2 - 1 = 1$,即几何重数为 1。代数量数为 2,几何重数为 1——这个矩阵不可对角化。

重根与对角化的关系:矩阵可对角化 $\iff$ 每个特征值的几何重数 = 代数重数。换句话说,对每个特征值 $\lambda_i$$n - \operatorname{rank}(A - \lambda_i I)$ 必须等于 $\lambda_i$ 在特征多项式中的重数。

Cayley-Hamilton 定理(了解)

$p(\lambda) = \det(A - \lambda I)$$A$ 的特征多项式,则 $p(A) = 0$。也就是说,矩阵 $A$ 满足它自己的特征方程。例如,若 $A = \begin{pmatrix}4 & 1 \\ 2 & 3\end{pmatrix}$,特征多项式 $p(\lambda) = \lambda^2 - 7\lambda + 10$,则 $p(A) = A^2 - 7A + 10I = 0$

Cayley-Hamilton 定理的一个直接应用:任何 $A$ 的高次幂($k \ge n$)都可以表示为 $I, A, A^2, \dots, A^{n-1}$ 的线性组合。这在控制理论和矩阵函数的计算中十分有用。

PDF特征值的性质p.10

pdf/线性代数/5.1.pdf · p.10

打开原文

Part 4 · 相似矩阵与对角化
找到一组基让矩阵变成对角形

一个矩阵能否"变"成对角矩阵?如果存在一组基(新坐标系),使得在该基下的表示矩阵是对角阵,那么原矩阵就是可对角化的。

相似矩阵

$A, B$ 是两个 $n \times n$ 矩阵。若存在可逆矩阵 $P$ 使得

$$B = P^{-1}AP$$

则称 $A$$B$ 相似(记作 $A \sim B$)。相似变换 $P^{-1}AP$ 表示:在 $P$ 的列向量构成的新基下,$A$ 在新坐标系中的矩阵为 $B$

相似矩阵的共性:相似矩阵有相同的特征多项式、特征值(含重数)、迹、行列式和秩。注意特征向量的具体坐标会因基变换而改变——对应的是同一个"几何方向"在新基下的不同表示。

可对角化

$A$ 相似于某个对角矩阵 $\Lambda$,即存在可逆矩阵 $P$ 使得

$$P^{-1}AP = \Lambda = \operatorname{diag}(\lambda_1, \lambda_2, \dots, \lambda_n)$$

则称 $A$可对角化的(diagonalizable)。等价地,$A$$n$ 个线性无关的特征向量。

对角化的充要条件

条件说明
$n$ 个不同特征值充分条件(非必要)
每个特征值的几何重数 = 代数重数充要条件
$A$ 是实对称矩阵一定可对角化(且可用正交矩阵)
$A$$n$ 个线性无关的特征向量等价条件

对角化步骤

  1. $A$ 的全部特征值 $\lambda_1, \dots, \lambda_n$(含重数)。
  2. 对每个特征值,求 $(A - \lambda_i I)\mathbf{x} = \mathbf{0}$ 的基础解系,得到线性无关的特征向量。
  3. 若总共收集到少于 $n$ 个线性无关的特征向量,则 $A$ 不可对角化。
  4. $n$ 个线性无关的特征向量按列排成矩阵 $P$
  5. $\Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_n)$$\lambda_i$ 的位置与 $P$ 中对应列一致。
  6. 验证:$AP = P\Lambda$(或 $P^{-1}AP = \Lambda$)。

例题 2:判断能否对角化,若能则写出 $P$$\Lambda$

题目:$A = \begin{pmatrix}0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0\end{pmatrix}$,判断 $A$ 是否可对角化,并求出可逆矩阵 $P$ 和对角矩阵 $\Lambda$

目标:掌握三阶矩阵对角化的完整流程。

  1. 列特征方程
    $$\det(A - \lambda I) = \det\begin{pmatrix}-\lambda & 1 & 1 \\ 1 & -\lambda & 1 \\ 1 & 1 & -\lambda\end{pmatrix} = (-\lambda - 1)^2(2 - \lambda) = 0$$

    (计算技巧:将第 2、3 行加到第 1 行提出因子,再行变换化简)

  2. 特征值$\lambda_1 = -1$(代数重数 2),$\lambda_2 = 2$(代数重数 1)。
  3. $\lambda = -1$ 的特征向量$A + I = \begin{pmatrix}1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1\end{pmatrix}$,秩为 1,零空间维数 = $3 - 1 = 2$。基础解系:$\mathbf{x}_1 = (-1, 1, 0)^T$$\mathbf{x}_2 = (-1, 0, 1)^T$。几何重数 = 2 = 代数重数 ✓。
  4. $\lambda = 2$ 的特征向量$A - 2I = \begin{pmatrix}-2 & 1 & 1 \\ 1 & -2 & 1 \\ 1 & 1 & -2\end{pmatrix}$,行化简得 $x_1 = x_2 = x_3$。基础解系:$\mathbf{x}_3 = (1, 1, 1)^T$
  5. 组装 $P$$\Lambda$$P = \begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix}$$\Lambda = \operatorname{diag}(-1, -1, 2)$
  6. 验证$AP = \begin{pmatrix}0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0\end{pmatrix}\begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix} = \begin{pmatrix}1 & 1 & 2 \\ -1 & 0 & 2 \\ -1 & 1 & 2\end{pmatrix}$$P\Lambda = \begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix}\begin{pmatrix}-1 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & 2\end{pmatrix} = \begin{pmatrix}1 & 1 & 2 \\ -1 & 0 & 2 \\ -1 & 1 & 2\end{pmatrix}$ ✓。

答案:$A$ 可对角化,$P = \begin{pmatrix}-1 & -1 & 1 \\ 1 & 0 & 1 \\ 0 & 1 & 1\end{pmatrix}$$\Lambda = \operatorname{diag}(-1, -1, 2)$

关键验证:本例中 $\lambda = -1$ 的代数重数为 2、几何重数也为 2(零空间有 2 个自由变量),因此可对角化。如果几何重数小于代数重数(如第一部分 $\begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$),则矩阵 不可对角化

对角化的价值:一旦 $A$ 被对角化为 $\Lambda$,计算 $A^k$ 就变得极其简单——$A^k = P\Lambda^k P^{-1}$,而 $\Lambda^k = \operatorname{diag}(\lambda_1^k, \dots, \lambda_n^k)$。这在马尔可夫链、动力系统、差分方程等场景中极为有用。

举一个简单的例子:如果 $A^2 = I$,则 $A$ 的特征值只能是 $\pm 1$(为什么?因为 $A\mathbf{x} = \lambda\mathbf{x}$ 两边左乘 $A$$A^2\mathbf{x} = \lambda^2\mathbf{x} = \mathbf{x}$,所以 $\lambda^2 = 1$)。同样地,$A^k \to 0$(稳定)当且仅当所有特征值的模小于 1。

可对角化与不可对角化的本质区别

可对角化意味着空间可以分解为特征方向的直和:$\mathbb{R}^n = E_{\lambda_1} \oplus E_{\lambda_2} \oplus \cdots \oplus E_{\lambda_k}$。矩阵在每个特征方向上的作用就是简单的标量乘法。不可对角化则意味着空间中有"旋转+拉伸"混合的方向。处理不可对角化矩阵的工具是 Jordan 标准形——它将矩阵化为由 Jordan 块组成的准对角矩阵,每个 Jordan 块对应一个特征值和一个特征向量。

PDF相似矩阵与对角化p.1

pdf/线性代数/5.2.pdf · p.1

打开原文

Part 5 · 实对称矩阵的正交对角化
用一组标准正交基对角化——谱定理

实对称矩阵($A^T = A$)是最"好"的一类矩阵:特征值全是实数,且一定能用正交矩阵对角化。

实对称矩阵的谱定理(Spectral Theorem)

$A$$n \times n$ 实对称矩阵,则:

(1)$A$ 的所有特征值均为实数。

(2)不同特征值对应的特征向量互相正交。

(3)$A$ 可被正交矩阵对角化,即存在正交矩阵 $Q$$Q^T = Q^{-1}$)使得

$$Q^T A Q = \Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_n)$$

正交对角化步骤

  1. $A$ 的全部特征值和特征向量。
  2. 对每个特征值 $\lambda_i$,从特征空间 $E_{\lambda_i}$ 中选出一组标准正交基:
    • $\dim(E_{\lambda_i}) = 1$,将特征向量单位化即可。
    • $\dim(E_{\lambda_i}) > 1$(重根),用 Gram-Schmidt 正交化得到该子空间中的标准正交基。
  3. 将所有标准正交基按列组成矩阵 $Q$,则 $Q^{-1} = Q^T$$Q^T A Q = \Lambda$

为什么实对称矩阵的特征向量的正交性重要?

对一般的可对角化矩阵,特征向量之间不一定正交,因此 $P^{-1} \neq P^T$(计算 $P^{-1}$ 需要求逆,可能涉及复杂计算)。但实对称矩阵的特征向量可选出标准正交基,于是 $Q^{-1} = Q^T$——计算量大幅减少。这个性质也是奇异值分解(SVD)和 PCA 的理论基础。

Gram-Schmidt 正交化

当特征值有重根时,同一特征空间中的特征向量不一定互相正交,需要人为构造正交基。Gram-Schmidt 正交化从一个线性无关向量组 $\{\mathbf{v}_1, \dots, \mathbf{v}_k\}$ 出发,逐步构造出一个正交向量组 $\{\mathbf{u}_1, \dots, \mathbf{u}_k\}$

$$\mathbf{u}_1 = \mathbf{v}_1, \quad \mathbf{u}_j = \mathbf{v}_j - \sum_{i=1}^{j-1} \frac{\mathbf{v}_j \cdot \mathbf{u}_i}{\mathbf{u}_i \cdot \mathbf{u}_i} \mathbf{u}_i$$

核心思路:对第 $j$ 个向量,减去它在前 $j-1$ 个已构造好的正交方向上的投影,剩下的部分自然与前面所有方向正交。最后再单位化,就得到标准正交基。

谱分解

实对称矩阵的正交对角化可以写成谱分解形式:

$$A = Q\Lambda Q^T = \lambda_1 \mathbf{q}_1\mathbf{q}_1^T + \lambda_2 \mathbf{q}_2\mathbf{q}_2^T + \cdots + \lambda_n \mathbf{q}_n\mathbf{q}_n^T$$

其中 $\mathbf{q}_i$$Q$ 的第 $i$ 列(单位特征向量),$\mathbf{q}_i\mathbf{q}_i^T$ 是秩为 1 的投影矩阵。这个分解把 $A$ 拆成了 $n$ 个秩 1 矩阵的和,每一项对应一个特征方向。谱分解在数据降维(PCA 中保留前 $k$ 个最大特征值对应的特征向量)、量子力学(观测算子的谱)和图论(拉普拉斯矩阵的谱聚类)中有广泛的应用。

PDF正交对角化p.10

pdf/线性代数/5.2.pdf · p.10

打开原文

Part 6 · 二次型化标准形
用特征值化简二次曲面方程

二次型是一个关于 $n$ 个变量的齐二次多项式函数:

$$f(x_1, x_2, \dots, x_n) = \sum_{i=1}^{n}\sum_{j=1}^{n} a_{ij}x_i x_j = \mathbf{x}^T A \mathbf{x}$$

其中 $A$ 是实对称矩阵(要求 $a_{ij} = a_{ji}$,即 $A^T = A$)。

二次型的矩阵表示

例如:$f(x_1, x_2, x_3) = x_1^2 + 2x_2^2 + 3x_3^2 + 4x_1x_2 + 5x_1x_3 + 6x_2x_3$

写成矩阵形式 $\mathbf{x}^T A \mathbf{x}$

$$A = \begin{pmatrix}1 & 2 & 2.5 \\ 2 & 2 & 3 \\ 2.5 & 3 & 3\end{pmatrix}$$

注意交叉项 $x_i x_j$$i \neq j$)的系数在 $A$ 中平分:$a_{ij} = a_{ji} = \frac{\text{系数}}{2}$

化标准形(仅含平方项)

目标:找到可逆线性变换 $\mathbf{x} = P\mathbf{y}$,使得在新变量 $\mathbf{y}$ 下二次型只含平方项:

$$f = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2$$

两种主要方法:

方法原理变换矩阵特点
配方法逐步配方消去交叉项可逆但一般不是正交的计算简单,适合低阶
正交变换法正交对角化 $A$$Q$ 正交:$Q^T A Q = \Lambda$保持几何形状(旋转+反射)

例题 3:用正交变换化二次型为标准形

题目:将二次型 $f(x_1, x_2, x_3) = 2x_1^2 + 2x_2^2 + 2x_3^2 + 2x_1x_2 + 2x_1x_3 + 2x_2x_3$ 化为标准形,并写出正交变换矩阵。

目标:掌握实对称矩阵的正交对角化在二次型中的应用。

  1. 写出矩阵 $A$:交叉项系数 $2$ 平分得 $a_{ij} = 1$

    $$A = \begin{pmatrix}2 & 1 & 1 \\ 1 & 2 & 1 \\ 1 & 1 & 2\end{pmatrix}$$
  2. 求特征值

    特征多项式 $\det(A - \lambda I) = \det\begin{pmatrix}2-\lambda & 1 & 1 \\ 1 & 2-\lambda & 1 \\ 1 & 1 & 2-\lambda\end{pmatrix} = (1-\lambda)^2(4-\lambda)$

    $\lambda_1 = \lambda_2 = 1$(代数重数 2),$\lambda_3 = 4$(代数重数 1)。

  3. $\lambda = 1$ 的特征向量(并正交化)

    $A - I = \begin{pmatrix}1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1\end{pmatrix}$,得特征向量 $\mathbf{v}_1 = (1, -1, 0)^T$$\mathbf{v}_2 = (1, 0, -1)^T$。用 Gram-Schmidt 正交化:

    $\mathbf{u}_1 = \mathbf{v}_1 = (1, -1, 0)^T$

    $\mathbf{u}_2 = \mathbf{v}_2 - \frac{\mathbf{v}_2 \cdot \mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1}\mathbf{u}_1 = (1, 0, -1) - \frac{1}{2}(1, -1, 0) = \left(\frac12, \frac12, -1\right)$

    单位化:$\mathbf{q}_1 = \frac{1}{\sqrt{2}}(1, -1, 0)^T$$\mathbf{q}_2 = \frac{1}{\sqrt{6}}(1, 1, -2)^T$

  4. $\lambda = 4$ 的特征向量

    $A - 4I = \begin{pmatrix}-2 & 1 & 1 \\ 1 & -2 & 1 \\ 1 & 1 & -2\end{pmatrix}$,得 $\mathbf{v}_3 = (1, 1, 1)^T$,单位化:$\mathbf{q}_3 = \frac{1}{\sqrt{3}}(1, 1, 1)^T$

  5. 组装正交矩阵

    $Q = \begin{pmatrix}1/\sqrt{2} & 1/\sqrt{6} & 1/\sqrt{3} \\ -1/\sqrt{2} & 1/\sqrt{6} & 1/\sqrt{3} \\ 0 & -2/\sqrt{6} & 1/\sqrt{3}\end{pmatrix}$

  6. 标准形:令 $\mathbf{x} = Q\mathbf{y}$,则 $f = y_1^2 + y_2^2 + 4y_3^2$

答案:标准形 $f = y_1^2 + y_2^2 + 4y_3^2$,正交变换矩阵 $Q$ 如上。

验证:$Q^T A Q = \operatorname{diag}(1, 1, 4)$。新变量的平方项系数就是 $A$ 的特征值。$1+1+4 = 6 = \operatorname{tr}(A) = 2+2+2$ ✓,$1\cdot 1 \cdot 4 = 4 = \det(A)$ ✓。

二次型标准形的应用

  • 二次曲面分类$f$ 的符号由特征值的正负决定。三个特征值全为正 $\to$ 椭球面;两正一负 $\to$ 单叶双曲面;一正两负 $\to$ 双叶双曲面;有零特征值 $\to$ 柱面或抛物面。例如 $f = y_1^2 + y_2^2 + 4y_3^2 = 1$ 是一个椭球面——因为三个系数都为正,且 $1 < 4$,所以在 $y_3$ 方向上被压扁。如果第二个系数改为 $-1$$f = y_1^2 - y_2^2 + 4y_3^2 = 1$ 就是一个单叶双曲面。
  • 正定矩阵判定$A$ 正定 $\iff$ 所有特征值 $> 0$;半正定 $\iff$ 所有特征值 $\ge 0$。这与顺序主子式判别法等价:$A$ 正定当且仅当所有左上角顺序主子式 $> 0$
  • 主轴定理:正交变换将二次型化为标准形,几何意义是旋转坐标轴,使二次曲面的对称轴与坐标轴重合——这就是"主轴"(principal axes)的含义。主轴方向就是特征向量的方向,轴上拉伸系数就是特征值。
  • 惯性定理:二次型化为标准形后,正系数、负系数、零系数的个数是唯一确定的(与所选取的变换无关)。正系数个数称为正惯性指数,负系数个数称为负惯性指数。这个定理说明二次型的本质特征不随坐标变换而改变。
PDF特征值应用——二次型p.1

pdf/线性代数/5.3.pdf · p.1

打开原文

PDF特征值续——二次型与实对称矩阵p.1

pdf/线性代数/5.4.pdf · p.1

打开原文

Part 7 · 与后续章节的关系
特征值在课程全局中的位置
→ 行列式(第二章)
$\det(A - \lambda I) = 0$ 是特征方程
特征值的乘积等于 $\det(A)$,这个关系贯穿第五章。实对称矩阵的特征多项式系数可由行列式子式给出。
PDF行列式的性质p.1

pdf/线性代数/2.2.pdf · p.1

打开原文

→ 线性方程组(第四章)
特征向量是 $(A - \lambda I)\mathbf{x} = \mathbf{0}$ 的非零解
求解特征空间就是解齐次线性方程组。零空间维数 = 几何重数 = $n - \operatorname{rank}(A - \lambda I)$
→ 矩阵分解(后续)
特征分解 $A = P\Lambda P^{-1}$
这是三大矩阵分解(LU、QR、特征分解)之一。实对称矩阵的谱分解是奇异值分解(SVD)的特例。
→ 数值线性代数(后续课)
QR 算法求特征值
实际工程中不直接解特征多项式(数值不稳定),而是用 QR 迭代得到所有特征值。幂法和反幂法可用于求极值特征值。
→ 马尔可夫链(概率论)
稳态分布 = 特征值 1 的特征向量
转移概率矩阵的主特征值恒为 1,对应的特征向量就是稳态分布。Perron-Frobenius 定理保证了非负矩阵存在正特征向量。
→ PCA(机器学习)
主成分 = 协方差矩阵的特征向量
PCA 的本质是对协方差矩阵(实对称半正定)做正交对角化,取最大特征值对应的特征向量作为第一主成分方向。

复习速查

概念定义 / 公式关键点
特征值/特征向量$A\mathbf{x} = \lambda\mathbf{x},\ \mathbf{x} \neq \mathbf{0}$特征向量方向不变,仅缩放 $\lambda$
特征多项式$\det(A - \lambda I) = 0$$n$ 次方程,有 $n$ 个根(含重根和复根)
迹与特征值$\sum \lambda_i = \operatorname{tr}(A)$对角线元素之和
行列式与特征值$\prod \lambda_i = \det(A)$所有特征值的乘积
可对角化充要条件几何重数 = 代数重数(对所有特征值)等价于 $n$ 个线性无关的特征向量
相似矩阵$B = P^{-1}AP$相同特征值、特征多项式、迹、行列式
实对称矩阵$A^T = A$特征值为实数;不同特征值特征向量正交;可用正交矩阵对角化
正交对角化$Q^T A Q = \Lambda$$Q^T = Q^{-1}$$Q$ 的列是标准正交的特征向量
二次型$f = \mathbf{x}^T A \mathbf{x}$$A$ 为实对称矩阵
标准形$f = \lambda_1 y_1^2 + \cdots + \lambda_n y_n^2$系数是 $A$ 的特征值
正定矩阵所有特征值 $> 0$$\mathbf{x}^T A \mathbf{x} > 0$ 对所有 $\mathbf{x} \neq \mathbf{0}$

参考来源