本节主命题:若 $V$ 有一组由 $T$ 的特征向量组成的基,$T$ 在该基下就是对角矩阵——这种算子叫"可对角化"。整个 Ch5 从 5A 的"存在一个特征向量"推进到 5D 的"特征向量能撑起整个空间"。
| 符号 | 念作 | 含义 | 类型 |
|---|---|---|---|
| $V$ | V | 有限维向量空间($\mathbf{R}$ 或 $\mathbf{C}$ 上) | 空间 |
| $\mathbf{F}$ | F | 底域,$\mathbf{R}$ 或 $\mathbf{C}$ | 数系 |
| $T \in \mathcal{L}(V)$ | T 属于 L of V | $V$ 上线性算子 $V \to V$ | 算子 |
| $\lambda, v$ | lambda, v | 特征值与特征向量:$Tv = \lambda v$,$v \neq 0$ | 数 + 向量 |
| $E(\lambda, T)$ | 特征空间 | $\{v \in V : Tv = \lambda v\} = \operatorname{null}(T - \lambda I)$ | $V$ 的子空间 |
| $\beta = (v_1, \ldots, v_n)$ | 基 | $V$ 的一组有序基($n = \dim V$) | 向量组 |
| $M(T, \beta)$ | T 在 β 下的矩阵 | $T$ 用基 $\beta$ 表示得到的 $n \times n$ 矩阵 | 矩阵 |
| $\operatorname{diag}(\lambda_1, \ldots, \lambda_n)$ | 对角矩阵 | 对角线为 $\lambda_i$、其他为 0 的 $n \times n$ 矩阵 | 特殊矩阵 |
| 可对角化 | diagonalizable | 存在基 $\beta$ 使 $M(T, \beta)$ 是对角矩阵(5.49) | 算子性质 |
| 特征基 | eigenbasis | $V$ 的一组基,每个向量都是 $T$ 的特征向量 | 基的一种 |
| $P$ | 基变换矩阵 | 把 $T$ 变成对角形式的可逆矩阵,列是 $T$ 的特征向量 | 可逆矩阵 |
| $P^{-1} T P = D$ | 相似对角化 | $T$ 和 $D$ 相似($D$ 对角) | 矩阵方程 |
| 几何重数 | geometric multiplicity | $\dim E(\lambda, T)$:$\lambda$ 的特征空间的维数 | 整数 $\geq 1$ |
| 代数重数 | algebraic multiplicity | $\lambda$ 作为特征多项式的根的重数 | 整数 $\geq 1$ |
| $\oplus$ | 直和 | $V = U_1 \oplus \cdots \oplus U_m$:$V$ 能唯一写成各 $U_i$ 向量之和 | 子空间关系 |
Axler 的定义简洁:
在这组基下,$T$ 的矩阵表示是对角的。理由:若 $\beta = (v_1, \ldots, v_n)$ 满足 $Tv_i = \lambda_i v_i$,那么第 $i$ 列就是 $Tv_i = \lambda_i v_i$ 在基 $\beta$ 下的坐标——即 $\lambda_i$ 在第 $i$ 位置、其余为 0。所以:
几何图像:可对角化的算子就是"沿 $n$ 个独立方向 $v_1, \ldots, v_n$ 分别拉伸 $\lambda_1, \ldots, \lambda_n$ 倍"的操作。换到特征基去看,它退化成 $n$ 个彼此无关的一维问题。
够用,但对角矩阵算起来便宜到离谱。所有关于 $T$ 的问题在对角形式下都退化成"逐分量独立计算":
本质上,对角化把一个"$n$ 维耦合动力系统"拆成 $n$ 个独立的一维系统,每个系统由它自己的特征值 $\lambda_i$ 控制。斐波那契闭式、马尔可夫链长期分布、PCA 主成分——全都靠这一招。
假设找到了特征基 $\beta = (v_1, \ldots, v_n)$。把这 $n$ 个特征向量按列放进矩阵:
$P$ 的作用:把"特征基下的坐标"翻译成"标准基下的坐标"。反过来 $P^{-1}$ 做反向翻译。于是同一个算子 $T$ 在不同坐标系下的两种矩阵表示满足:
这种 $P^{-1} T P$ 的运算叫"相似变换"(similarity transformation),$T$ 和 $D$ 称为"相似矩阵"(similar matrices)。
三步读懂 $P^{-1} T P$:
净效果:在特征坐标系里看 $T$,它只不过是沿各个坐标轴独立拉伸——那就是 $D$。
拖滑杆改 $T = \begin{pmatrix}a&b\\c&d\end{pmatrix}$,画布里:
试预设:"对角拉伸"(diag(2, 0.5)) 有两条正交黄线——完全可对角化;"对称拉伸" 也有两条正交黄线;"上剪切"(shear) 只有一条黄线——不可对角化,Q8 详解。
Axler 5.55 把所有等价刻画打包成一个定理。设 $\lambda_1, \ldots, \lambda_m$ 为 $T$ 的全部不同特征值,$n = \dim V$。以下五个条件等价:
直觉对照:
(4) 在实战最常用:对每个特征值算 $\dim E(\lambda_i, T) = n - \operatorname{rank}(T - \lambda_i I)$,加起来看是否等于 $n$。
直接保证可对角化。这是 Axler 5.58,可对角化的充分条件(但不必要):
证明:取每个特征值 $\lambda_i$ 对应的非零特征向量 $v_i$。由 Axler 5A 的定理 5.11(不同特征值对应的特征向量线性无关),$v_1, \ldots, v_n$ 线性无关。$n$ 个线性无关的向量在 $n$ 维空间里构成基。所以 $V$ 有特征向量基,$T$ 可对角化。∎
"不必要" 的意思:$T$ 的特征值不必全都不同也能可对角化。比如 $T = 2I$ 只有一个特征值 $\lambda = 2$(重复 $n$ 次),但整个 $V$ 都是 $E(2, T)$,$T$ 已经是对角矩阵 $\operatorname{diag}(2, \ldots, 2)$。
关键不是"特征值有几个不同",而是"特征向量能不能撑起 $V$"——下一问探讨重复特征值的情形。
看每个特征值的特征空间够不够大。对每个不同特征值 $\lambda_i$ 算 $\dim E(\lambda_i, T)$,这个数叫 $\lambda_i$ 的几何重数(geometric multiplicity)。
可对角化 $\iff$ 所有几何重数加起来等于 $n$。少一点都不行。
两种截然不同的情形(都有"重复特征值"):
下一问把剪切当病人解剖。
具体解剖:
$1 = $ 几何重数 $<$ 代数重数 $= 2$。由 Q5 的条件 (4) 失败(两者加起来要 $= n = 2$ 才行,但实际只加到 1),不可对角化。
假设存在可逆 $P$ 使 $P^{-1} T P = D$ 对角。$T$ 唯一特征值是 1,所以 $D = \operatorname{diag}(1, 1) = I$。于是 $T = P I P^{-1} = I$——与 $T \neq I$ 矛盾。∎
$m_T(\lambda) = (\lambda - 1)^2$(验算 $(T - I)^2 = 0$ 但 $T - I \neq 0$)。按 Q5 的条件 (5),最小多项式必须分裂成互不相同一次因子,但 $(\lambda - 1)^2$ 有重根,不满足。故不可对角化。
把上面 2D 画布按"上剪切"预设。看到只有一条黄色虚线($x$ 轴)。除了沿 $x$ 轴的向量被 $T$ 原封不动($Tv = v$)外,所有其他向量被"剪"成斜着走——没有第二条独立的不变方向。
剪切是最小的 Jordan 块 实例。一般的 $n \times n$ Jordan 块:
对特征值 $\lambda$:
可对角化的清晰判据:
"特征多项式在 $\mathbf{F}$ 上分裂"是先决条件——在 $\mathbf{R}$ 上不一定满足(比如旋转矩阵);在 $\mathbf{C}$ 上永远满足(代数基本定理)。所以 5D 在复数域下条件少一条。
例子速查:
3×3 矩阵可对角化 $\iff$ 能在 $\mathbf{R}^3$ 里找 3 个独立的特征方向(可能不正交)。在这组特征基下看 $T$,它变成沿 3 个方向独立拉伸——立方体变形成平行六面体,每个边沿自己的特征方向被拉伸/缩小 $\lambda_i$ 倍。
下面场景里:黄色双向箭头是实特征方向(可对角化的"坐标轴"),灰色线框是单位立方体,半透明的彩色立体是被 $T$ 变形后的结果。Space 暂停,R 复位相机。
实对称矩阵 $T^\top = T$(或 Hermitian 算子 $T^* = T$)可以超额完成 5D 的任务——不仅可对角化,而且特征基可选成正交的,特征值全是实数。这是第 7 章的核心定理:
这条定理是数据科学的代数底座。协方差矩阵 $\Sigma = \mathbb{E}[(x - \mu)(x - \mu)^\top]$ 天然对称,所以必定可对角化、特征值非负、特征向量可选正交。这就是 PCA 里"主成分两两正交、方差非负"能成立的根本。
视觉检验:在上面 2D 画布按"对称"预设——两条黄线严格垂直(正交特征向量)。再按"剪切"——只剩一条黄线(病态)。
最具说服力的应用:线性递推的闭式公式。斐波那契数列 $F_0=0, F_1=1, F_{n+1} = F_n + F_{n-1}$ 写成矩阵形式:
对 $T$ 做对角化:
于是 $T^n = P D^n P^{-1}$。展开算第二分量(也就是 $F_n$):
常数时间算 $F_{10^6}$!没有对角化只能递推 $10^6$ 次。这个套路延伸到所有 k 阶线性递推、马尔可夫链 $P^n$、线性 ODE $e^{tA}$、PageRank 稳态分布——现代科学计算的"开挂"工具。
两个最典型的场景——前者是最出名的特征向量应用,后者对投资者最直接。
信用评级迁移矩阵 $P$(例):一年内评级从 AAA 变到 AA 的概率是 7%,AAA 到 A 是 1%,……列每一列相加为 1(随机矩阵)。
问:今天评级 A 的债券,10 年后违约(D)概率多少?
答:10 年后分布 $= P^{10} \mathbf{e}_A$。直接算要 10 次矩阵乘。对角化后 $P = Q \Lambda Q^{-1}$,$P^{10} = Q \Lambda^{10} Q^{-1}$——只做一次分解,剩下全是标量幂。银行风控部门每天跑这件事算长期违约率。
PageRank 是数学上一模一样的问题:网页之间的"随机游走"转移矩阵 $M$,稳态分布 $x$ 满足 $Mx = x$(即 $\lambda = 1$ 特征向量)。Google 第一版就是"算一个特征向量"。
数据矩阵 $X$(每行一个样本、每列一个特征),协方差 $\Sigma = \frac{1}{n} X^\top X$(减去均值后)。$\Sigma$ 天然对称,所以谱定理保证:
具体例子:利率期限结构。美债 2Y/5Y/10Y/30Y 收益率日变化的协方差矩阵特征分解得到 3 个主方向:
整条收益率曲线的波动其实只有 3 个真实维度。做 steepener trade 押注第 2 特征方向;butterfly 押注第 3;久期对冲挡掉第 1。
5D 的对角化定理是这一切能成立的根本——没有它,PCA/Kalman/Fisher 判别/SVD 都搭不起来。
两条路:
Ch 7 结束后你就能看懂:PCA/SVD/Fisher 判别/主轴定理/傅里叶变换统统都是同一个故事的不同面——"对称算子在正交特征基下退化为对角矩阵"。
每题先独立想 3 分钟再看答案。难度:★ 概念/简单计算 · ★★ 证明 · ★★★ 综合/开放。
(a) $\operatorname{diag}(3, 1, 1)$ (b) 90° 旋转 $\begin{pmatrix}0 & -1 \\ 1 & 0\end{pmatrix}$ (c) $\begin{pmatrix}2 & 1 \\ 0 & 2\end{pmatrix}$ (d) 任意实对称矩阵 (e) 投影($P^2 = P$)
用 Q5 的 5 个等价条件或者 Q9 的重数判据。(b) 看特征多项式有没有实根;(c) 比较几何和代数重数。
(a) ✅ 已是对角。$\lambda=3$ 几何=代数=1,$\lambda=1$ 几何=代数=2。
(b) ❌ 在 $\mathbf{R}$ 上 —— 特征多项式 $\lambda^2 + 1$ 没实根。✅ 在 $\mathbf{C}$ 上——对角化为 $\operatorname{diag}(i, -i)$。
(c) ❌ 唯一特征值 $\lambda = 2$(代数重数 2)。$T - 2I = \begin{pmatrix}0&1\\0&0\end{pmatrix}$ 零空间 1 维 → 几何重数 1 $\neq$ 2。不可对角化。
(d) ✅ 谱定理保证实对称总可对角化,且正交。
(e) ✅ 投影的特征值只能是 0 或 1($P^2 = P \Rightarrow \lambda^2 = \lambda$),且 $V = \operatorname{null} P \oplus \operatorname{range} P = E_0 \oplus E_1$,满足 Q5 条件 (3)。
找出 $P$ 和 $D$ 使 $P^{-1} T P = D$,然后给出 $T^{10}$ 的表达式。
求特征多项式 → 特征值 → 特征向量 → 拼成 $P$。$T^{10} = P D^{10} P^{-1}$,$D^{10}$ 逐位算。
$p(\lambda) = (4-\lambda)(1-\lambda) - (-2)(1) = \lambda^2 - 5\lambda + 6 = (\lambda-2)(\lambda-3)$。$\lambda_1 = 2, \lambda_2 = 3$。
$\lambda = 2$:$(T - 2I)v = \begin{pmatrix}2 & -2 \\ 1 & -1\end{pmatrix}v = 0 \Rightarrow v_1 = (1, 1)$。
$\lambda = 3$:$(T - 3I)v = \begin{pmatrix}1 & -2 \\ 1 & -2\end{pmatrix}v = 0 \Rightarrow v_2 = (2, 1)$。
$P = \begin{pmatrix}1 & 2 \\ 1 & 1\end{pmatrix}$,$D = \operatorname{diag}(2, 3)$。$P^{-1} = \begin{pmatrix}-1 & 2 \\ 1 & -1\end{pmatrix}$(用 $\det = -1$)。
$T^{10} = P \operatorname{diag}(1024, 59049) P^{-1}$,展开得 $T^{10} = \begin{pmatrix}117074 & -116050 \\ 58025 & -57001\end{pmatrix}$(数算繁但结构清晰)。
证明 $T = \begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$ 的最小多项式 $m_T(\lambda) = (\lambda - 1)^2$,并由此推出 $T$ 不可对角化。
验证 $(T - I)$ 不是 0 但 $(T - I)^2 = 0$。然后用 Q5 条件 (5)。
$T - I = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix} \neq 0$,所以 $\lambda - 1$ 不是零化多项式。
$(T - I)^2 = \begin{pmatrix}0 & 0 \\ 0 & 0\end{pmatrix} = 0$,所以 $(\lambda - 1)^2$ 是零化多项式。
最小多项式是最小次数的首一零化多项式,所以 $m_T(\lambda) = (\lambda - 1)^2$。
$m_T$ 有重根 $\lambda = 1$(重 2 次),不满足 Q5 条件 (5)("互不相同一次因子")。故 $T$ 不可对角化。∎
设 $\dim V = n$,$T$ 的不同特征值为 $\lambda_1, \ldots, \lambda_n$。证明 $T$ 可对角化。
取每个 $\lambda_i$ 的非零特征向量 $v_i$。证 $v_1, \ldots, v_n$ 线性无关。
取 $v_i \neq 0$ 满足 $Tv_i = \lambda_i v_i$($i = 1, \ldots, n$)。
证线性无关(用反证 + 最短相关关系法):假设不然,存在非平凡线性关系 $a_1 v_1 + \cdots + a_k v_k = 0$(所有 $a_i \neq 0$、$k$ 最小,$k \leq n$)。两边作用 $(T - \lambda_k I)$:
$a_1(\lambda_1 - \lambda_k) v_1 + \cdots + a_{k-1}(\lambda_{k-1} - \lambda_k) v_{k-1} + 0 = 0$
$v_k$ 项消失。系数 $a_i(\lambda_i - \lambda_k)$ 对 $i < k$ 都非零($a_i \neq 0$ 且 $\lambda_i \neq \lambda_k$),得到更短(长度 $k - 1$)的非平凡关系。与 $k$ 最小矛盾。∎
于是 $v_1, \ldots, v_n$ 在 $n$ 维空间 $V$ 中线性无关,必为基。$T$ 有特征基,可对角化。
用对角化推出 $F_n = \frac{\varphi^n - \psi^n}{\sqrt 5}$,其中 $\varphi = \frac{1 + \sqrt 5}{2}$、$\psi = \frac{1 - \sqrt 5}{2}$。
Fibonacci 矩阵 $T = \begin{pmatrix}1 & 1 \\ 1 & 0\end{pmatrix}$。对角化后 $T^n = P D^n P^{-1}$。取初值 $\begin{pmatrix}F_1 \\ F_0\end{pmatrix} = \begin{pmatrix}1 \\ 0\end{pmatrix}$。
特征多项式 $\det(T - \lambda I) = -\lambda(1 - \lambda) - 1 = \lambda^2 - \lambda - 1 = 0$,根 $\varphi, \psi$ 如上($\varphi \psi = -1$,$\varphi + \psi = 1$,$\varphi - \psi = \sqrt 5$)。
特征向量:$(T - \lambda I)v = 0$ 给出 $v_\lambda = (\lambda, 1)$。
$P = \begin{pmatrix}\varphi & \psi \\ 1 & 1\end{pmatrix}$,$\det P = \varphi - \psi = \sqrt 5$,$P^{-1} = \frac{1}{\sqrt 5}\begin{pmatrix}1 & -\psi \\ -1 & \varphi\end{pmatrix}$
$\begin{pmatrix}F_{n+1} \\ F_n\end{pmatrix} = T^n \begin{pmatrix}1 \\ 0\end{pmatrix} = P \operatorname{diag}(\varphi^n, \psi^n) P^{-1} \begin{pmatrix}1 \\ 0\end{pmatrix} = P \operatorname{diag}(\varphi^n, \psi^n) \cdot \frac{1}{\sqrt 5}\begin{pmatrix}1 \\ -1\end{pmatrix} = \frac{1}{\sqrt 5} P \begin{pmatrix}\varphi^n \\ -\psi^n\end{pmatrix}$
取第二行:$F_n = \frac{1}{\sqrt 5}(\varphi^n - \psi^n)$。∎
设 $T = \begin{pmatrix}a & b \\ b & d\end{pmatrix}$ 是实对称 2×2 矩阵。证 $T$ 可对角化,且若两个特征值不同,对应特征向量必正交。
算判别式 $\Delta$,说明它总是 $\geq 0$。然后对两个特征向量用 $\langle Tv_1, v_2 \rangle$ 的对称性。
第一步:特征值为实数。$p(\lambda) = \lambda^2 - (a+d)\lambda + (ad - b^2)$,判别式 $\Delta = (a+d)^2 - 4(ad - b^2) = (a - d)^2 + 4b^2 \geq 0$。所以特征值 $\lambda_{1,2} = \frac{(a+d) \pm \sqrt\Delta}{2}$ 都是实数。
第二步:可对角化。
情形 (i):$\Delta > 0$,两个不同实特征值 → 由 E4 可对角化。
情形 (ii):$\Delta = 0 \iff (a-d)^2 + 4b^2 = 0 \iff a = d, b = 0 \iff T = aI$。这时 $T$ 本来就是对角的。
第三步:不同特征值的特征向量正交。设 $Tv_1 = \lambda_1 v_1, Tv_2 = \lambda_2 v_2$,$\lambda_1 \neq \lambda_2$。用 $T^\top = T$:
$\lambda_1 \langle v_1, v_2\rangle = \langle Tv_1, v_2\rangle = \langle v_1, T^\top v_2\rangle = \langle v_1, Tv_2\rangle = \lambda_2 \langle v_1, v_2\rangle$
移项 $(\lambda_1 - \lambda_2)\langle v_1, v_2\rangle = 0$。因 $\lambda_1 \neq \lambda_2$,有 $\langle v_1, v_2\rangle = 0$。∎
设 $T \in \mathcal{L}(V)$ 满足 $T^2 = I$(反射、对合)。证明 $T$ 可对角化,特征值 $\in \{-1, +1\}$,且 $V = E(1, T) \oplus E(-1, T)$(假设 $\operatorname{char} \mathbf{F} \neq 2$)。
先证特征值只能是 $\pm 1$(从 $T^2 = I$ 推)。然后写 $v = \frac{1}{2}(v + Tv) + \frac{1}{2}(v - Tv)$。
特征值:若 $Tv = \lambda v$($v \neq 0$),再作用 $T$:$v = T^2 v = \lambda^2 v \Rightarrow \lambda^2 = 1 \Rightarrow \lambda \in \{-1, 1\}$。
分解:对任意 $v \in V$,令 $v_+ = \frac{1}{2}(v + Tv)$、$v_- = \frac{1}{2}(v - Tv)$。
$Tv_+ = \frac{1}{2}(Tv + T^2 v) = \frac{1}{2}(Tv + v) = v_+$,所以 $v_+ \in E(1, T)$。
$Tv_- = \frac{1}{2}(Tv - T^2 v) = \frac{1}{2}(Tv - v) = -v_-$,所以 $v_- \in E(-1, T)$。
$v_+ + v_- = v$ 显然。所以 $V = E(1) + E(-1)$。
直和:若 $v \in E(1) \cap E(-1)$,则 $v = Tv = -v \Rightarrow 2v = 0 \Rightarrow v = 0$(用 $\operatorname{char} \mathbf{F} \neq 2$)。故 $V = E(1) \oplus E(-1)$。
由 Q5 条件 (3) 得可对角化:取 $E(1)$ 的一组基与 $E(-1)$ 的一组基,拼起来是 $V$ 的特征基。$T$ 在此基下为 $\operatorname{diag}(1, \ldots, 1, -1, \ldots, -1)$。∎
典型例子:反射;奇偶函数分解 $f(x) \mapsto f(-x)$ 把函数空间拆成偶函数 $E(1)$ + 奇函数 $E(-1)$。
设 $S, T \in \mathcal{L}(V)$ 都可对角化,且 $ST = TS$。证明:存在 $V$ 的一组基 $\beta$ 同时是 $S$ 和 $T$ 的特征基。
关键引理:$ST = TS$ 使得 $S$ 把 $T$ 的每个特征空间映入自身。然后在每个 $E(\mu_i, T)$ 上再对 $S$ 对角化。
引理(S 保持 T 的特征空间):若 $v \in E(\mu, T)$,即 $Tv = \mu v$,则 $T(Sv) = S(Tv) = S(\mu v) = \mu(Sv)$,所以 $Sv \in E(\mu, T)$。
主证明:$T$ 可对角化 $\Rightarrow V = E(\mu_1, T) \oplus \cdots \oplus E(\mu_m, T)$(Q5 条件 (3))。
对每个 $E(\mu_j, T)$,$S$ 限制到上面是一个算子 $S|_{E(\mu_j, T)}$。由引理它是 $E(\mu_j, T)$ 上的算子(不是映到别的地方)。
$S$ 在 $V$ 上可对角化 $\Rightarrow$ 它在每个 $T$-不变子空间上的限制也可对角化(Axler Ex 5D-3,一个独立小结论)。所以 $S|_{E(\mu_j, T)}$ 有特征向量基 $\beta_j$。
拼起来:$\beta = \beta_1 \cup \cdots \cup \beta_m$ 是 $V$ 的基。每个向量在 $E(\mu_j, T)$ 里是 $T$ 的特征向量(特征值 $\mu_j$);同时是 $S$ 限制后的特征向量(某个 $S$ 的特征值)——也就是 $S$ 的特征向量。$\beta$ 同时对角化 $S$ 和 $T$。∎
物理意义:量子力学里"可同时精确测量的两个观测量"对应于可交换的 Hermitian 算子(有共同本征态)。能量 + 角动量 $L_z$ 可交换 → 共同本征态 $|n, \ell, m\rangle$。位置和动量 不可 交换($[\hat x, \hat p] = i\hbar$)→ 不能同时精确测,这就是海森堡不确定性原理的代数根。