Axler 5D · Diagonalizable Operators

符号	念作	含义	类型
$V$	V	有限维向量空间（$\mathbf{R}$ 或 $\mathbf{C}$ 上）	空间
$\mathbf{F}$	F	底域，$\mathbf{R}$ 或 $\mathbf{C}$	数系
$T \in \mathcal{L}(V)$	T 属于 L of V	$V$ 上线性算子 $V \to V$	算子
$\lambda, v$	lambda, v	特征值与特征向量：$Tv = \lambda v$，$v \neq 0$	数 + 向量
$E(\lambda, T)$	特征空间	$\{v \in V : Tv = \lambda v\} = \operatorname{null}(T - \lambda I)$	$V$ 的子空间
$\beta = (v_1, \ldots, v_n)$	基	$V$ 的一组有序基（$n = \dim V$）	向量组
$M(T, \beta)$	T 在 β 下的矩阵	$T$ 用基 $\beta$ 表示得到的 $n \times n$ 矩阵	矩阵
$\operatorname{diag}(\lambda_1, \ldots, \lambda_n)$	对角矩阵	对角线为 $\lambda_i$、其他为 0 的 $n \times n$ 矩阵	特殊矩阵
可对角化	diagonalizable	存在基 $\beta$ 使 $M(T, \beta)$ 是对角矩阵（5.49）	算子性质
特征基	eigenbasis	$V$ 的一组基，每个向量都是 $T$ 的特征向量	基的一种
$P$	基变换矩阵	把 $T$ 变成对角形式的可逆矩阵，列是 $T$ 的特征向量	可逆矩阵
$P^{-1} T P = D$	相似对角化	$T$ 和 $D$ 相似（$D$ 对角）	矩阵方程
几何重数	geometric multiplicity	$\dim E(\lambda, T)$：$\lambda$ 的特征空间的维数	整数 $\geq 1$
代数重数	algebraic multiplicity	$\lambda$ 作为特征多项式的根的重数	整数 $\geq 1$
$\oplus$	直和	$V = U_1 \oplus \cdots \oplus U_m$：$V$ 能唯一写成各 $U_i$ 向量之和	子空间关系

什么叫"可对角化"？

Axler 的定义简洁：

5.49 定义. $T \in \mathcal{L}(V)$ 称为 可对角化（diagonalizable），当且仅当 $V$ 存在一组由 $T$ 的特征向量构成的基。这样的基称为 $T$ 的 特征基（eigenbasis）。

在这组基下，$T$ 的矩阵表示是对角的。理由：若 $\beta = (v_1, \ldots, v_n)$ 满足 $Tv_i = \lambda_i v_i$，那么第 $i$ 列就是 $Tv_i = \lambda_i v_i$ 在基 $\beta$ 下的坐标——即 $\lambda_i$ 在第 $i$ 位置、其余为 0。所以：

$M(T, \beta) \;=\; \begin{pmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{pmatrix} \;=\; \operatorname{diag}(\lambda_1, \ldots, \lambda_n)$

几何图像：可对角化的算子就是"沿 $n$ 个独立方向 $v_1, \ldots, v_n$ 分别拉伸 $\lambda_1, \ldots, \lambda_n$ 倍"的操作。换到特征基去看，它退化成 $n$ 个彼此无关的一维问题。

为什么要对角化？原始矩阵不够用吗？

够用，但对角矩阵算起来便宜到离谱。所有关于 $T$ 的问题在对角形式下都退化成"逐分量独立计算"：

幂次：$T^k$ 对应 $\operatorname{diag}(\lambda_1^k, \ldots, \lambda_n^k)$。想算 $T^{100}$？$n$ 个一维幂，常数时间
指数：$e^T$ 对应 $\operatorname{diag}(e^{\lambda_1}, \ldots, e^{\lambda_n})$。解常系数线性 ODE $\dot x = Ax$ 的闭式就是这个
求逆：$T^{-1}$ 对应 $\operatorname{diag}(\lambda_1^{-1}, \ldots, \lambda_n^{-1})$（须所有 $\lambda_i \neq 0$，等价于 $T$ 可逆）
多项式：$p(T)$ 对应 $\operatorname{diag}(p(\lambda_1), \ldots, p(\lambda_n))$
行列式与迹：$\det T = \prod \lambda_i$，$\operatorname{tr} T = \sum \lambda_i$——扫一眼对角元就行

本质上，对角化把一个"$n$ 维耦合动力系统"拆成 $n$ 个独立的一维系统，每个系统由它自己的特征值 $\lambda_i$ 控制。斐波那契闭式、马尔可夫链长期分布、PCA 主成分——全都靠这一招。

"对角化" 怎么用矩阵语言表达？

假设找到了特征基 $\beta = (v_1, \ldots, v_n)$。把这 $n$ 个特征向量按列放进矩阵：

$P \;=\; \bigl[\, v_1 \;\big|\; v_2 \;\big|\; \cdots \;\big|\; v_n \,\bigr]$（$n \times n$ 可逆矩阵）

$P$ 的作用：把"特征基下的坐标"翻译成"标准基下的坐标"。反过来 $P^{-1}$ 做反向翻译。于是同一个算子 $T$ 在不同坐标系下的两种矩阵表示满足：

5.55 的一部分（矩阵化定理）. $T$ 可对角化 $\iff$ 存在可逆矩阵 $P$ 使得 $$ P^{-1} T P \;=\; D \;=\; \operatorname{diag}(\lambda_1, \ldots, \lambda_n). $$ 此时 $P$ 的第 $i$ 列是对应特征值 $\lambda_i$ 的特征向量。

这种 $P^{-1} T P$ 的运算叫"相似变换"（similarity transformation），$T$ 和 $D$ 称为"相似矩阵"（similar matrices）。

三步读懂 $P^{-1} T P$：

$P$：从特征坐标系跳回标准坐标系
$T$：在标准坐标系里做 $T$ 的事（一般是又转又拉）
$P^{-1}$：再跳回特征坐标系

净效果：在特征坐标系里看 $T$，它只不过是沿各个坐标轴独立拉伸——那就是 $D$。

亲眼看看可对角化（2D 交互）

拖滑杆改 $T = \begin{pmatrix}a&b\\c&d\end{pmatrix}$，画布里：

蓝色箭头 = 单位圆上每个 $v$ 被 $T$ 作用后的位移 $v \to Tv$
黄色虚线 = $T$ 的实特征方向（特征向量所在直线）
变形网格 = 整个坐标网格被 $T$ 扭动后的样子
右侧读数 = 实时算出的特征值、特征向量、对角化分解 $P^{-1}TP = D$

试预设："对角拉伸"(diag(2, 0.5)) 有两条正交黄线——完全可对角化；"对称拉伸" 也有两条正交黄线；"上剪切"(shear) 只有一条黄线——不可对角化，Q8 详解。

迭代轨迹（点击画布添加起点）变形网格

$Tv$ 位移实特征方向轨迹 $T^k v$

矩阵 $T = \begin{pmatrix}a & b\\c & d\end{pmatrix}$

a2.00

b0.00

c0.00

d0.50

特征分析

对角化：$P^{-1} T P = D$

判断"$T$ 可对角化"有哪些等价说法？

Axler 5.55 把所有等价刻画打包成一个定理。设 $\lambda_1, \ldots, \lambda_m$ 为 $T$ 的全部不同特征值，$n = \dim V$。以下五个条件等价：

5.55 可对角化的等价条件.

(1) $T$ 可对角化
(2) $V$ 有一组由 $T$ 的特征向量组成的基
(3) $V = E(\lambda_1, T) \oplus E(\lambda_2, T) \oplus \cdots \oplus E(\lambda_m, T)$（直和分解）
(4) $\dim V \;=\; \dim E(\lambda_1, T) + \cdots + \dim E(\lambda_m, T)$（维数加起来凑齐）
(5) 最小多项式 $m_T$ 可写成互不相同一次因子的积：$m_T(\lambda) = (\lambda - \lambda_1) \cdots (\lambda - \lambda_m)$

直觉对照：

(1)↔(2)：矩阵对角 ⇔ 基都是特征向量——这是定义的翻译
(2)↔(3)↔(4)：特征向量撑起 $V$ ⇔ $V$ 拆成各特征空间直和 ⇔ 各特征空间维数加起来等于 $n$（没有"丢失的维度"）
(5)：最小多项式没有重根。凡是有重根的情形（典型：剪切的 $(\lambda-1)^2$），就有"病态"——不可对角化

(4) 在实战最常用：对每个特征值算 $\dim E(\lambda_i, T) = n - \operatorname{rank}(T - \lambda_i I)$，加起来看是否等于 $n$。

若 $T$ 有 $n$ 个不同的特征值，会怎样？

直接保证可对角化。这是 Axler 5.58，可对角化的充分条件（但不必要）：

5.58 定理. 设 $\dim V = n$。如果 $T \in \mathcal{L}(V)$ 有 $n$ 个两两不同的特征值，则 $T$ 可对角化。

证明：取每个特征值 $\lambda_i$ 对应的非零特征向量 $v_i$。由 Axler 5A 的定理 5.11（不同特征值对应的特征向量线性无关），$v_1, \ldots, v_n$ 线性无关。$n$ 个线性无关的向量在 $n$ 维空间里构成基。所以 $V$ 有特征向量基，$T$ 可对角化。∎

"不必要" 的意思：$T$ 的特征值不必全都不同也能可对角化。比如 $T = 2I$ 只有一个特征值 $\lambda = 2$（重复 $n$ 次），但整个 $V$ 都是 $E(2, T)$，$T$ 已经是对角矩阵 $\operatorname{diag}(2, \ldots, 2)$。

关键不是"特征值有几个不同"，而是"特征向量能不能撑起 $V$"——下一问探讨重复特征值的情形。

如果特征值有重复，怎么判断能不能对角化？

看每个特征值的特征空间够不够大。对每个不同特征值 $\lambda_i$ 算 $\dim E(\lambda_i, T)$，这个数叫 $\lambda_i$ 的几何重数（geometric multiplicity）。

可对角化 $\iff$ 所有几何重数加起来等于 $n$。少一点都不行。

两种截然不同的情形（都有"重复特征值"）：

恒等算子 $I$：唯一特征值 $1$，重复 $n$ 次；但 $E(1, I) = V$，几何重数 $= n$。加起来正好 $n$。可对角化（本来就是对角的）
剪切 $\begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$：唯一特征值 $1$，重复 $2$ 次；但 $E(1, T) = \operatorname{null}\begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix} = \operatorname{span}(1, 0)$，几何重数只有 $1 < n = 2$。不可对角化

下一问把剪切当病人解剖。

剪切 $\begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$ 为什么不可对角化？（三种方法）

具体解剖：

特征多项式 $p(\lambda) = \det\begin{pmatrix}1-\lambda & 1\\ 0 & 1-\lambda\end{pmatrix} = (1-\lambda)^2$，唯一特征值 $\lambda = 1$ （代数重数 2）
$T - I = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$，$\operatorname{null}(T - I) = \operatorname{span}\{(1, 0)\}$，维数 $1$（几何重数 1）

方法 A：几何重数 < 代数重数

$1 = $ 几何重数 $<$ 代数重数 $= 2$。由 Q5 的条件 (4) 失败（两者加起来要 $= n = 2$ 才行，但实际只加到 1），不可对角化。

方法 B：反证——相似于对角矩阵必为 $I$

假设存在可逆 $P$ 使 $P^{-1} T P = D$ 对角。$T$ 唯一特征值是 1，所以 $D = \operatorname{diag}(1, 1) = I$。于是 $T = P I P^{-1} = I$——与 $T \neq I$ 矛盾。∎

方法 C：最小多项式有重根

$m_T(\lambda) = (\lambda - 1)^2$（验算 $(T - I)^2 = 0$ 但 $T - I \neq 0$）。按 Q5 的条件 (5)，最小多项式必须分裂成互不相同一次因子，但 $(\lambda - 1)^2$ 有重根，不满足。故不可对角化。

几何图像

把上面 2D 画布按"上剪切"预设。看到只有一条黄色虚线（$x$ 轴）。除了沿 $x$ 轴的向量被 $T$ 原封不动（$Tv = v$）外，所有其他向量被"剪"成斜着走——没有第二条独立的不变方向。

剪切是最小的 Jordan 块 实例。一般的 $n \times n$ Jordan 块：

$J_n(\lambda) = \begin{pmatrix} \lambda & 1 & & \\ & \lambda & \ddots & \\ & & \ddots & 1 \\ & & & \lambda \end{pmatrix}$（$n \geq 2$ 永远不可对角化）

"几何重数" vs "代数重数" 精确定义？

对特征值 $\lambda$：

几何重数 $= \dim E(\lambda, T) = \dim \operatorname{null}(T - \lambda I)$：特征空间维数
代数重数 $= $ $\lambda$ 作为特征多项式 $\det(\lambda I - T)$ 的根的重数。在复数域上也 $= \dim G(\lambda, T)$，其中 $G(\lambda, T) = \operatorname{null}(T - \lambda I)^{\dim V}$ 是 Axler 的"广义特征空间"（5C/Ch8）

关键不等式. $1 \leq \text{几何重数} \leq \text{代数重数}$（对每个特征值）。

可对角化的清晰判据：

$T$ 可对角化（在 $\mathbf{F}$ 上）$\iff$ 特征多项式在 $\mathbf{F}$ 上分裂为一次因子
且对每个特征值 $\lambda_i$：$\text{几何重数} \;=\; \text{代数重数}$

"特征多项式在 $\mathbf{F}$ 上分裂"是先决条件——在 $\mathbf{R}$ 上不一定满足（比如旋转矩阵）；在 $\mathbf{C}$ 上永远满足（代数基本定理）。所以 5D 在复数域下条件少一条。

例子速查：

$\operatorname{diag}(2, 2, 3)$：$\lambda=2$ 几何=代数=2，$\lambda=3$ 几何=代数=1 → ✅ 可对角化
$\begin{pmatrix}1&1\\0&1\end{pmatrix}$：$\lambda=1$ 几何=1，代数=2 → ❌ 不可对角化
$\begin{pmatrix}2&1&0\\0&2&0\\0&0&3\end{pmatrix}$：$\lambda=2$ 几何=1、代数=2；$\lambda=3$ 几何=代数=1 → ❌（第一个块病）
$\begin{pmatrix}0&-1\\1&0\end{pmatrix}$（90° 旋转）：在 $\mathbf{R}$ 上不可对角化（无实特征值），在 $\mathbf{C}$ 上可对角化（$\pm i$ 两个不同特征值）

3D 里"对角化"长什么样？（Three.js 交互）

3×3 矩阵可对角化 $\iff$ 能在 $\mathbf{R}^3$ 里找 3 个独立的特征方向（可能不正交）。在这组特征基下看 $T$，它变成沿 3 个方向独立拉伸——立方体变形成平行六面体，每个边沿自己的特征方向被拉伸/缩小 $\lambda_i$ 倍。

下面场景里：黄色双向箭头是实特征方向（可对角化的"坐标轴"），灰色线框是单位立方体，半透明的彩色立体是被 $T$ 变形后的结果。Space 暂停，R 复位相机。

实特征方向（不变直线）单位立方体被 $T$ 变形

矩阵 $T \in \mathbf{R}^{3 \times 3}$

特征分析

对称矩阵为什么"总是"可对角化？

实对称矩阵 $T^\top = T$（或 Hermitian 算子 $T^* = T$）可以超额完成 5D 的任务——不仅可对角化，而且特征基可选成正交的，特征值全是实数。这是第 7 章的核心定理：

谱定理（Ch 7 剧透）. 若 $V$ 是实内积空间、$T \in \mathcal{L}(V)$ 满足 $T^\top = T$，则 $V$ 存在一组正交的特征基，$T$ 在其下矩阵是 $\operatorname{diag}(\lambda_1, \ldots, \lambda_n)$ 且所有 $\lambda_i \in \mathbf{R}$。

这条定理是数据科学的代数底座。协方差矩阵 $\Sigma = \mathbb{E}[(x - \mu)(x - \mu)^\top]$ 天然对称，所以必定可对角化、特征值非负、特征向量可选正交。这就是 PCA 里"主成分两两正交、方差非负"能成立的根本。

视觉检验：在上面 2D 画布按"对称"预设——两条黄线严格垂直（正交特征向量）。再按"剪切"——只剩一条黄线（病态）。

对角化怎么算 $T^k$？（Fibonacci 闭式）

最具说服力的应用：线性递推的闭式公式。斐波那契数列 $F_0=0, F_1=1, F_{n+1} = F_n + F_{n-1}$ 写成矩阵形式：

$\begin{pmatrix}F_{n+1} \\ F_n\end{pmatrix} = \underbrace{\begin{pmatrix}1 & 1 \\ 1 & 0\end{pmatrix}}_{T} \begin{pmatrix}F_n \\ F_{n-1}\end{pmatrix} \;=\; T^n \begin{pmatrix}F_1 \\ F_0\end{pmatrix} = T^n \begin{pmatrix}1 \\ 0\end{pmatrix}$

对 $T$ 做对角化：

特征多项式 $\lambda^2 - \lambda - 1 = 0$，根 $\varphi = \frac{1+\sqrt 5}{2}$（黄金比）、$\psi = \frac{1 - \sqrt 5}{2} = -1/\varphi$
特征向量：$v_\varphi = (\varphi, 1)$、$v_\psi = (\psi, 1)$
$P = \begin{pmatrix}\varphi & \psi \\ 1 & 1\end{pmatrix}$，$D = \operatorname{diag}(\varphi, \psi)$，$T = P D P^{-1}$

于是 $T^n = P D^n P^{-1}$。展开算第二分量（也就是 $F_n$）：

Binet 公式：$\displaystyle F_n \;=\; \frac{\varphi^n - \psi^n}{\sqrt 5} \;=\; \frac{1}{\sqrt 5}\left[\left(\frac{1+\sqrt 5}{2}\right)^{\!n} - \left(\frac{1-\sqrt 5}{2}\right)^{\!n}\right]$

常数时间算 $F_{10^6}$！没有对角化只能递推 $10^6$ 次。这个套路延伸到所有 k 阶线性递推、马尔可夫链 $P^n$、线性 ODE $e^{tA}$、PageRank 稳态分布——现代科学计算的"开挂"工具。

5D 要记住哪些"底子定理"？

5.49 定义. $T$ 可对角化 $\iff$ $V$ 有 $T$ 的特征向量基。等价：$\exists$ 可逆 $P$ 使 $P^{-1} T P$ 对角

5.55 五等价. 可对角化 $\iff$ 有特征向量基 $\iff$ $V = \oplus_i E(\lambda_i, T)$ $\iff$ $\dim V = \sum_i \dim E(\lambda_i, T)$ $\iff$ 最小多项式分裂为互异一次因子

5.58 充分条件. $T$ 有 $\dim V$ 个不同特征值 $\Rightarrow$ $T$ 可对角化

重数判据. $T$ 可对角化 $\iff$ 特征多项式在 $\mathbf{F}$ 上分裂，且每个 $\lambda_i$ 的几何重数 = 代数重数

谱定理（Ch7 剧透）. 实对称（或复 Hermitian）算子总可对角化，且特征基可选正交、特征值全实

Axler 5D 习题（p.163-176）

Ex 5D-3：若 $T$ 可对角化、$U$ 是 $T$-不变子空间，证 $T|_U$ 也可对角化
Ex 5D-5：$T^2 = I \Rightarrow T$ 可对角化（见下面 E7）
Ex 5D-12：若 $S, T$ 都可对角化且可交换，则它们同时可对角化（通向 5E）

5D 在工程/金融/AI 里都用来干嘛？

两个最典型的场景——前者是最出名的特征向量应用，后者对投资者最直接。

应用 1 · 马尔可夫链的长期行为

信用评级迁移矩阵 $P$（例）：一年内评级从 AAA 变到 AA 的概率是 7%，AAA 到 A 是 1%，……列每一列相加为 1（随机矩阵）。

问：今天评级 A 的债券，10 年后违约（D）概率多少？

答：10 年后分布 $= P^{10} \mathbf{e}_A$。直接算要 10 次矩阵乘。对角化后 $P = Q \Lambda Q^{-1}$，$P^{10} = Q \Lambda^{10} Q^{-1}$——只做一次分解，剩下全是标量幂。银行风控部门每天跑这件事算长期违约率。

PageRank 是数学上一模一样的问题：网页之间的"随机游走"转移矩阵 $M$，稳态分布 $x$ 满足 $Mx = x$（即 $\lambda = 1$ 特征向量）。Google 第一版就是"算一个特征向量"。

应用 2 · PCA 的代数地基（降维、因子模型、eigenface）

数据矩阵 $X$（每行一个样本、每列一个特征），协方差 $\Sigma = \frac{1}{n} X^\top X$（减去均值后）。$\Sigma$ 天然对称，所以谱定理保证：

可对角化：$\Sigma = Q \Lambda Q^\top$（$Q$ 正交、$\Lambda$ 对角且 $\geq 0$）
特征向量 = 主成分方向，特征值 = 每个方向的方差
前 $k$ 大特征值对应的方向就是最佳 $k$-维降维

具体例子：利率期限结构。美债 2Y/5Y/10Y/30Y 收益率日变化的协方差矩阵特征分解得到 3 个主方向：

$\lambda_1 \approx 85\%$ 方差 → 特征向量 $\approx (1,1,1,1)$ 水平（整条曲线一起动）
$\lambda_2 \approx 10\%$ → $(-1,-0.5,0.5,1)$ 斜率（短端下长端上）
$\lambda_3 \approx 3\%$ → $(1,-1,-1,1)$ 曲率（中段凹凸）

整条收益率曲线的波动其实只有 3 个真实维度。做 steepener trade 押注第 2 特征方向；butterfly 押注第 3；久期对冲挡掉第 1。

5D 的对角化定理是这一切能成立的根本——没有它，PCA/Kalman/Fisher 判别/SVD 都搭不起来。

5D 搞懂了，下一步？

两条路：

5E 可交换算子：$ST = TS$ 条件下，两个可对角化算子能否同时对角化？（答：能，见 E8）。量子力学里"可同时测量的观测量"就对应于此。比较技术化，第一遍可以跳
Ch 7 谱定理 + SVD：把 5D 的"一般可对角化"加强到"正交特征基 + 实特征值"（谱定理），再推广到"任何矩阵都能近似对角化"（SVD）。推荐路径 Ch 6 → Ch 7，这是数据科学/机器学习的真·代数入口

Ch 7 结束后你就能看懂：PCA/SVD/Fisher 判别/主轴定理/傅里叶变换统统都是同一个故事的不同面——"对称算子在正交特征基下退化为对角矩阵"。

★ 轮到你了——自测 8 题

每题先独立想 3 分钟再看答案。难度：★ 概念/简单计算 · ★★ 证明 · ★★★ 综合/开放。

E1 ★判断：下列算子哪些在 $\mathbf{R}$ 上可对角化？

(a) $\operatorname{diag}(3, 1, 1)$ (b) 90° 旋转 $\begin{pmatrix}0 & -1 \\ 1 & 0\end{pmatrix}$ (c) $\begin{pmatrix}2 & 1 \\ 0 & 2\end{pmatrix}$ (d) 任意实对称矩阵 (e) 投影（$P^2 = P$）

提示

用 Q5 的 5 个等价条件或者 Q9 的重数判据。(b) 看特征多项式有没有实根；(c) 比较几何和代数重数。

答案

(a) ✅ 已是对角。$\lambda=3$ 几何=代数=1，$\lambda=1$ 几何=代数=2。

(b) ❌ 在 $\mathbf{R}$ 上 —— 特征多项式 $\lambda^2 + 1$ 没实根。✅ 在 $\mathbf{C}$ 上——对角化为 $\operatorname{diag}(i, -i)$。

(c) ❌ 唯一特征值 $\lambda = 2$（代数重数 2）。$T - 2I = \begin{pmatrix}0&1\\0&0\end{pmatrix}$ 零空间 1 维 → 几何重数 1 $\neq$ 2。不可对角化。

(d) ✅ 谱定理保证实对称总可对角化，且正交。

(e) ✅ 投影的特征值只能是 0 或 1（$P^2 = P \Rightarrow \lambda^2 = \lambda$），且 $V = \operatorname{null} P \oplus \operatorname{range} P = E_0 \oplus E_1$，满足 Q5 条件 (3)。

E2 ★对 $T = \begin{pmatrix}4 & -2 \\ 1 & 1\end{pmatrix}$ 做对角化，再用它算 $T^{10}$

找出 $P$ 和 $D$ 使 $P^{-1} T P = D$，然后给出 $T^{10}$ 的表达式。

提示

求特征多项式 → 特征值 → 特征向量 → 拼成 $P$。$T^{10} = P D^{10} P^{-1}$，$D^{10}$ 逐位算。

答案

$p(\lambda) = (4-\lambda)(1-\lambda) - (-2)(1) = \lambda^2 - 5\lambda + 6 = (\lambda-2)(\lambda-3)$。$\lambda_1 = 2, \lambda_2 = 3$。

$\lambda = 2$：$(T - 2I)v = \begin{pmatrix}2 & -2 \\ 1 & -1\end{pmatrix}v = 0 \Rightarrow v_1 = (1, 1)$。

$\lambda = 3$：$(T - 3I)v = \begin{pmatrix}1 & -2 \\ 1 & -2\end{pmatrix}v = 0 \Rightarrow v_2 = (2, 1)$。

$P = \begin{pmatrix}1 & 2 \\ 1 & 1\end{pmatrix}$，$D = \operatorname{diag}(2, 3)$。$P^{-1} = \begin{pmatrix}-1 & 2 \\ 1 & -1\end{pmatrix}$（用 $\det = -1$）。

$T^{10} = P \operatorname{diag}(1024, 59049) P^{-1}$，展开得 $T^{10} = \begin{pmatrix}117074 & -116050 \\ 58025 & -57001\end{pmatrix}$（数算繁但结构清晰）。

E3 ★★证明：剪切不可对角化（用最小多项式）

证明 $T = \begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$ 的最小多项式 $m_T(\lambda) = (\lambda - 1)^2$，并由此推出 $T$ 不可对角化。

提示

验证 $(T - I)$ 不是 0 但 $(T - I)^2 = 0$。然后用 Q5 条件 (5)。

答案

$T - I = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix} \neq 0$，所以 $\lambda - 1$ 不是零化多项式。

$(T - I)^2 = \begin{pmatrix}0 & 0 \\ 0 & 0\end{pmatrix} = 0$，所以 $(\lambda - 1)^2$ 是零化多项式。

最小多项式是最小次数的首一零化多项式，所以 $m_T(\lambda) = (\lambda - 1)^2$。

$m_T$ 有重根 $\lambda = 1$（重 2 次），不满足 Q5 条件 (5)（"互不相同一次因子"）。故 $T$ 不可对角化。∎

E4 ★★证明 5.58：$T$ 有 $n$ 个不同特征值 $\Rightarrow$ 可对角化

设 $\dim V = n$，$T$ 的不同特征值为 $\lambda_1, \ldots, \lambda_n$。证明 $T$ 可对角化。

提示

取每个 $\lambda_i$ 的非零特征向量 $v_i$。证 $v_1, \ldots, v_n$ 线性无关。

答案

取 $v_i \neq 0$ 满足 $Tv_i = \lambda_i v_i$（$i = 1, \ldots, n$）。

证线性无关（用反证 + 最短相关关系法）：假设不然，存在非平凡线性关系 $a_1 v_1 + \cdots + a_k v_k = 0$（所有 $a_i \neq 0$、$k$ 最小，$k \leq n$）。两边作用 $(T - \lambda_k I)$：

$a_1(\lambda_1 - \lambda_k) v_1 + \cdots + a_{k-1}(\lambda_{k-1} - \lambda_k) v_{k-1} + 0 = 0$

$v_k$ 项消失。系数 $a_i(\lambda_i - \lambda_k)$ 对 $i < k$ 都非零（$a_i \neq 0$ 且 $\lambda_i \neq \lambda_k$），得到更短（长度 $k - 1$）的非平凡关系。与 $k$ 最小矛盾。∎

于是 $v_1, \ldots, v_n$ 在 $n$ 维空间 $V$ 中线性无关，必为基。$T$ 有特征基，可对角化。

E5 ★★手推 Fibonacci 的 Binet 闭式

用对角化推出 $F_n = \frac{\varphi^n - \psi^n}{\sqrt 5}$，其中 $\varphi = \frac{1 + \sqrt 5}{2}$、$\psi = \frac{1 - \sqrt 5}{2}$。

提示

Fibonacci 矩阵 $T = \begin{pmatrix}1 & 1 \\ 1 & 0\end{pmatrix}$。对角化后 $T^n = P D^n P^{-1}$。取初值 $\begin{pmatrix}F_1 \\ F_0\end{pmatrix} = \begin{pmatrix}1 \\ 0\end{pmatrix}$。

答案

特征多项式 $\det(T - \lambda I) = -\lambda(1 - \lambda) - 1 = \lambda^2 - \lambda - 1 = 0$，根 $\varphi, \psi$ 如上（$\varphi \psi = -1$，$\varphi + \psi = 1$，$\varphi - \psi = \sqrt 5$）。

特征向量：$(T - \lambda I)v = 0$ 给出 $v_\lambda = (\lambda, 1)$。

$P = \begin{pmatrix}\varphi & \psi \\ 1 & 1\end{pmatrix}$，$\det P = \varphi - \psi = \sqrt 5$，$P^{-1} = \frac{1}{\sqrt 5}\begin{pmatrix}1 & -\psi \\ -1 & \varphi\end{pmatrix}$

$\begin{pmatrix}F_{n+1} \\ F_n\end{pmatrix} = T^n \begin{pmatrix}1 \\ 0\end{pmatrix} = P \operatorname{diag}(\varphi^n, \psi^n) P^{-1} \begin{pmatrix}1 \\ 0\end{pmatrix} = P \operatorname{diag}(\varphi^n, \psi^n) \cdot \frac{1}{\sqrt 5}\begin{pmatrix}1 \\ -1\end{pmatrix} = \frac{1}{\sqrt 5} P \begin{pmatrix}\varphi^n \\ -\psi^n\end{pmatrix}$

取第二行：$F_n = \frac{1}{\sqrt 5}(\varphi^n - \psi^n)$。∎

E6 ★★证明：实 2×2 对称矩阵总可对角化且特征向量正交

设 $T = \begin{pmatrix}a & b \\ b & d\end{pmatrix}$ 是实对称 2×2 矩阵。证 $T$ 可对角化，且若两个特征值不同，对应特征向量必正交。

提示

算判别式 $\Delta$，说明它总是 $\geq 0$。然后对两个特征向量用 $\langle Tv_1, v_2 \rangle$ 的对称性。

答案

第一步：特征值为实数。$p(\lambda) = \lambda^2 - (a+d)\lambda + (ad - b^2)$，判别式 $\Delta = (a+d)^2 - 4(ad - b^2) = (a - d)^2 + 4b^2 \geq 0$。所以特征值 $\lambda_{1,2} = \frac{(a+d) \pm \sqrt\Delta}{2}$ 都是实数。

第二步：可对角化。

情形 (i)：$\Delta > 0$，两个不同实特征值 → 由 E4 可对角化。

情形 (ii)：$\Delta = 0 \iff (a-d)^2 + 4b^2 = 0 \iff a = d, b = 0 \iff T = aI$。这时 $T$ 本来就是对角的。

第三步：不同特征值的特征向量正交。设 $Tv_1 = \lambda_1 v_1, Tv_2 = \lambda_2 v_2$，$\lambda_1 \neq \lambda_2$。用 $T^\top = T$：

$\lambda_1 \langle v_1, v_2\rangle = \langle Tv_1, v_2\rangle = \langle v_1, T^\top v_2\rangle = \langle v_1, Tv_2\rangle = \lambda_2 \langle v_1, v_2\rangle$

移项 $(\lambda_1 - \lambda_2)\langle v_1, v_2\rangle = 0$。因 $\lambda_1 \neq \lambda_2$，有 $\langle v_1, v_2\rangle = 0$。∎

E7 ★★证明：$T^2 = I \Rightarrow T$ 可对角化

设 $T \in \mathcal{L}(V)$ 满足 $T^2 = I$（反射、对合）。证明 $T$ 可对角化，特征值 $\in \{-1, +1\}$，且 $V = E(1, T) \oplus E(-1, T)$（假设 $\operatorname{char} \mathbf{F} \neq 2$）。

提示

先证特征值只能是 $\pm 1$（从 $T^2 = I$ 推）。然后写 $v = \frac{1}{2}(v + Tv) + \frac{1}{2}(v - Tv)$。

答案

特征值：若 $Tv = \lambda v$（$v \neq 0$），再作用 $T$：$v = T^2 v = \lambda^2 v \Rightarrow \lambda^2 = 1 \Rightarrow \lambda \in \{-1, 1\}$。

分解：对任意 $v \in V$，令 $v_+ = \frac{1}{2}(v + Tv)$、$v_- = \frac{1}{2}(v - Tv)$。

$Tv_+ = \frac{1}{2}(Tv + T^2 v) = \frac{1}{2}(Tv + v) = v_+$，所以 $v_+ \in E(1, T)$。

$Tv_- = \frac{1}{2}(Tv - T^2 v) = \frac{1}{2}(Tv - v) = -v_-$，所以 $v_- \in E(-1, T)$。

$v_+ + v_- = v$ 显然。所以 $V = E(1) + E(-1)$。

直和：若 $v \in E(1) \cap E(-1)$，则 $v = Tv = -v \Rightarrow 2v = 0 \Rightarrow v = 0$（用 $\operatorname{char} \mathbf{F} \neq 2$）。故 $V = E(1) \oplus E(-1)$。

由 Q5 条件 (3) 得可对角化：取 $E(1)$ 的一组基与 $E(-1)$ 的一组基，拼起来是 $V$ 的特征基。$T$ 在此基下为 $\operatorname{diag}(1, \ldots, 1, -1, \ldots, -1)$。∎

典型例子：反射；奇偶函数分解 $f(x) \mapsto f(-x)$ 把函数空间拆成偶函数 $E(1)$ + 奇函数 $E(-1)$。

E8 ★★★可交换的可对角化算子能同时对角化

设 $S, T \in \mathcal{L}(V)$ 都可对角化，且 $ST = TS$。证明：存在 $V$ 的一组基 $\beta$ 同时是 $S$ 和 $T$ 的特征基。

提示

关键引理：$ST = TS$ 使得 $S$ 把 $T$ 的每个特征空间映入自身。然后在每个 $E(\mu_i, T)$ 上再对 $S$ 对角化。

答案

引理（S 保持 T 的特征空间）：若 $v \in E(\mu, T)$，即 $Tv = \mu v$，则 $T(Sv) = S(Tv) = S(\mu v) = \mu(Sv)$，所以 $Sv \in E(\mu, T)$。

主证明：$T$ 可对角化 $\Rightarrow V = E(\mu_1, T) \oplus \cdots \oplus E(\mu_m, T)$（Q5 条件 (3)）。

对每个 $E(\mu_j, T)$，$S$ 限制到上面是一个算子 $S|_{E(\mu_j, T)}$。由引理它是 $E(\mu_j, T)$ 上的算子（不是映到别的地方）。

$S$ 在 $V$ 上可对角化 $\Rightarrow$ 它在每个 $T$-不变子空间上的限制也可对角化（Axler Ex 5D-3，一个独立小结论）。所以 $S|_{E(\mu_j, T)}$ 有特征向量基 $\beta_j$。

拼起来：$\beta = \beta_1 \cup \cdots \cup \beta_m$ 是 $V$ 的基。每个向量在 $E(\mu_j, T)$ 里是 $T$ 的特征向量（特征值 $\mu_j$）；同时是 $S$ 限制后的特征向量（某个 $S$ 的特征值）——也就是 $S$ 的特征向量。$\beta$ 同时对角化 $S$ 和 $T$。∎

物理意义：量子力学里"可同时精确测量的两个观测量"对应于可交换的 Hermitian 算子（有共同本征态）。能量 + 角动量 $L_z$ 可交换 → 共同本征态 $|n, \ell, m\rangle$。位置和动量不可交换（$[\hat x, \hat p] = i\hbar$）→ 不能同时精确测，这就是海森堡不确定性原理的代数根。

完成度自检：E1-E2 通 = 会操作可对角化；E3-E6 证明 = 理解判据；E7-E8 搞定 = 准备好去读 5E / Ch 7。手推一遍 E5 的 Fibonacci Binet 把"对角化 = 算矩阵幂的捷径"刻进肌肉记忆。

5D Diagonalizable Operators · Axler 4e · pp.163–176

0 · 符号对照

什么叫"可对角化"？

为什么要对角化？原始矩阵不够用吗？

"对角化" 怎么用矩阵语言表达？

亲眼看看可对角化（2D 交互）

矩阵 $T = \begin{pmatrix}a & b\\c & d\end{pmatrix}$

特征分析

对角化：$P^{-1} T P = D$

判断"$T$ 可对角化"有哪些等价说法？

若 $T$ 有 $n$ 个不同的特征值，会怎样？

如果特征值有重复，怎么判断能不能对角化？

剪切 $\begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$ 为什么不可对角化？（三种方法）

方法 A：几何重数 < 代数重数

方法 B：反证——相似于对角矩阵必为 $I$

方法 C：最小多项式有重根

几何图像

"几何重数" vs "代数重数" 精确定义？

3D 里"对角化"长什么样？（Three.js 交互）

矩阵 $T \in \mathbf{R}^{3 \times 3}$

特征分析

对称矩阵为什么"总是"可对角化？

对角化怎么算 $T^k$？（Fibonacci 闭式）

5D 要记住哪些"底子定理"？

Axler 5D 习题（p.163-176）

5D 在工程/金融/AI 里都用来干嘛？

应用 1 · 马尔可夫链的长期行为

应用 2 · PCA 的代数地基（降维、因子模型、eigenface）

5D 搞懂了，下一步？

★ 轮到你了——自测 8 题

E1 ★判断：下列算子哪些在 $\mathbf{R}$ 上可对角化？

E2 ★对 $T = \begin{pmatrix}4 & -2 \\ 1 & 1\end{pmatrix}$ 做对角化，再用它算 $T^{10}$

E3 ★★证明：剪切不可对角化（用最小多项式）

E4 ★★证明 5.58：$T$ 有 $n$ 个不同特征值 $\Rightarrow$ 可对角化

E5 ★★手推 Fibonacci 的 Binet 闭式

E6 ★★证明：实 2×2 对称矩阵总可对角化且特征向量正交

E7 ★★证明：$T^2 = I \Rightarrow T$ 可对角化

E8 ★★★可交换的可对角化算子能同时对角化