Axler 5A · Invariant Subspaces

符号	念作	在本节的含义	它的"类型"
$V$	V	你正在研究的向量空间（有限维，在 $\mathbf{R}$ 或 $\mathbf{C}$ 上）	集合 + 加法 + 数乘
$\mathbf{F}$	F	底域（base field），就是 $\mathbf{R}$ 或 $\mathbf{C}$ 之一	数系
$\mathbf{R}, \mathbf{C}$	R, C	实数域 / 复数域	数系
$\dim V$	dim V	$V$ 的维数（基的向量个数，比如 $\dim \mathbf{R}^3 = 3$）	自然数
$U, W$	U, W	$V$ 的子空间（subspace）—— $V$ 里自己闭合的小向量空间	$\subseteq V$ 的特殊子集
$u, v, w$	u, v, w	向量，通常 $u \in U$、$v \in V$ 那样使用	$V$ 的元素
$T$	T	线性算子：把 $V$ 里的向量映成 $V$ 里的向量，且保持加法和数乘（本节的"主角"）	函数 $V \to V$
$\mathcal{L}(V)$	L of V	$V$ 上所有线性算子的集合。写 "$T \in \mathcal{L}(V)$" 就是"$T$ 是 $V$ 上的线性算子"的意思	算子的集合
$T(U)$	T of U	$U$ 被 $T$ 作用后的像集：$\{Tu : u \in U\}$	$V$ 的子集
$T(U) \subseteq U$	T(U) 包含于 U	"U 是 T-不变的"的等价说法——U 里的向量扔进 T 出来还在 U 里	性质（True/False）
$\lambda$	lambda（拉姆达）	特征值：某个标量，满足存在非零 $v$ 使 $Tv = \lambda v$	$\mathbf{F}$ 里的数
$v$（作特征向量时）	v	特征向量：非零向量，被 $T$ 作用后只在自己方向上被缩放了 $\lambda$ 倍	$V \setminus \{0\}$
$I$	I	恒等算子 $Iv = v$，矩阵形式是对角线为 1 其余为 0	$\mathcal{L}(V)$ 的特殊元素
$T - \lambda I$	T 减 lambda I	算子的减法：$(T - \lambda I)v = Tv - \lambda v$。用来检测特征值的工具	还是一个线性算子
$\operatorname{tr} T$	trace of T（迹）	2×2 矩阵 $T = \begin{pmatrix}a&b\\c&d\end{pmatrix}$ 的迹 = $a + d$（也 = 所有特征值之和）	$\mathbf{F}$ 里的数
$\det T$	determinant of T（行列式）	2×2 时 $= ad - bc$（也 = 所有特征值之积）	$\mathbf{F}$ 里的数
$p(\lambda)$	p of lambda	特征多项式：$\det(T - \lambda I)$。它的根就是特征值。2×2 时 $p(\lambda) = \lambda^2 - \operatorname{tr} T \cdot \lambda + \det T$	关于 $\lambda$ 的多项式
$\Delta$	delta（判别式）	二次式判别式 $= \operatorname{tr}^2 - 4\det$。$\Delta \geq 0$ 有实特征值，$\Delta < 0$ 只有复特征值	$\mathbf{R}$ 里的数
$\in$	属于	集合关系。$v \in V$ 读作"$v$ 在 $V$ 里"	关系
$\subseteq$	子集（含等）	$U \subseteq V$ 读作"$U$ 是 $V$ 的子集"（可以相等）	关系
$\oplus$	direct sum（直和）	$V = U \oplus W$ 指 $V$ 能唯一地写成 $U$ 里的向量加 $W$ 里的向量（用于 Ex 5A-2）	子空间关系
$T^k$	T 的 k 次方	$T$ 作用 $k$ 次，即 $T^k v = T(T(\cdots T(v)))$	也是算子

什么叫"$T$-不变子空间"？

在 Axler 的定义（5.2）里：

设 $T \in \mathcal{L}(V)$（即 $T$ 是 $V$ 上的线性算子）。如果子空间 $U \subseteq V$ 满足 $T(U) \subseteq U$，就说 $U$ 是 $T$-不变（$T$-invariant）。

拆开念：把 $U$ 里任何一个向量 $u$ 扔进 $T$ 做运算，出来的 $Tu$ 还留在 $U$ 里。$U$ 是 $T$ 这台机器的"逃不出去的岛屿"。

为什么要关心这个？听起来只是个小性质。

因为一旦找到不变子空间 $U$，就可以把 $T$ 限制到 $U$ 上，得到一个更小的算子 $T|_U: U \to U$。整个 Ch5-8 的策略全都围绕这件事：

把 $V$ 拆成一堆不变子空间 $V = U_1 \oplus U_2 \oplus \cdots$
在每个 $U_i$ 上 $T$ 都变成"更简单"的版本
合起来就理解了整个 $T$

最极端、最理想的情况是 每个 $U_i$ 都只有 1 维——那时 $T$ 被"对角化"了。下一问先搞清楚 1 维不变子空间是什么。

最简单的不变子空间是什么？

1 维的。一条过原点的直线 $\{c v : c \in \mathbf{F}\}$（记作 $\operatorname{span}(v)$）。要让它不变，只需要 $Tv$ 也落在这条直线上，即 $Tv = \lambda v$，其中 $\lambda$ 是某个标量。

5.6 特征向量/特征值. 非零向量 $v \in V$ 称为 特征向量（eigenvector），如果存在标量 $\lambda \in \mathbf{F}$ 使 $Tv = \lambda v$。这个 $\lambda$ 称为 特征值（eigenvalue）。

几何上：特征向量 = "被 $T$ 作用之后还在原方向上的向量"（可能被拉长、缩短、或反向，但不会被转到别的方向）。

"特征值" 和 "$T - \lambda I$ 不可逆" 有什么关系？

这两个说法等价（定理 5.7），而且经常后者更好用：

5.7 (刻画特征值). $\lambda$ 是 $T$ 的特征值 $\iff$ $T - \lambda I$ 不单射 $\iff T - \lambda I$ 不满射 $\iff T - \lambda I$ 不可逆。

为什么等价：$Tv = \lambda v$ 写成 $(T - \lambda I)v = 0$。有非零 $v$ 满足 $\iff$ $T - \lambda I$ 的零空间非零 $\iff$ $T - \lambda I$ 不单射。加上有限维下"单 $\iff$ 满 $\iff$ 可逆"，就全串起来了。

实用价值：在矩阵里，$T - \lambda I$ 不可逆 $\iff \det(T - \lambda I) = 0$——这就是特征多项式法的由来。

我能不能亲眼看见特征向量？

能。下面这个 2D 实验室：滑杆改 $T = \begin{pmatrix} a & b \\ c & d \end{pmatrix}$ 的 4 个元素，蓝色箭头 = $v \mapsto Tv$ 的变化（短表示几乎不变，长表示剧烈变化），黄色箭头就是 $T$ 的特征向量——它们只被延伸/缩短，不被转动。虚线 = 特征向量所在的 1 维不变子空间。

轨迹 (click 添加) 二次型等值线 $v^\top T v$ 变形网格

普通向量 $Tv$ 实特征方向复特征（无实轴）轨迹 $T^k v$

矩阵 $T = \begin{pmatrix} a & b \\ c & d \end{pmatrix}$

a1.00

b0.50

c0.00

d1.50

特征值 / 特征向量

特征多项式 $p(\lambda) = \lambda^2 - \mathrm{tr}\,\lambda + \det$

玩法提示：逐个试预设。"对角拉伸"特征向量就是 $x$、$y$ 轴；"投影到 x 轴"只有一个特征值 $= 1$ + 一个 $= 0$；"上剪切"只有一个方向不变（$x$ 轴）——下一问就是这种"病态"情况。

等等——我按了"90° 旋转"，黄色虚线完全消失了。出 bug 了？

没 bug。旋转 90° 是 5A 里最重要的"反例"：在 $\mathbf{R}^2$ 上，它没有任何特征向量。

$T = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}$，特征多项式 $p(\lambda) = \det(T - \lambda I) = \lambda^2 + 1$，判别式 $\Delta = -4 < 0$。

几何解释：平面上每条过原点的直线都被转走了，没有"留在原地"的方向——所以也就不存在 $Tv = \lambda v$ 这种关系（当 $\lambda$ 是实数时）。

底下的特征多项式图这时候会变红，整条抛物线悬在 $\lambda$ 轴上方，不相交。

那怎么办？线性代数难道要"有些算子没特征值"？

Axler 的答案：把底域升级到 $\mathbf{C}$。在 $\mathbf{C}$ 上一切都有特征值，这是 5A 最重要的定理：

5.19 (存在性，复域). 设 $V$ 是非零有限维复向量空间。每个 $T \in \mathcal{L}(V)$ 都有至少一个特征值。

证明骨架：取任意非零 $v \in V$。考虑 $n+1$ 个向量 $v, Tv, T^2 v, \ldots, T^n v$（其中 $n = \dim V$）。这 $n+1$ 个向量必线性相关（因为它们在 $n$ 维空间里），所以存在非零多项式 $p$ 使 $p(T) v = 0$。

代数基本定理说 $p$ 在 $\mathbf{C}$ 上分解为一次因子：$p(z) = c(z - \lambda_1)(z - \lambda_2) \cdots (z - \lambda_m)$。于是 $p(T) = c(T - \lambda_1 I) \cdots (T - \lambda_m I)$，作用在 $v$ 上等于 0。链式应用的过程中，必有某个因子 $(T - \lambda_k I)$ 把某向量变成 0——那个 $\lambda_k$ 就是 $T$ 的特征值。

回看旋转：$\lambda^2 + 1 = 0$ 在 $\mathbf{C}$ 上有解 $\lambda = \pm i$，此时 $v \in \mathbf{C}^2$ 可以取 $(1, -i)$ 和 $(1, i)$。

如果我一直拿 $T$ 去乘同一个向量（$v, Tv, T^2v, \ldots$），会发生什么？

回到上面的 2D 交互，点击画布任意位置——脚本会从你点的那个点开始，画出 $v_0, Tv_0, T^2 v_0, \ldots$ 共 14 步的轨迹（青色折线）。几件有意思的观察：

对角拉伸 $\operatorname{diag}(2, 0.5)$：轨迹要么沿 $x$ 轴（$\lambda=2$）无限放大，要么沿 $y$ 轴（$\lambda=0.5$）收缩到 0。一般起点会"两头不着"但最终被拉到 $x$ 方向（主特征方向）。
默认 $\begin{pmatrix}1 & 0.5 \\ 0 & 1.5\end{pmatrix}$：$\lambda_1 = 1.5 > \lambda_2 = 1$，所有轨迹最终对齐到 $\lambda = 1.5$ 的特征方向 $(-0.71, -0.71)$。
90° 旋转：轨迹闭合成正方形（$T^4 = I$）——不收敛到任何一个方向。
投影 $\operatorname{diag}(1, 0)$：轨迹一步就落到 $x$ 轴再也不动——因为 $T^2 = T$。

这就是 动力系统视角：特征值的大小决定每个特征方向上的"放大/收缩速率"，长期行为被最大模的特征值主导（称为"主特征值"或 dominant eigenvalue）。Google PageRank 就是这个现象。

打开"二次型等值线"看到的椭圆/双曲线是什么？

画的是 $f(v) = v^\top T v = a x^2 + (b+c) x y + d y^2$ 的等值线。这是 二次型（quadratic form），跟 $T$ 本身的对称化版本 $\tfrac{1}{2}(T + T^\top)$ 有关。观察：

$T$ 对称且正定（如"对称拉伸"预设）：等值线是椭圆族，椭圆的主轴恰好就是特征向量。这就是 谱定理 的几何内容，第 7 章会证明。
$T$ 对称但不定（一个正一个负特征值）：等值线是双曲线，渐近线就是 $f = 0$ 的两个方向。
$T$ 不对称（如"上剪切"）：等值线不一定对齐特征向量，因为 $v^\top T v = v^\top \tfrac{1}{2}(T+T^\top) v$ 只依赖对称部分。

记住的话一句：对称矩阵的特征向量 = 二次型等值椭圆的主轴。5A 还没讲这个，但已经在图上看到了。

3D 里不变子空间长什么样？

3×3 实矩阵有两种可能：

3 个实特征值 → 3 条不变直线（可能正交也可能不正交）
1 个实特征值 + 1 对复共轭 → 1 条不变直线 + 1 个不变 2D 平面（复共轭对的实部和虚部张成的实平面）

下面这个 Three.js 场景：立方体被 $T$ 变形，黄色双向箭头 = 实特征方向，红色半透平面 = 复共轭对对应的不变平面。

特征方向（不变直线）复共轭对（不变平面）单位立方体被 $T$ 变形

矩阵 $T \in \mathbf{R}^{3 \times 3}$

特征值 / 特征向量

Space 暂停相机动画，R 复位相机。试"绕 z 轴 90°"——只有 z 轴方向是实特征，xy 平面整块是复特征的不变平面（你在空间里转它，它还是整块平面）。

如果有两个不同特征值 $\lambda_1, \lambda_2$，它们的特征向量会不会"撞车"（线性相关）？

不会。这是 5A 的核心结构定理：

5.11 独立性. 设 $\lambda_1, \ldots, \lambda_m$ 是 $T$ 的两两不同的特征值，$v_1, \ldots, v_m$ 是对应的非零特征向量。则 $v_1, \ldots, v_m$ 在 $V$ 中线性无关。

证明（反证 + 最短相关）：假设它们相关，取最短的非平凡线性关系：

$$ a_1 v_1 + a_2 v_2 + \cdots + a_k v_k = 0 \quad (\text{所有 } a_i \neq 0, \ k \text{ 最小}) $$

两边同时作用 $(T - \lambda_k I)$。因为 $T v_i = \lambda_i v_i$，所以 $(T - \lambda_k I) v_i = (\lambda_i - \lambda_k) v_i$。代入得：

$$ a_1 (\lambda_1 - \lambda_k) v_1 + \cdots + a_{k-1} (\lambda_{k-1} - \lambda_k) v_{k-1} + 0 = 0 $$

注意 $v_k$ 项没了（因为 $\lambda_k - \lambda_k = 0$），而前面 $k-1$ 项的系数 $a_i(\lambda_i - \lambda_k)$ 都非零（$a_i \neq 0$ 且 $\lambda_i \neq \lambda_k$）。这样得到了一个更短的非平凡关系，与 "$k$ 最小"矛盾。∎

那么 $T$ 的特征值个数有上限吗？

有。Q11 的直接推论：

5.13 推论. 有限维 $V$ 上的每个算子 $T$ 至多有 $\dim V$ 个不同的特征值。

理由：不同特征值对应的特征向量线性无关，而 $V$ 里互相独立的向量不能超过 $\dim V$ 个。

推广：$n$ 维空间上的算子恰好有 $n$ 个不同特征值时（在复数域），特征向量构成 $V$ 的一组基——$T$ 在这组基下是对角矩阵。这就是 5D 节"可对角化"的源头。

5A 一共要记住哪些"底子定理"？

按重要性：

5.7 刻画. $\lambda$ 是特征值 $\iff T - \lambda I$ 不可逆。
作用：把"找特征值"变成"找使 $T - \lambda I$ 不可逆的 $\lambda$"，等价于求 $\det(T - \lambda I) = 0$ 的根。

5.11 独立性. 不同特征值对应的特征向量线性无关。
作用：铺垫 5.13 + 5D 的对角化。

5.13 推论. 特征值个数 ≤ $\dim V$。
作用：给特征谱装个"天花板"。

5.19 存在性（仅复域）. 非零有限维复空间上每个算子有特征值。
作用：复数域是"线性代数的自然栖息地"——没有它 Jordan 分解、谱定理之类都讲不通。

练习（Axler 5A Exercises, p.140–142 & p.149–152）

★Ex 5A-2：$V = U \oplus W$ 时，沿 $W$ 投影到 $U$ 的算子的特征值是什么？（答：0 和 1）
★Ex 5A-9：证 $T^2$ 的特征值集合是 $\{\lambda^2 : \lambda \in \text{特征谱}(T)\}$，但等号在复域才严格——实域下可能缺。
★★Ex 5A-34：列举 $\mathbf{R}^3$ 上旋转算子的全部不变子空间。（提示：用 5.19 的实数变体证明 3 维奇数维旋转必有不动轴。）

学这个到底有什么用？

"特征值 + 不变子空间分解"是现代科技的万用钥匙之一。与其罗列十几个领域，这里讲两个最能说明 5A 力道的——一个最有名、一个对你作为投资者最直接。

应用 1 · Google PageRank：整个互联网的排名 = 一个特征向量

1998 年 Brin & Page 的博士论文核心：把互联网看成一张有向图（$n$ 个网页做节点，链接做边）。定义转移矩阵 $M \in \mathbf{R}^{n \times n}$：$M_{ij}$ = "从网页 $j$ 跳到网页 $i$ 的概率"（均匀分配到 $j$ 的所有出链）。

问题：一个随机浏览的用户，长期看最可能停留在哪些页面？

答案：设稳态分布为 $x$，则 $x = Mx$——也就是 $M$ 的 $\lambda = 1$ 特征向量。把 $x$ 的分量按大小排序，就是整个互联网的权威度排名。

这正是 Q8 那个迭代系统 $x_{t+1} = Mx_t$ 的稳态：反复应用 $T$（此处是 $M$），最终所有起点都收敛到主特征向量方向。Google 第一版算法就是"算一个特征向量"——$n$ 大约是几十亿。

5A 的两个定理在这里直接起作用：5.19（存在性）保证特征值存在；5.11/5.13（独立性和上限）保证稳态在合适条件下唯一。

应用 2 · 利率曲线只有 3 个真实维度——PCA 在宏观交易里的核心用法

你每天看美债 2Y / 5Y / 10Y / 30Y 四个期限的收益率，表面上是 4 个独立的数。对它们每天的变化做协方差矩阵 $\Sigma$，再特征分解，会发现：

$\lambda_1 \approx 85\%$ 方差 → 特征向量 $\approx (1, 1, 1, 1)$ 水平（所有期限一起涨跌）
$\lambda_2 \approx 10\%$ 方差 → 特征向量 $\approx (-1, -0.5, 0.5, 1)$ 斜率（短端降、长端升）
$\lambda_3 \approx 3\%$ 方差 → 特征向量 $\approx (1, -1, -1, 1)$ 曲率（中段凹凸）
$\lambda_4 \approx$ 接近 0 → 剩余噪声

含义：整条收益率曲线的波动其实只有 3 个真实维度，剩下的是噪声。宏观利率交易员实际操作：

Steepener / Flattener：押注第 2 特征向量（斜率）
Butterfly trade：押注第 3 特征向量（曲率）——做多两端，做空中段，或反之
久期对冲：对冲第 1 维度（水平位移）的敞口

这就是 5A 思想最值钱的落地：把高维混乱的数据拆成几个正交的不变方向，每个方向是一个特征向量，重要性是对应的特征值。同样的操作换个数据源——股票协方差 → 因子模型、用户-物品评分 → 推荐系统、人脸像素 → Eigenface——逻辑一字不差。

为什么 5A 是地基：PCA 需要"特征值存在"（5.19）、"不同特征值的特征向量正交"（对称矩阵的加强版 5.11，到第 7 章谱定理）、"特征值个数 ≤ 维数"（5.13）。没有 5A 那几个定理，PCA 的可行性无从谈起。

5A 搞懂了，下一步？

5B 最小多项式（Minimal Polynomial）：5.19 的证明里出现过的"让 $p(T)v = 0$ 的多项式 $p$"，实际上有一个唯一的最小版本——就是最小多项式 $m(\lambda)$。它的根恰好就是 $T$ 的所有特征值（重数需单独看）。学完 5B 你就有了：

从矩阵直接算特征值的标准工具
"Cayley-Hamilton"定理的前身
判断算子是否可对角化的第一个清晰条件（5D 会用）

再往后 5C 上三角矩阵、5D 可对角化、5E 可交换算子 都是围绕"把 $T$ 在合适基下化简"展开——而所有这些化简，本质都是在找 $V$ 的不变子空间直和分解。5A 是整章的"DNA"。

★ 轮到你了——自测 8 题

每题至少想 3 分钟再看答案。"提示"里是破题方向，"答案"里是完整推理。难度标签：★ 概念/简单计算 · ★★ 证明 · ★★★ 综合思考。

E1 ★判断题：哪些一定是 $T$-不变子空间？

对任意 $T \in \mathcal{L}(V)$，判断下列子空间是否一定是 $T$-不变的：

(a) $\{0\}$ (b) $V$ (c) $\operatorname{null} T$ (d) $\operatorname{range} T$ (e) 任一特征空间 $E_\lambda = \{v : Tv = \lambda v\}$

提示

逐个用定义 $T(U) \subseteq U$ 验证。对 (c) 问自己：$u \in \operatorname{null} T$ 说明 $Tu = 0$，那 $Tu$ 还在 $\operatorname{null} T$ 里吗？

答案

全部都是（五个都一定 $T$-不变）。

(a) $T(0) = 0 \in \{0\}$ ✓

(b) $T(V) \subseteq V$ 显然 ✓

(c) $u \in \operatorname{null} T \Rightarrow Tu = 0 \in \operatorname{null} T$ ✓

(d) $u = Tv$ 对某 $v$，则 $Tu = T(Tv) = T^2v \in \operatorname{range} T$ ✓

(e) $v \in E_\lambda \Rightarrow Tv = \lambda v \in E_\lambda$（$E_\lambda$ 对数乘封闭）✓

E2 ★计算：找出所有 1 维 $T$-不变子空间

设 $T : \mathbf{R}^2 \to \mathbf{R}^2$ 对应矩阵 $\begin{pmatrix} 4 & -2 \\ 1 & 1 \end{pmatrix}$。求：

(a) 所有特征值 (b) 对应的特征向量 (c) $\mathbf{R}^2$ 里所有 1 维 $T$-不变子空间

提示

$p(\lambda) = \det(T - \lambda I)$。求根，然后对每个 $\lambda$ 解 $(T - \lambda I)v = 0$。

答案

$p(\lambda) = (4-\lambda)(1-\lambda) - (-2)(1) = \lambda^2 - 5\lambda + 6 = (\lambda-2)(\lambda-3)$

$\lambda_1 = 2$：解 $(T-2I)v = 0$，即 $\begin{pmatrix} 2 & -2 \\ 1 & -1 \end{pmatrix} v = 0$，得 $v_1 = (1, 1)$。

$\lambda_2 = 3$：解 $(T-3I)v = 0$，即 $\begin{pmatrix} 1 & -2 \\ 1 & -2 \end{pmatrix} v = 0$，得 $v_2 = (2, 1)$。

1 维 $T$-不变子空间正好两条：$\operatorname{span}(1,1)$ 和 $\operatorname{span}(2,1)$。可以在上面的 2D 画布上输入 $a=4, b=-2, c=1, d=1$ 验证——两条黄色虚线斜率分别为 1 和 1/2。

E3 ★★反例构造？

能不能找到 $T \in \mathcal{L}(\mathbf{R}^2)$ 和一个非平凡子空间 $U$（$U \neq \{0\}$ 且 $U \neq \mathbf{R}^2$），使得 $U$ 是 $T$-不变的，但 $U$ 里不包含任何特征向量？

提示

$\mathbf{R}^2$ 的非平凡子空间维数只能是 1。1 维子空间被 $T$ 保持是什么意思？

答案

不能。$\mathbf{R}^2$ 里非平凡子空间必是 1 维，记 $U = \operatorname{span}(u)$。$T$-不变 $\iff T u \in U \iff Tu = \lambda u$ 对某 $\lambda$——这正是 $u$ 是特征向量的定义！

教训：在 1 维子空间里，"不变"与"由特征向量张成"是同一件事。不变子空间的概念只有在 $\dim U \geq 2$ 时才与特征向量概念有本质的区别。

E4 ★★证明：若 $T^2 = I$，则 $V = V_1 \oplus V_{-1}$

设 $T \in \mathcal{L}(V)$ 满足 $T^2 = I$（这种算子叫 involution，例如反射）。证明 $V = V_1 \oplus V_{-1}$，其中 $V_\lambda = \{v : Tv = \lambda v\}$。

提示

构造性思路：把任意 $v$ 分解成 $v_+ + v_-$，其中 $v_+ \in V_1$、$v_- \in V_{-1}$。尝试 $v_+ = \tfrac{1}{2}(v + Tv)$。

答案

存在性：对任意 $v \in V$，令 $v_+ = \tfrac{1}{2}(v + Tv)$、$v_- = \tfrac{1}{2}(v - Tv)$。

验证 $v_+ \in V_1$：$Tv_+ = \tfrac{1}{2}(Tv + T^2 v) = \tfrac{1}{2}(Tv + v) = v_+$。✓

验证 $v_- \in V_{-1}$：$Tv_- = \tfrac{1}{2}(Tv - T^2 v) = \tfrac{1}{2}(Tv - v) = -v_-$。✓

显然 $v_+ + v_- = v$。所以 $V = V_1 + V_{-1}$。

唯一性：若 $v \in V_1 \cap V_{-1}$，则 $v = Tv = -v$，故 $2v = 0 \Rightarrow v = 0$（假设 $\operatorname{char} \mathbf{F} \neq 2$）。所以和是直和。∎

注：这是 Axler 第 8 章谱定理的"迷你版"——任何满足 $T^2 = I$ 的算子都能对角化，特征值 $\pm 1$。反射、奇偶函数分解都是这个。

E5 ★★证明：$T$ 可逆 $\iff$ $0$ 不是 $T$ 的特征值

设 $V$ 有限维，$T \in \mathcal{L}(V)$。证明：$T$ 可逆当且仅当 $0$ 不是 $T$ 的特征值。进一步，若 $\lambda$ 是可逆 $T$ 的特征值，则 $1/\lambda$ 是 $T^{-1}$ 的特征值。

提示

第一部分用定理 5.7：$0$ 是特征值 $\iff T - 0\cdot I = T$ 不可逆。第二部分两边作用 $T^{-1}$。

答案

第一部分：由 5.7，$0$ 是 $T$ 的特征值 $\iff T - 0I = T$ 不可逆。取逆否命题即得。

第二部分：设 $Tv = \lambda v$ 且 $\lambda \neq 0$。两边作用 $T^{-1}$：$v = \lambda T^{-1} v$，即 $T^{-1} v = \tfrac{1}{\lambda} v$。所以 $\tfrac{1}{\lambda}$ 是 $T^{-1}$ 的特征值，特征向量与 $T$ 的相同。∎

E6 ★★证明 $T^2$ 的特征值集合关系（Axler Ex 5A-9 变体）

证明：若 $\lambda$ 是 $T$ 的特征值，则 $\lambda^2$ 是 $T^2$ 的特征值。反过来呢？——若 $\mu$ 是 $T^2$ 的特征值，$\mu$ 一定能写成某个 $T$ 的特征值的平方吗？分别在 $\mathbf{R}$ 和 $\mathbf{C}$ 上讨论。

提示

正向：$Tv = \lambda v \Rightarrow T^2 v = \lambda T v = \lambda^2 v$。反向：考虑 $(T^2 - \mu I) = (T - \sqrt\mu I)(T + \sqrt\mu I)$，问 $\sqrt\mu$ 在不在 $\mathbf{F}$ 里。

答案

正向：$Tv = \lambda v \Rightarrow T^2 v = T(\lambda v) = \lambda Tv = \lambda^2 v$，所以 $\lambda^2$ 是 $T^2$ 的特征值，$v$ 仍是对应特征向量。

反向 · $\mathbf{C}$ 上：$\mu$ 是 $T^2$ 的特征值 $\iff T^2 - \mu I$ 不可逆 $\iff (T - \sqrt\mu I)(T + \sqrt\mu I)$ 不可逆（这里 $\sqrt\mu \in \mathbf{C}$ 总存在）。因子的积不可逆 $\Rightarrow$ 至少一个因子不可逆 $\Rightarrow \pm\sqrt\mu$ 至少一个是 $T$ 的特征值。于是等号成立：$\text{spec}(T^2) = \{\lambda^2 : \lambda \in \text{spec}(T)\}$。

反向 · $\mathbf{R}$ 上：若 $\mu < 0$，$\sqrt\mu$ 不在 $\mathbf{R}$ 里，上述分解在 $\mathbf{R}[T]$ 里做不出来。反例：$T = \begin{pmatrix}0 & -1 \\ 1 & 0\end{pmatrix}$（90° 旋转）。$T^2 = -I$，$-1$ 是 $T^2$ 的特征值。但 $T$ 在 $\mathbf{R}$ 上根本没特征值，更谈不上平方等于 $-1$。

E7 ★★★综合：投影算子的特征值只能是 0 和 1

$P \in \mathcal{L}(V)$ 称为投影（idempotent），如果 $P^2 = P$。证明：

(a) $P$ 的特征值只可能是 $0$ 或 $1$；

(b) $V = \operatorname{null} P \oplus \operatorname{range} P$，且 $\operatorname{null} P = E_0$、$\operatorname{range} P = E_1$。

提示

(a) 从 $Pv = \lambda v$ 出发，两边再作用 $P$。 (b) 构造 $v = (v - Pv) + Pv$，对应分解到 null 和 range。

答案

(a) 设 $Pv = \lambda v$（$v \neq 0$）。两边作用 $P$：$P^2 v = \lambda Pv = \lambda^2 v$。又 $P^2 = P$，故 $\lambda v = \lambda^2 v$，即 $(\lambda - \lambda^2) v = 0$。$v \neq 0 \Rightarrow \lambda(\lambda - 1) = 0 \Rightarrow \lambda \in \{0, 1\}$。

(b) 存在性：$v = (v - Pv) + Pv$。

$v - Pv \in \operatorname{null} P$，因 $P(v - Pv) = Pv - P^2 v = Pv - Pv = 0$。

$Pv \in \operatorname{range} P$。

唯一性：若 $w \in \operatorname{null} P \cap \operatorname{range} P$，则 $w = Pu$ 对某 $u$，且 $Pw = 0$，即 $P^2 u = 0 \Rightarrow Pu = 0 \Rightarrow w = 0$。

再证 $\operatorname{null} P = E_0$、$\operatorname{range} P = E_1$：

$v \in \operatorname{null} P \iff Pv = 0 = 0 \cdot v \iff v \in E_0$。

$v \in \operatorname{range} P \iff v = Pu \Rightarrow Pv = P^2 u = Pu = v$，即 $v \in E_1$；反之 $v \in E_1 \Rightarrow v = Pv \in \operatorname{range} P$。∎

注：投影算子总可对角化——在 $E_1$ 上取基、$E_0$ 上取基拼起来就是对角矩阵 $\operatorname{diag}(1, \ldots, 1, 0, \ldots, 0)$。所以 Axler Ex 5A-2 问的是"沿 $W$ 投影到 $U$"算子的特征值——直接是 1 和 0。

E8 ★★★开放思考：90° 旋转的 $\pm i$ 到底是什么？

$T = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}$ 在 $\mathbf{R}^2$ 上没特征值，在 $\mathbf{C}^2$ 上有 $\lambda = \pm i$，对应特征向量 $v_{\pm} = (1, \mp i)$。

问题：这些复特征向量在物理/几何上代表什么？和实际的 90° 旋转有什么联系？

提示

把 $v_+ = (1, -i)$ 写成 $\operatorname{Re} v_+ + i \operatorname{Im} v_+ = (1, 0) + i(0, -1)$，再看 $T$ 作用。复特征值 $i = e^{i\pi/2}$ 的模是 1，幅角是 $90°$——这跟旋转的几何参数一模一样！

答案（一种理解）

复特征向量 $v_+ = (1, -i)$ 对应"一个实平面旋转的复表示"。具体：

把 $\mathbf{R}^2 \cong \mathbf{C}$（即把点 $(x, y)$ 看成 $z = x + iy$）。此时 $T$ 就是 $z \mapsto iz$——也就是说，90° 旋转在复数的语言里就是乘以 $i$。

$i$ 本来就是"模 1、幅角 $\pi/2$"的复数。特征值 $i$ 的几何 = 每作用一次把幅角转 $90°$、长度不变。这正好是旋转的定义！

推广：任意 2×2 旋转矩阵 $R_\theta$ 的复特征值是 $e^{\pm i\theta}$。模 1（等距）、幅角 $\pm\theta$（每作用一次转 $\theta$）。特征值的模 = 缩放，幅角 = 旋转角。实数特征值（正/负）是"0 或 180°"这种退化旋转。

链接到工程：AC 电路、傅里叶变换、量子力学中的酉算子都用这个——一个实的"有旋转的系统"被复特征值自然描述。

完成度自检：E1-E3 全对 = 定义和几何直觉通了；E4-E6 能证明 = 能把定义变成推理；E7-E8 能搞清 = 对 "复特征值到底代表什么"有直觉了。后面 5B-5E 会反复用这些思想。

5A Invariant Subspaces · Axler 4e · pp.133–152

0 · 符号对照（看到公式里的字母不懂直接查这里）

什么叫"$T$-不变子空间"？

为什么要关心这个？听起来只是个小性质。

最简单的不变子空间是什么？

"特征值" 和 "$T - \lambda I$ 不可逆" 有什么关系？

我能不能亲眼看见特征向量？

矩阵 $T = \begin{pmatrix} a & b \\ c & d \end{pmatrix}$

特征值 / 特征向量

特征多项式 $p(\lambda) = \lambda^2 - \mathrm{tr}\,\lambda + \det$

等等——我按了"90° 旋转"，黄色虚线完全消失了。出 bug 了？

那怎么办？线性代数难道要"有些算子没特征值"？

如果我一直拿 $T$ 去乘同一个向量（$v, Tv, T^2v, \ldots$），会发生什么？

打开"二次型等值线"看到的椭圆/双曲线是什么？

3D 里不变子空间长什么样？

矩阵 $T \in \mathbf{R}^{3 \times 3}$

特征值 / 特征向量

如果有两个不同特征值 $\lambda_1, \lambda_2$，它们的特征向量会不会"撞车"（线性相关）？

那么 $T$ 的特征值个数有上限吗？

5A 一共要记住哪些"底子定理"？

练习（Axler 5A Exercises, p.140–142 & p.149–152）

学这个到底有什么用？

应用 1 · Google PageRank：整个互联网的排名 = 一个特征向量

应用 2 · 利率曲线只有 3 个真实维度——PCA 在宏观交易里的核心用法

5A 搞懂了，下一步？

★ 轮到你了——自测 8 题

E1 ★判断题：哪些一定是 $T$-不变子空间？

E2 ★计算：找出所有 1 维 $T$-不变子空间

E3 ★★反例构造？

E4 ★★证明：若 $T^2 = I$，则 $V = V_1 \oplus V_{-1}$

E5 ★★证明：$T$ 可逆 $\iff$ $0$ 不是 $T$ 的特征值

E6 ★★证明 $T^2$ 的特征值集合关系（Axler Ex 5A-9 变体）

E7 ★★★综合：投影算子的特征值只能是 0 和 1

E8 ★★★开放思考：90° 旋转的 $\pm i$ 到底是什么？

5A Invariant Subspaces · Axler 4e · pp.133–152

0 · 符号对照 （看到公式里的字母不懂直接查这里）

什么叫"$T$-不变子空间"？

为什么要关心这个？听起来只是个小性质。

最简单的不变子空间是什么？

"特征值" 和 "$T - \lambda I$ 不可逆" 有什么关系？

我能不能亲眼看见特征向量？

矩阵 $T = \begin{pmatrix} a & b \\ c & d \end{pmatrix}$

特征值 / 特征向量

特征多项式 $p(\lambda) = \lambda^2 - \mathrm{tr}\,\lambda + \det$

等等——我按了"90° 旋转"，黄色虚线完全消失了。出 bug 了？

那怎么办？线性代数难道要"有些算子没特征值"？

如果我一直拿 $T$ 去乘同一个向量（$v, Tv, T^2v, \ldots$），会发生什么？

打开"二次型等值线"看到的椭圆/双曲线是什么？

3D 里不变子空间长什么样？

矩阵 $T \in \mathbf{R}^{3 \times 3}$

特征值 / 特征向量

如果有两个不同特征值 $\lambda_1, \lambda_2$，它们的特征向量会不会"撞车"（线性相关）？

那么 $T$ 的特征值个数有上限吗？

5A 一共要记住哪些"底子定理"？

练习（Axler 5A Exercises, p.140–142 & p.149–152）

学这个到底有什么用？

应用 1 · Google PageRank：整个互联网的排名 = 一个特征向量

应用 2 · 利率曲线只有 3 个真实维度——PCA 在宏观交易里的核心用法

5A 搞懂了，下一步？

★ 轮到你了——自测 8 题

E1 ★判断题：哪些一定是 $T$-不变子空间？

E2 ★计算：找出所有 1 维 $T$-不变子空间

E3 ★★反例构造？

E4 ★★证明：若 $T^2 = I$，则 $V = V_1 \oplus V_{-1}$

E5 ★★证明：$T$ 可逆 $\iff$ $0$ 不是 $T$ 的特征值

E6 ★★证明 $T^2$ 的特征值集合关系（Axler Ex 5A-9 变体）

E7 ★★★综合：投影算子的特征值只能是 0 和 1

E8 ★★★开放思考：90° 旋转的 $\pm i$ 到底是什么？

0 · 符号对照（看到公式里的字母不懂直接查这里）