5A Invariant Subspaces · Axler 4e · pp.133–152

可拖拽 · 实时特征值计算 · Ch5 的地基。学完本节,你会理解"算子在子空间里留下了什么"。

0 · 符号对照 (看到公式里的字母不懂直接查这里)

符号念作在本节的含义它的"类型"
$V$V你正在研究的向量空间(有限维,在 $\mathbf{R}$ 或 $\mathbf{C}$ 上)集合 + 加法 + 数乘
$\mathbf{F}$F底域(base field),就是 $\mathbf{R}$ 或 $\mathbf{C}$ 之一数系
$\mathbf{R}, \mathbf{C}$R, C实数域 / 复数域数系
$\dim V$dim V$V$ 的维数(基的向量个数,比如 $\dim \mathbf{R}^3 = 3$)自然数
$U, W$U, W$V$ 的子空间(subspace)—— $V$ 里自己闭合的小向量空间$\subseteq V$ 的特殊子集
$u, v, w$u, v, w向量,通常 $u \in U$、$v \in V$ 那样使用$V$ 的元素
$T$T线性算子:把 $V$ 里的向量映成 $V$ 里的向量,且保持加法和数乘(本节的"主角")函数 $V \to V$
$\mathcal{L}(V)$L of V$V$ 上所有线性算子的集合。写 "$T \in \mathcal{L}(V)$" 就是"$T$ 是 $V$ 上的线性算子"的意思算子的集合
$T(U)$T of U$U$ 被 $T$ 作用后的像集:$\{Tu : u \in U\}$$V$ 的子集
$T(U) \subseteq U$T(U) 包含于 U"U 是 T-不变的"的等价说法——U 里的向量扔进 T 出来还在 U 里性质(True/False)
$\lambda$lambda(拉姆达)特征值:某个标量,满足存在非零 $v$ 使 $Tv = \lambda v$$\mathbf{F}$ 里的数
$v$(作特征向量时)v特征向量:非零向量,被 $T$ 作用后只在自己方向上被缩放了 $\lambda$ 倍$V \setminus \{0\}$
$I$I恒等算子 $Iv = v$,矩阵形式是对角线为 1 其余为 0$\mathcal{L}(V)$ 的特殊元素
$T - \lambda I$T 减 lambda I算子的减法:$(T - \lambda I)v = Tv - \lambda v$。用来检测特征值的工具还是一个线性算子
$\operatorname{tr} T$trace of T(迹)2×2 矩阵 $T = \begin{pmatrix}a&b\\c&d\end{pmatrix}$ 的迹 = $a + d$(也 = 所有特征值之和)$\mathbf{F}$ 里的数
$\det T$determinant of T(行列式)2×2 时 $= ad - bc$(也 = 所有特征值之积)$\mathbf{F}$ 里的数
$p(\lambda)$p of lambda特征多项式:$\det(T - \lambda I)$。它的根就是特征值。2×2 时 $p(\lambda) = \lambda^2 - \operatorname{tr} T \cdot \lambda + \det T$关于 $\lambda$ 的多项式
$\Delta$delta(判别式)二次式判别式 $= \operatorname{tr}^2 - 4\det$。$\Delta \geq 0$ 有实特征值,$\Delta < 0$ 只有复特征值$\mathbf{R}$ 里的数
$\in$属于集合关系。$v \in V$ 读作"$v$ 在 $V$ 里"关系
$\subseteq$子集(含等)$U \subseteq V$ 读作"$U$ 是 $V$ 的子集"(可以相等)关系
$\oplus$direct sum(直和)$V = U \oplus W$ 指 $V$ 能唯一地写成 $U$ 里的向量加 $W$ 里的向量(用于 Ex 5A-2)子空间关系
$T^k$T 的 k 次方$T$ 作用 $k$ 次,即 $T^k v = T(T(\cdots T(v)))$也是算子
颜色约定(贯穿本页): 实特征方向/正值   普通向量/负值   复特征/判别式 < 0   轨迹 $T^k v$

什么叫"$T$-不变子空间"?

在 Axler 的定义(5.2)里:

设 $T \in \mathcal{L}(V)$(即 $T$ 是 $V$ 上的线性算子)。如果子空间 $U \subseteq V$ 满足 $T(U) \subseteq U$,就说 $U$ 是 $T$-不变($T$-invariant)。

拆开念:把 $U$ 里任何一个向量 $u$ 扔进 $T$ 做运算,出来的 $Tu$ 还留在 $U$ 里。$U$ 是 $T$ 这台机器的"逃不出去的岛屿"。


为什么要关心这个?听起来只是个小性质。

因为一旦找到不变子空间 $U$,就可以把 $T$ 限制到 $U$ 上,得到一个更小的算子 $T|_U: U \to U$。整个 Ch5-8 的策略全都围绕这件事:

最极端、最理想的情况是 每个 $U_i$ 都只有 1 维——那时 $T$ 被"对角化"了。下一问先搞清楚 1 维不变子空间是什么。


最简单的不变子空间是什么?

1 维的。一条过原点的直线 $\{c v : c \in \mathbf{F}\}$(记作 $\operatorname{span}(v)$)。要让它不变,只需要 $Tv$ 也落在这条直线上,即 $Tv = \lambda v$,其中 $\lambda$ 是某个标量。

5.6 特征向量/特征值. 非零向量 $v \in V$ 称为 特征向量(eigenvector),如果存在标量 $\lambda \in \mathbf{F}$ 使 $Tv = \lambda v$。这个 $\lambda$ 称为 特征值(eigenvalue)。

几何上:特征向量 = "被 $T$ 作用之后还在原方向上的向量"(可能被拉长、缩短、或反向,但不会被转到别的方向)。


"特征值" 和 "$T - \lambda I$ 不可逆" 有什么关系?

这两个说法等价(定理 5.7),而且经常后者更好用:

5.7 (刻画特征值). $\lambda$ 是 $T$ 的特征值 $\iff$ $T - \lambda I$ 不单射 $\iff T - \lambda I$ 不满射 $\iff T - \lambda I$ 不可逆。

为什么等价:$Tv = \lambda v$ 写成 $(T - \lambda I)v = 0$。有非零 $v$ 满足 $\iff$ $T - \lambda I$ 的零空间非零 $\iff$ $T - \lambda I$ 不单射。加上有限维下"单 $\iff$ 满 $\iff$ 可逆",就全串起来了。

实用价值:在矩阵里,$T - \lambda I$ 不可逆 $\iff \det(T - \lambda I) = 0$——这就是特征多项式法的由来。


我能不能亲眼看见特征向量?

能。下面这个 2D 实验室:滑杆改 $T = \begin{pmatrix} a & b \\ c & d \end{pmatrix}$ 的 4 个元素,蓝色箭头 = $v \mapsto Tv$ 的变化(短表示几乎不变,长表示剧烈变化),黄色箭头就是 $T$ 的特征向量——它们只被延伸/缩短,不被转动。虚线 = 特征向量所在的 1 维不变子空间。

普通向量 $Tv$ 实特征方向 复特征(无实轴) 轨迹 $T^k v$

矩阵 $T = \begin{pmatrix} a & b \\ c & d \end{pmatrix}$

1.00
0.50
0.00
1.50

特征值 / 特征向量

特征多项式 $p(\lambda) = \lambda^2 - \mathrm{tr}\,\lambda + \det$

玩法提示:逐个试预设。"对角拉伸"特征向量就是 $x$、$y$ 轴;"投影到 x 轴"只有一个特征值 $= 1$ + 一个 $= 0$;"上剪切"只有一个方向不变($x$ 轴)——下一问就是这种"病态"情况。


等等——我按了"90° 旋转",黄色虚线完全消失了。出 bug 了?

没 bug。旋转 90° 是 5A 里最重要的"反例":在 $\mathbf{R}^2$ 上,它没有任何特征向量

$T = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}$,特征多项式 $p(\lambda) = \det(T - \lambda I) = \lambda^2 + 1$,判别式 $\Delta = -4 < 0$。

几何解释:平面上每条过原点的直线都被转走了,没有"留在原地"的方向——所以也就不存在 $Tv = \lambda v$ 这种关系(当 $\lambda$ 是实数时)。

底下的特征多项式图这时候会变红,整条抛物线悬在 $\lambda$ 轴上方,不相交。


那怎么办?线性代数难道要"有些算子没特征值"?

Axler 的答案:把底域升级到 $\mathbf{C}$。在 $\mathbf{C}$ 上一切都有特征值,这是 5A 最重要的定理:

5.19 (存在性,复域). 设 $V$ 是非零有限维复向量空间。每个 $T \in \mathcal{L}(V)$ 都有至少一个特征值。

证明骨架:取任意非零 $v \in V$。考虑 $n+1$ 个向量 $v, Tv, T^2 v, \ldots, T^n v$(其中 $n = \dim V$)。这 $n+1$ 个向量必线性相关(因为它们在 $n$ 维空间里),所以存在非零多项式 $p$ 使 $p(T) v = 0$。

代数基本定理说 $p$ 在 $\mathbf{C}$ 上分解为一次因子:$p(z) = c(z - \lambda_1)(z - \lambda_2) \cdots (z - \lambda_m)$。于是 $p(T) = c(T - \lambda_1 I) \cdots (T - \lambda_m I)$,作用在 $v$ 上等于 0。链式应用的过程中,必有某个因子 $(T - \lambda_k I)$ 把某向量变成 0——那个 $\lambda_k$ 就是 $T$ 的特征值。

回看旋转:$\lambda^2 + 1 = 0$ 在 $\mathbf{C}$ 上有解 $\lambda = \pm i$,此时 $v \in \mathbf{C}^2$ 可以取 $(1, -i)$ 和 $(1, i)$。


如果我一直拿 $T$ 去乘同一个向量($v, Tv, T^2v, \ldots$),会发生什么?

回到上面的 2D 交互,点击画布任意位置——脚本会从你点的那个点开始,画出 $v_0, Tv_0, T^2 v_0, \ldots$ 共 14 步的轨迹(青色折线)。几件有意思的观察:

这就是 动力系统视角:特征值的大小决定每个特征方向上的"放大/收缩速率",长期行为被最大模的特征值主导(称为"主特征值"或 dominant eigenvalue)。Google PageRank 就是这个现象。


打开"二次型等值线"看到的椭圆/双曲线是什么?

画的是 $f(v) = v^\top T v = a x^2 + (b+c) x y + d y^2$ 的等值线。这是 二次型(quadratic form),跟 $T$ 本身的对称化版本 $\tfrac{1}{2}(T + T^\top)$ 有关。观察:

记住的话一句:对称矩阵的特征向量 = 二次型等值椭圆的主轴。5A 还没讲这个,但已经在图上看到了。


3D 里不变子空间长什么样?

3×3 实矩阵有两种可能:

下面这个 Three.js 场景:立方体被 $T$ 变形,黄色双向箭头 = 实特征方向,红色半透平面 = 复共轭对对应的不变平面。

特征方向(不变直线) 复共轭对(不变平面) 单位立方体被 $T$ 变形

矩阵 $T \in \mathbf{R}^{3 \times 3}$

特征值 / 特征向量

Space 暂停相机动画,R 复位相机。试"绕 z 轴 90°"——只有 z 轴方向是实特征,xy 平面整块是复特征的不变平面(你在空间里转它,它还是整块平面)。


如果有两个不同特征值 $\lambda_1, \lambda_2$,它们的特征向量会不会"撞车"(线性相关)?

不会。这是 5A 的核心结构定理:

5.11 独立性. 设 $\lambda_1, \ldots, \lambda_m$ 是 $T$ 的两两不同的特征值,$v_1, \ldots, v_m$ 是对应的非零特征向量。则 $v_1, \ldots, v_m$ 在 $V$ 中线性无关。

证明(反证 + 最短相关):假设它们相关,取最短的非平凡线性关系

$$ a_1 v_1 + a_2 v_2 + \cdots + a_k v_k = 0 \quad (\text{所有 } a_i \neq 0, \ k \text{ 最小}) $$

两边同时作用 $(T - \lambda_k I)$。因为 $T v_i = \lambda_i v_i$,所以 $(T - \lambda_k I) v_i = (\lambda_i - \lambda_k) v_i$。代入得:

$$ a_1 (\lambda_1 - \lambda_k) v_1 + \cdots + a_{k-1} (\lambda_{k-1} - \lambda_k) v_{k-1} + 0 = 0 $$

注意 $v_k$ 项没了(因为 $\lambda_k - \lambda_k = 0$),而前面 $k-1$ 项的系数 $a_i(\lambda_i - \lambda_k)$ 都非零($a_i \neq 0$ 且 $\lambda_i \neq \lambda_k$)。这样得到了一个更短的非平凡关系,与 "$k$ 最小"矛盾。


那么 $T$ 的特征值个数有上限吗?

有。Q11 的直接推论:

5.13 推论. 有限维 $V$ 上的每个算子 $T$ 至多有 $\dim V$ 个不同的特征值。

理由:不同特征值对应的特征向量线性无关,而 $V$ 里互相独立的向量不能超过 $\dim V$ 个。

推广:$n$ 维空间上的算子恰好有 $n$ 个不同特征值时(在复数域),特征向量构成 $V$ 的一组基——$T$ 在这组基下是对角矩阵。这就是 5D 节"可对角化"的源头。


5A 一共要记住哪些"底子定理"?

按重要性:

5.7 刻画. $\lambda$ 是特征值 $\iff T - \lambda I$ 不可逆。
作用:把"找特征值"变成"找使 $T - \lambda I$ 不可逆的 $\lambda$",等价于求 $\det(T - \lambda I) = 0$ 的根。
5.11 独立性. 不同特征值对应的特征向量线性无关。
作用:铺垫 5.13 + 5D 的对角化。
5.13 推论. 特征值个数 ≤ $\dim V$。
作用:给特征谱装个"天花板"。
5.19 存在性(仅复域). 非零有限维复空间上每个算子有特征值。
作用:复数域是"线性代数的自然栖息地"——没有它 Jordan 分解、谱定理之类都讲不通。

练习(Axler 5A Exercises, p.140–142 & p.149–152)


学这个到底有什么用?

"特征值 + 不变子空间分解"是现代科技的万用钥匙之一。与其罗列十几个领域,这里讲两个最能说明 5A 力道的——一个最有名、一个对你作为投资者最直接。

应用 1 · Google PageRank:整个互联网的排名 = 一个特征向量

1998 年 Brin & Page 的博士论文核心:把互联网看成一张有向图($n$ 个网页做节点,链接做边)。定义转移矩阵 $M \in \mathbf{R}^{n \times n}$:$M_{ij}$ = "从网页 $j$ 跳到网页 $i$ 的概率"(均匀分配到 $j$ 的所有出链)。

问题:一个随机浏览的用户,长期看最可能停留在哪些页面?

答案:设稳态分布为 $x$,则 $x = Mx$——也就是 $M$ 的 $\lambda = 1$ 特征向量。把 $x$ 的分量按大小排序,就是整个互联网的权威度排名。

这正是 Q8 那个迭代系统 $x_{t+1} = Mx_t$ 的稳态:反复应用 $T$(此处是 $M$),最终所有起点都收敛到主特征向量方向。Google 第一版算法就是"算一个特征向量"——$n$ 大约是几十亿。

5A 的两个定理在这里直接起作用:5.19(存在性)保证特征值存在;5.11/5.13(独立性和上限)保证稳态在合适条件下唯一。

应用 2 · 利率曲线只有 3 个真实维度——PCA 在宏观交易里的核心用法

你每天看美债 2Y / 5Y / 10Y / 30Y 四个期限的收益率,表面上是 4 个独立的数。对它们每天的变化做协方差矩阵 $\Sigma$,再特征分解,会发现:

$\lambda_1 \approx 85\%$ 方差 → 特征向量 $\approx (1, 1, 1, 1)$ 水平(所有期限一起涨跌)
$\lambda_2 \approx 10\%$ 方差 → 特征向量 $\approx (-1, -0.5, 0.5, 1)$ 斜率(短端降、长端升)
$\lambda_3 \approx 3\%$ 方差 → 特征向量 $\approx (1, -1, -1, 1)$ 曲率(中段凹凸)
$\lambda_4 \approx$ 接近 0 → 剩余噪声

含义:整条收益率曲线的波动其实只有 3 个真实维度,剩下的是噪声。宏观利率交易员实际操作:

这就是 5A 思想最值钱的落地:把高维混乱的数据拆成几个正交的不变方向,每个方向是一个特征向量,重要性是对应的特征值。同样的操作换个数据源——股票协方差 → 因子模型、用户-物品评分 → 推荐系统、人脸像素 → Eigenface——逻辑一字不差。

为什么 5A 是地基:PCA 需要"特征值存在"(5.19)、"不同特征值的特征向量正交"(对称矩阵的加强版 5.11,到第 7 章谱定理)、"特征值个数 ≤ 维数"(5.13)。没有 5A 那几个定理,PCA 的可行性无从谈起。

5A 搞懂了,下一步?

5B 最小多项式(Minimal Polynomial):5.19 的证明里出现过的"让 $p(T)v = 0$ 的多项式 $p$",实际上有一个唯一的最小版本——就是最小多项式 $m(\lambda)$。它的根 恰好就是 $T$ 的所有特征值(重数需单独看)。学完 5B 你就有了:

再往后 5C 上三角矩阵5D 可对角化5E 可交换算子 都是围绕"把 $T$ 在合适基下化简"展开——而所有这些化简,本质都是在找 $V$ 的不变子空间直和分解。5A 是整章的"DNA"。


★ 轮到你了——自测 8 题

每题至少想 3 分钟再看答案。"提示"里是破题方向,"答案"里是完整推理。难度标签:★ 概念/简单计算 · ★★ 证明 · ★★★ 综合思考。

E1 ★判断题:哪些一定是 $T$-不变子空间?

对任意 $T \in \mathcal{L}(V)$,判断下列子空间是否一定是 $T$-不变的:

(a) $\{0\}$     (b) $V$     (c) $\operatorname{null} T$     (d) $\operatorname{range} T$     (e) 任一特征空间 $E_\lambda = \{v : Tv = \lambda v\}$

提示

逐个用定义 $T(U) \subseteq U$ 验证。对 (c) 问自己:$u \in \operatorname{null} T$ 说明 $Tu = 0$,那 $Tu$ 还在 $\operatorname{null} T$ 里吗?

答案

全部都是(五个都一定 $T$-不变)。

(a) $T(0) = 0 \in \{0\}$ ✓

(b) $T(V) \subseteq V$ 显然 ✓

(c) $u \in \operatorname{null} T \Rightarrow Tu = 0 \in \operatorname{null} T$ ✓

(d) $u = Tv$ 对某 $v$,则 $Tu = T(Tv) = T^2v \in \operatorname{range} T$ ✓

(e) $v \in E_\lambda \Rightarrow Tv = \lambda v \in E_\lambda$($E_\lambda$ 对数乘封闭)✓

E2 ★计算:找出所有 1 维 $T$-不变子空间

设 $T : \mathbf{R}^2 \to \mathbf{R}^2$ 对应矩阵 $\begin{pmatrix} 4 & -2 \\ 1 & 1 \end{pmatrix}$。求:

(a) 所有特征值     (b) 对应的特征向量     (c) $\mathbf{R}^2$ 里所有 1 维 $T$-不变子空间

提示

$p(\lambda) = \det(T - \lambda I)$。求根,然后对每个 $\lambda$ 解 $(T - \lambda I)v = 0$。

答案

$p(\lambda) = (4-\lambda)(1-\lambda) - (-2)(1) = \lambda^2 - 5\lambda + 6 = (\lambda-2)(\lambda-3)$

$\lambda_1 = 2$:解 $(T-2I)v = 0$,即 $\begin{pmatrix} 2 & -2 \\ 1 & -1 \end{pmatrix} v = 0$,得 $v_1 = (1, 1)$。

$\lambda_2 = 3$:解 $(T-3I)v = 0$,即 $\begin{pmatrix} 1 & -2 \\ 1 & -2 \end{pmatrix} v = 0$,得 $v_2 = (2, 1)$。

1 维 $T$-不变子空间正好 两条:$\operatorname{span}(1,1)$ 和 $\operatorname{span}(2,1)$。可以在上面的 2D 画布上输入 $a=4, b=-2, c=1, d=1$ 验证——两条黄色虚线斜率分别为 1 和 1/2。

E3 ★★反例构造?

能不能找到 $T \in \mathcal{L}(\mathbf{R}^2)$ 和一个非平凡子空间 $U$($U \neq \{0\}$ 且 $U \neq \mathbf{R}^2$),使得 $U$ 是 $T$-不变的,但 $U$ 里不包含任何特征向量?

提示

$\mathbf{R}^2$ 的非平凡子空间维数只能是 1。1 维子空间被 $T$ 保持是什么意思?

答案

不能。$\mathbf{R}^2$ 里非平凡子空间必是 1 维,记 $U = \operatorname{span}(u)$。$T$-不变 $\iff T u \in U \iff Tu = \lambda u$ 对某 $\lambda$——这正是 $u$ 是特征向量的定义!

教训:在 1 维子空间里,"不变"与"由特征向量张成"是同一件事。不变子空间的概念只有在 $\dim U \geq 2$ 时才与特征向量概念有本质的区别。

E4 ★★证明:若 $T^2 = I$,则 $V = V_1 \oplus V_{-1}$

设 $T \in \mathcal{L}(V)$ 满足 $T^2 = I$(这种算子叫 involution,例如反射)。证明 $V = V_1 \oplus V_{-1}$,其中 $V_\lambda = \{v : Tv = \lambda v\}$。

提示

构造性思路:把任意 $v$ 分解成 $v_+ + v_-$,其中 $v_+ \in V_1$、$v_- \in V_{-1}$。尝试 $v_+ = \tfrac{1}{2}(v + Tv)$。

答案

存在性:对任意 $v \in V$,令 $v_+ = \tfrac{1}{2}(v + Tv)$、$v_- = \tfrac{1}{2}(v - Tv)$。

验证 $v_+ \in V_1$:$Tv_+ = \tfrac{1}{2}(Tv + T^2 v) = \tfrac{1}{2}(Tv + v) = v_+$。✓

验证 $v_- \in V_{-1}$:$Tv_- = \tfrac{1}{2}(Tv - T^2 v) = \tfrac{1}{2}(Tv - v) = -v_-$。✓

显然 $v_+ + v_- = v$。所以 $V = V_1 + V_{-1}$。

唯一性:若 $v \in V_1 \cap V_{-1}$,则 $v = Tv = -v$,故 $2v = 0 \Rightarrow v = 0$(假设 $\operatorname{char} \mathbf{F} \neq 2$)。所以和是直和。∎

:这是 Axler 第 8 章谱定理的"迷你版"——任何满足 $T^2 = I$ 的算子都能对角化,特征值 $\pm 1$。反射、奇偶函数分解都是这个。

E5 ★★证明:$T$ 可逆 $\iff$ $0$ 不是 $T$ 的特征值

设 $V$ 有限维,$T \in \mathcal{L}(V)$。证明:$T$ 可逆当且仅当 $0$ 不是 $T$ 的特征值。进一步,若 $\lambda$ 是可逆 $T$ 的特征值,则 $1/\lambda$ 是 $T^{-1}$ 的特征值。

提示

第一部分用定理 5.7:$0$ 是特征值 $\iff T - 0\cdot I = T$ 不可逆。第二部分两边作用 $T^{-1}$。

答案

第一部分:由 5.7,$0$ 是 $T$ 的特征值 $\iff T - 0I = T$ 不可逆。取逆否命题即得。

第二部分:设 $Tv = \lambda v$ 且 $\lambda \neq 0$。两边作用 $T^{-1}$:$v = \lambda T^{-1} v$,即 $T^{-1} v = \tfrac{1}{\lambda} v$。所以 $\tfrac{1}{\lambda}$ 是 $T^{-1}$ 的特征值,特征向量与 $T$ 的相同。∎

E6 ★★证明 $T^2$ 的特征值集合关系(Axler Ex 5A-9 变体)

证明:若 $\lambda$ 是 $T$ 的特征值,则 $\lambda^2$ 是 $T^2$ 的特征值。反过来呢?——若 $\mu$ 是 $T^2$ 的特征值,$\mu$ 一定能写成某个 $T$ 的特征值的平方吗?分别在 $\mathbf{R}$ 和 $\mathbf{C}$ 上讨论。

提示

正向:$Tv = \lambda v \Rightarrow T^2 v = \lambda T v = \lambda^2 v$。反向:考虑 $(T^2 - \mu I) = (T - \sqrt\mu I)(T + \sqrt\mu I)$,问 $\sqrt\mu$ 在不在 $\mathbf{F}$ 里。

答案

正向:$Tv = \lambda v \Rightarrow T^2 v = T(\lambda v) = \lambda Tv = \lambda^2 v$,所以 $\lambda^2$ 是 $T^2$ 的特征值,$v$ 仍是对应特征向量。

反向 · $\mathbf{C}$ 上:$\mu$ 是 $T^2$ 的特征值 $\iff T^2 - \mu I$ 不可逆 $\iff (T - \sqrt\mu I)(T + \sqrt\mu I)$ 不可逆(这里 $\sqrt\mu \in \mathbf{C}$ 总存在)。因子的积不可逆 $\Rightarrow$ 至少一个因子不可逆 $\Rightarrow \pm\sqrt\mu$ 至少一个是 $T$ 的特征值。于是等号成立:$\text{spec}(T^2) = \{\lambda^2 : \lambda \in \text{spec}(T)\}$。

反向 · $\mathbf{R}$ 上:若 $\mu < 0$,$\sqrt\mu$ 不在 $\mathbf{R}$ 里,上述分解在 $\mathbf{R}[T]$ 里做不出来。反例:$T = \begin{pmatrix}0 & -1 \\ 1 & 0\end{pmatrix}$(90° 旋转)。$T^2 = -I$,$-1$ 是 $T^2$ 的特征值。但 $T$ 在 $\mathbf{R}$ 上根本没特征值,更谈不上平方等于 $-1$。

E7 ★★★综合:投影算子的特征值只能是 0 和 1

$P \in \mathcal{L}(V)$ 称为 投影(idempotent),如果 $P^2 = P$。证明:

(a) $P$ 的特征值只可能是 $0$ 或 $1$;

(b) $V = \operatorname{null} P \oplus \operatorname{range} P$,且 $\operatorname{null} P = E_0$、$\operatorname{range} P = E_1$。

提示

(a) 从 $Pv = \lambda v$ 出发,两边再作用 $P$。 (b) 构造 $v = (v - Pv) + Pv$,对应分解到 null 和 range。

答案

(a) 设 $Pv = \lambda v$($v \neq 0$)。两边作用 $P$:$P^2 v = \lambda Pv = \lambda^2 v$。又 $P^2 = P$,故 $\lambda v = \lambda^2 v$,即 $(\lambda - \lambda^2) v = 0$。$v \neq 0 \Rightarrow \lambda(\lambda - 1) = 0 \Rightarrow \lambda \in \{0, 1\}$。

(b) 存在性:$v = (v - Pv) + Pv$。

    $v - Pv \in \operatorname{null} P$,因 $P(v - Pv) = Pv - P^2 v = Pv - Pv = 0$。

    $Pv \in \operatorname{range} P$。

唯一性:若 $w \in \operatorname{null} P \cap \operatorname{range} P$,则 $w = Pu$ 对某 $u$,且 $Pw = 0$,即 $P^2 u = 0 \Rightarrow Pu = 0 \Rightarrow w = 0$。

再证 $\operatorname{null} P = E_0$、$\operatorname{range} P = E_1$:

    $v \in \operatorname{null} P \iff Pv = 0 = 0 \cdot v \iff v \in E_0$。

    $v \in \operatorname{range} P \iff v = Pu \Rightarrow Pv = P^2 u = Pu = v$,即 $v \in E_1$;反之 $v \in E_1 \Rightarrow v = Pv \in \operatorname{range} P$。∎

:投影算子总可对角化——在 $E_1$ 上取基、$E_0$ 上取基拼起来就是对角矩阵 $\operatorname{diag}(1, \ldots, 1, 0, \ldots, 0)$。所以 Axler Ex 5A-2 问的是"沿 $W$ 投影到 $U$"算子的特征值——直接是 1 和 0。

E8 ★★★开放思考:90° 旋转的 $\pm i$ 到底是什么?

$T = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}$ 在 $\mathbf{R}^2$ 上没特征值,在 $\mathbf{C}^2$ 上有 $\lambda = \pm i$,对应特征向量 $v_{\pm} = (1, \mp i)$。

问题:这些复特征向量在物理/几何上代表什么? 和实际的 90° 旋转有什么联系?

提示

把 $v_+ = (1, -i)$ 写成 $\operatorname{Re} v_+ + i \operatorname{Im} v_+ = (1, 0) + i(0, -1)$,再看 $T$ 作用。复特征值 $i = e^{i\pi/2}$ 的模是 1,幅角是 $90°$——这跟旋转的几何参数一模一样!

答案(一种理解)

复特征向量 $v_+ = (1, -i)$ 对应"一个实平面旋转的复表示"。具体:

把 $\mathbf{R}^2 \cong \mathbf{C}$(即把点 $(x, y)$ 看成 $z = x + iy$)。此时 $T$ 就是 $z \mapsto iz$——也就是说,90° 旋转在复数的语言里就是乘以 $i$

$i$ 本来就是"模 1、幅角 $\pi/2$"的复数。特征值 $i$ 的几何 = 每作用一次把幅角转 $90°$、长度不变。这正好是旋转的定义!

推广:任意 2×2 旋转矩阵 $R_\theta$ 的复特征值是 $e^{\pm i\theta}$。模 1(等距)、幅角 $\pm\theta$(每作用一次转 $\theta$)。特征值的模 = 缩放,幅角 = 旋转角。实数特征值(正/负)是"0 或 180°"这种退化旋转。

链接到工程:AC 电路、傅里叶变换、量子力学中的酉算子都用这个——一个实的"有旋转的系统"被复特征值自然描述。

完成度自检:E1-E3 全对 = 定义和几何直觉通了;E4-E6 能证明 = 能把定义变成推理;E7-E8 能搞清 = 对 "复特征值到底代表什么"有直觉了。后面 5B-5E 会反复用这些思想。