Axler 7 · The Spectral Theorem

符号	念作	含义	类型
$V$	V	有限维内积空间（inner product space，$\mathbf{R}$ 或 $\mathbf{C}$ 上）	空间 + 内积
$\langle u, v \rangle$	u, v 的内积	$V$ 上的内积。$\mathbf{R}$ 上是 $u \cdot v$；$\mathbf{C}$ 上 $\langle u, v\rangle = \sum_i u_i \overline{v_i}$	$\mathbf{F}$ 中的数
$\\|v\\|$	v 的范数	$\sqrt{\langle v, v\rangle}$	$\geq 0$ 的实数
$T \in \mathcal{L}(V)$	V 上的算子	线性算子 $V \to V$	算子
$T^*$	T 的伴随（adjoint）	唯一的算子满足 $\langle Tu, v\rangle = \langle u, T^* v\rangle$ 对所有 $u, v \in V$	算子
自伴	self-adjoint / Hermitian	$T^* = T$。$\mathbf{R}$ 上等价于"矩阵对称"，$\mathbf{C}$ 上是"Hermitian"	算子的性质
正规	normal	$T T^* = T^* T$（与伴随可交换）。比自伴更宽，包括酉算子、斜自伴等	算子的性质
酉 / 正交	unitary / orthogonal	$T^* T = I$（保距算子）。$\mathbf{R}$ 上叫正交矩阵（$Q^\top Q = I$），$\mathbf{C}$ 上叫酉	算子的性质
正交规范基	orthonormal basis (ONB)	$V$ 的一组基 $(e_1, \ldots, e_n)$ 满足 $\langle e_i, e_j\rangle = \delta_{ij}$	特殊基
$E(\lambda, T)$	特征空间	$\{v : Tv = \lambda v\}$	$V$ 的子空间
$Q$	正交/酉矩阵	列是正交规范特征向量的矩阵，满足 $Q^{-1} = Q^*$（或 $Q^\top$）	矩阵
$Q^* T Q = D$	正交对角化	$T$ 和对角矩阵 $D$ 通过正交/酉矩阵相似——比一般对角化严格	矩阵方程
$\sigma_i$	sigma i（奇异值）	$T^* T$ 的特征值的平方根。用于 SVD	$\geq 0$ 实数
$\delta_{ij}$	delta i j	Kronecker 符号：$i = j$ 时 $= 1$，否则 $= 0$	0 或 1

什么是"伴随算子" $T^*$？

这是 Ch 7 所有故事的起点。内积空间让我们可以讨论"角度"和"正交"——伴随算子就是内积结构自然诱导出来的对偶算子。

7.2 定义. 设 $V$ 是有限维内积空间、$T \in \mathcal{L}(V)$。$T$ 的伴随（adjoint）$T^*$ 是唯一的算子 $V \to V$ 满足 $$ \langle Tu, v\rangle = \langle u, T^* v\rangle \quad \text{对所有 } u, v \in V. $$

存在性 + 唯一性：由 Riesz 表示定理，这样的 $T^*$ 存在且唯一（每个线性泛函 $v \mapsto \langle Tu, v\rangle$ 可写成 $\langle \cdot, w\rangle$ 某个 $w$，这个 $w$ 就是 $T^* v$）。

矩阵形式（在正交规范基下）：

$\mathbf{R}$ 上：$T^*$ 的矩阵 = $T$ 矩阵的转置 $T^\top$
$\mathbf{C}$ 上：$T^*$ 的矩阵 = $T$ 矩阵的共轭转置 $\overline{T^\top}$

直觉：伴随 = "内积关系下的镜像"。任何关于 $T$ 的性质都有一个对应的"伴随版本"——$T$ 的零空间 = $T^*$ 的像的正交补 ($\operatorname{null} T = (\operatorname{range} T^*)^\perp$)；$T$ 的像 = $T^*$ 的零空间的正交补。

"自伴" 和 "正规" 区别在哪？

这两个定义的关系像"正方形 vs 长方形"——自伴是正规的特例。

7.5 定义（自伴）. $T$ 是自伴（self-adjoint），当且仅当 $T^* = T$。

7.18 定义（正规）. $T$ 是正规（normal），当且仅当 $TT^* = T^* T$（$T$ 与 $T^*$ 可交换）。

显然自伴 $\Rightarrow$ 正规（$T T = T T$ 自动成立）。反之不成立。

正规但不自伴的例子：

酉算子 $U$（$U^* U = I$）：$U^* = U^{-1}$，$U U^* = U^* U = I$，正规。但 $U \neq U^*$ 一般（比如 2D 旋转 $R_\theta$：$R_\theta^* = R_{-\theta} \neq R_\theta$）
斜自伴（skew-adjoint）：$T^* = -T$。也正规，但不自伴
一般形式：$T = \alpha I + \beta S$，其中 $S$ 自伴、$\alpha, \beta$ 复数——在 $\mathbf{C}$ 上所有正规算子都是这个形式的推广

非正规的例子：剪切 $\begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$。$T^\top = \begin{pmatrix}1 & 0 \\ 1 & 1\end{pmatrix}$，$T^\top T = \begin{pmatrix}1 & 1 \\ 1 & 2\end{pmatrix}$，$TT^\top = \begin{pmatrix}2 & 1 \\ 1 & 1\end{pmatrix}$——不相等。所以不正规。

为什么正规重要：Ch 7 的核心定理（谱定理）会告诉你——正规算子在 $\mathbf{C}$ 上等价于"存在正交规范特征基"，自伴在 $\mathbf{R}$ 上等价于"存在正交规范特征基且特征值都是实数"。

自伴算子的特征值为什么一定是实数？

即使在复空间 $V$ 上，自伴算子的特征值也全是实数。这是 Ch 7 的第一个"漂亮"结论：

7.13 定理. 自伴算子的特征值都是实数。

一行证明：设 $Tv = \lambda v$，$v \neq 0$。考虑 $\langle Tv, v\rangle$：

左边：$\langle Tv, v\rangle = \langle \lambda v, v\rangle = \lambda \langle v, v\rangle = \lambda \|v\|^2$
右边：$\langle Tv, v\rangle = \langle v, T^* v\rangle = \langle v, Tv\rangle = \langle v, \lambda v\rangle = \overline{\lambda} \langle v, v\rangle = \overline{\lambda} \|v\|^2$

所以 $\lambda \|v\|^2 = \overline{\lambda} \|v\|^2$。因 $\|v\|^2 \neq 0$，有 $\lambda = \overline{\lambda}$，即 $\lambda \in \mathbf{R}$。∎

物理意义：量子力学里可观测量（位置、动量、能量、自旋）都由自伴算子表示；测量值永远是实数 这件事是物理定律——数学上正好对应"自伴算子特征值为实"。

附赠：同样的技巧证不同特征值的特征向量互相正交（7.21）：设 $Tv_i = \lambda_i v_i$，$\lambda_1 \neq \lambda_2$，都实数（前面结论）。用 $\langle Tv_1, v_2\rangle$：

$\lambda_1 \langle v_1, v_2\rangle = \langle \lambda_1 v_1, v_2\rangle = \langle Tv_1, v_2\rangle = \langle v_1, Tv_2\rangle = \langle v_1, \lambda_2 v_2\rangle = \lambda_2 \langle v_1, v_2\rangle$

$(\lambda_1 - \lambda_2) \langle v_1, v_2\rangle = 0 \Rightarrow \langle v_1, v_2\rangle = 0$。特征向量自动正交——这是谱定理的"一半"。

亲眼看自伴/正规算子的谱分解（2D）

滑杆改 $T = \begin{pmatrix}a&b\\c&d\end{pmatrix}$。按钮下"对称化"会自动令 $c = b$ 把矩阵变成对称（实自伴）。观察：

对称矩阵：两条紫色箭头（正交规范特征基 $(e_1, e_2)$）严格垂直；椭圆主轴正好沿它们方向
非对称但正规（如旋转）：特征值为复数，实平面里没实特征向量
非正规（如剪切）：特征线不正交（甚至只有一条）

右侧读出 $T^\top T$ vs $T T^\top$ 的差，如果为零就是正规。

单位圆像（椭圆）特征方向正交规范基 (ONB)

$Tv$ 位移特征方向正交规范基 (自伴时)

矩阵 $T = \begin{pmatrix}a & b\\c & d\end{pmatrix}$

a2.00

b1.00

c1.00

d2.00

正规性检测

谱分解 $Q^\top T Q = D$

复谱定理（$\mathbf{C}$ 上）到底说了什么？

7.24 复谱定理. 设 $V$ 是有限维复内积空间、$T \in \mathcal{L}(V)$。以下等价：

(1) $T$ 是正规的（$TT^* = T^* T$）
(2) $V$ 有一组由 $T$ 的特征向量组成的正交规范基
(3) 存在酉矩阵 $Q$ 使 $Q^* T Q$ 是对角矩阵

翻译：在复空间里，正规就是"能被酉对角化"的充要条件。比可对角化（5D）更严格——不仅有特征基，而且特征基可选正交规范。

为什么说正规是恰好的条件：反向方向比较显然（有正交规范特征基 $\Rightarrow$ $T$ 在该基下对角 $\Rightarrow T, T^*$ 都是对角的 $\Rightarrow$ 可交换 $\Rightarrow$ 正规）。正向（正规 $\Rightarrow$ 有 ONB 特征基）是谱定理的核心，Q12 给证明骨架。

非正规的惩罚：剪切在 $\mathbf{C}$ 上也不能被酉对角化（虽然是上三角化过的）。Jordan 块是最经典的"非正规"反例。

实谱定理（$\mathbf{R}$ 上）呢？

实数域下，"正规"还不够——因为实正规矩阵可能有复特征值（如旋转），那在 $\mathbf{R}$ 上没有实特征基。需要更强的条件：自伴。

7.29 实谱定理. 设 $V$ 是有限维实内积空间、$T \in \mathcal{L}(V)$。以下等价：

(1) $T$ 是自伴的（$T^* = T$，即矩阵对称）
(2) $V$ 有一组由 $T$ 的特征向量组成的正交规范基，且所有特征值 $\in \mathbf{R}$
(3) 存在正交矩阵 $Q$（$Q^\top Q = I$）使 $Q^\top T Q$ 是对角矩阵

写成矩阵方程，这是数据科学最常引用的一条公式：

设 $A \in \mathbf{R}^{n \times n}$ 对称，则存在正交矩阵 $Q$ 和实对角矩阵 $\Lambda$ 使 $A = Q \Lambda Q^\top$

三件事一起打包：

$A$ 必可对角化
特征向量可选成两两正交的
所有特征值都是实数

对比 5D：一般的"可对角化"（5D）只保证存在特征基、不保证正交、不保证特征值实。谱定理把这三条同时升级——自伴算子是"完美版"的可对角化算子。

自伴算子的几何图像："旋转—拉伸—旋转"

把谱定理 $A = Q \Lambda Q^\top$ 从右往左读，就是任何对称算子的三步分解：

$A v \;=\; Q \,\bigl[\Lambda \,(Q^\top v)\bigr]$

Step 1（$Q^\top v$）：先把向量 $v$ 用特征基坐标表示（这是一次正交变换，相当于刚性旋转/反射）
Step 2（$\Lambda(\cdots)$）：在特征基下，算子就是 $\operatorname{diag}(\lambda_1, \ldots, \lambda_n)$——沿每根特征轴独立拉伸 $\lambda_i$ 倍
Step 3（$Q(\cdots)$）：把坐标转回标准基（反向的正交变换）

视觉总结：对称矩阵作用在 $v$ 上 = "旋转到特征方向 → 各方向独立缩放 → 旋转回来"。这是整个线性代数里最漂亮的结构分解。

在上面 2D 画布观察：按"对称（自伴）"预设。单位圆被 $T$ 变成椭圆：

椭圆的两根主轴方向 = 特征方向（紫色）
主轴长度 = 特征值的绝对值（因为沿该方向拉伸 $\lambda_i$ 倍）
椭圆没被"倾斜"（两根主轴正交）

按"旋转"预设则完全不同——单位圆还是圆（等距保持），没有拉伸方向；按"剪切"时椭圆出现但主轴不正交，因为剪切不是对称的。

3D 里谱分解是什么样？（椭球可视化）

3×3 实对称矩阵 $A$ 把单位球 $\{v : \|v\| = 1\}$ 变成椭球，三根主轴正好沿 3 个互相正交的特征向量方向，主轴半径等于 $|\lambda_i|$。

下面的 Three.js 场景：你改 3×3 矩阵，脚本会自动将其对称化（$\frac{1}{2}(A + A^\top)$）然后可视化：

黄色主轴：3 个正交特征方向 $e_1, e_2, e_3$，长度 $= |\lambda_i|$
橙色椭球：单位球 $\{v : \|v\| = 1\}$ 被 $A$ 变换后的样子
蓝色线框球：原单位球（参照）

拖动鼠标旋转视角。Space 暂停，R 复位相机。

正交特征轴椭球（$A$ 作用后的单位球）

矩阵 $A$（自动对称化 $\tfrac{1}{2}(A + A^\top)$）

正交特征分解

为什么"正交"这件事比"可对角化"值钱得多？

一般对角化 $T = P D P^{-1}$ 和正交对角化 $T = Q \Lambda Q^\top$ 只差一个字母，但应用上天壤之别。三个关键优势：

1. 数值稳定

一般 $P$ 可能接近奇异（条件数大），$P^{-1}$ 计算放大噪声。正交矩阵 $Q$ 的条件数永远 $= 1$——数值完美。这是为什么 LAPACK 的 dsyevr（对称特征分解）是所有特征值算法里最稳定、最快的。

2. 几何保持

正交矩阵 $Q$ 保持长度和角度：$\|Qv\| = \|v\|$、$\langle Qu, Qv\rangle = \langle u, v\rangle$。$Q^\top T Q = \Lambda$ 这种变换就是"换一副眼镜看 $T$，眼镜本身不扭曲距离"。在物理学、工程学里这意味着能量守恒、质量守恒等物理不变量被保留。

3. 最优低秩近似（Eckart-Young）

若 $A = Q \Lambda Q^\top$，保留最大 $k$ 个特征值对应的特征向量做 $A_k = Q_k \Lambda_k Q_k^\top$，则 $A_k$ 是所有秩 $\leq k$ 矩阵中与 $A$ 距离最小的（Frobenius 或谱范数意义下）。这直接是 PCA 和 SVD 的精髓——主成分截断 = 最优降维。

4. 勾股分解

由 $V = E(\lambda_1) \oplus \cdots \oplus E(\lambda_m)$ 且各特征空间两两正交，任意 $v$ 可唯一分解成正交投影之和：$v = \sum_i P_{E(\lambda_i)} v$。这是傅里叶分析、小波变换、多尺度分析的共同模板。

Rayleigh 商：特征值的极值刻画

对自伴 $A$ 和非零向量 $v$，定义Rayleigh 商：

$R_A(v) \;=\; \dfrac{\langle A v, v\rangle}{\langle v, v\rangle} \;=\; \dfrac{v^\top A v}{v^\top v}$

Rayleigh 定理. 设 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n$ 是 $A$ 的实特征值。则 $$ \lambda_1 \;=\; \max_{v \neq 0} R_A(v), \quad \lambda_n \;=\; \min_{v \neq 0} R_A(v). $$ 最大值在最大特征值对应的特征向量方向取得，最小值类似。

证明思路：在正交规范特征基 $(e_1, \ldots, e_n)$ 下写 $v = \sum c_i e_i$。则 $\langle v, v\rangle = \sum c_i^2$、$\langle Av, v\rangle = \sum \lambda_i c_i^2$（用 $A e_i = \lambda_i e_i$ 和正交性）。所以 $R_A(v) = \sum \lambda_i c_i^2 / \sum c_i^2$ 是特征值的凸组合（权重 $c_i^2 / \sum c_j^2$），取极值时全权重压到 $\lambda_1$ 或 $\lambda_n$ 对应的 $e_i$。

应用：

PCA 的第一主成分：方差最大化方向 $\arg\max_{\|v\|=1} v^\top \Sigma v$，由 Rayleigh 直接给出就是 $\Sigma$ 的最大特征值对应的特征向量
量子力学的基态：$H$ 的基态能量 $E_0 = \min_\psi R_H(\psi)$，变分方法的基础
图的 Fiedler vector：拉普拉斯矩阵 $L$ 的第二小特征值及其特征向量——谱聚类的算法内核

SVD：谱定理对"任何矩阵"的推广

谱定理要求算子自伴/正规，才能正交对角化。但如果 $A$ 是任意矩阵（甚至不方阵），怎么办？—— SVD 出场。

7E 奇异值分解 (SVD). 设 $A \in \mathbf{R}^{m \times n}$ 是任意矩阵。存在：

$U \in \mathbf{R}^{m \times m}$ 正交
$V \in \mathbf{R}^{n \times n}$ 正交
$\Sigma \in \mathbf{R}^{m \times n}$ 对角非负（奇异值 $\sigma_1 \geq \cdots \geq \sigma_r > 0$ 按降序排列，其余 0）

使得 $A = U \Sigma V^\top$。

几何三步（SVD 对任何线性映射的普适描述）：

$V^\top$：在源空间 $\mathbf{R}^n$ 里做正交变换（旋转）
$\Sigma$：沿 $n$ 根源轴独立拉伸（奇异值 $\sigma_i \geq 0$），可能嵌入到更高维或丢到更低维
$U$：在目标空间 $\mathbf{R}^m$ 里做另一次正交变换

与谱定理的精确关系：奇异值是 $A^\top A$ 特征值的平方根（$A^\top A$ 总是对称半正定，可谱分解）。写成：

$A^\top A = V \Sigma^\top \Sigma V^\top = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_r^2, 0, \ldots) V^\top$

所以 SVD = "对 $A^\top A$（或 $A A^\top$）应用谱定理" 再拼起来。谱定理是"对称方阵的全套"，SVD 是"一般矩阵的可用全套"。

实用价值：数据矩阵 $X$（$n$ 样本 × $p$ 特征）的 SVD 给出 PCA、潜在因子模型、图像压缩、推荐系统、伪逆（$A^+ = V \Sigma^+ U^\top$）、秩计算……所有"近似线性代数"的工具。

谱定理证明骨架（为什么正规 ⇒ 正交特征基）

证明分三步（以复谱定理为例）：

Step 1：正规算子在 1 维不变子空间上作用为标量

对复有限维 $V$、正规 $T$，由 5.19（复域下每个算子有特征值）取特征向量 $v_1$。考虑子空间 $U = \operatorname{span}(v_1)$ 和其正交补 $U^\perp$。

Step 2：正规 ⇒ $U^\perp$ 也是 $T$-不变

关键引理：若 $T$ 正规、$U$ 是 $T$-不变，则 $U^\perp$ 也是 $T$-不变。

证：对 $w \in U^\perp$、$u \in U$。要证 $Tw \in U^\perp$，即 $\langle Tw, u\rangle = 0$。用 $\langle Tw, u\rangle = \langle w, T^* u\rangle$。如果能证 $T^* u \in U$ 就行。

再证 $U$ 也是 $T^*$-不变（用正规性 + 一个小引理：$\|Tv\| = \|T^* v\|$ 对正规 $T$ 成立）。跳过细节。

Step 3：归纳降维

$T$ 限制到 $U^\perp$（维度 $n - 1$）仍然正规（伴随性质保持）。对 $T|_{U^\perp}$ 归纳——继续找特征向量、取其正交补……一路降维。最终得到 $n$ 个两两正交的特征向量 $v_1, \ldots, v_n$。正规化（除以各自范数）就是正交规范特征基。∎

实谱定理（7.29）的证明稍更曲折，因为实域下"特征值存在"不保证。Axler 用的是"2D 不变子空间"技巧（任何实算子都有 1 或 2 维不变子空间），再配合"自伴 ⇒ 2D 不变子空间可拆成两个 1D"这个关键步骤。具体见 Axler 7.27、7.29 或者自查。

Ch 7 (谱定理部分) 要记住哪些底子定理？

7.2 伴随. $T^*$ 是唯一满足 $\langle Tu, v\rangle = \langle u, T^* v\rangle$ 的算子，在 ONB 下矩阵是共轭转置

7.13 实特征值. 自伴算子的所有特征值都是实数

7.21 特征向量正交. 自伴算子的不同特征值对应的特征向量互相正交

7.24 复谱定理. 复内积空间上，$T$ 正规 $\iff$ 有正交规范特征基 $\iff$ 酉对角化

7.29 实谱定理. 实内积空间上，$T$ 自伴 $\iff$ 有正交规范特征基且特征值全实 $\iff$ 正交对角化

7.35+ 正规算子刻画. $T$ 正规 $\iff \|Tv\| = \|T^* v\|$ 对所有 $v$

7E SVD. 任何 $A \in \mathbf{R}^{m \times n}$ 可分解为 $A = U \Sigma V^\top$，$U, V$ 正交、$\Sigma$ 对角非负

Axler 7A/7B 习题

Ex 7A-8：证 $(ST)^* = T^* S^*$
Ex 7A-13：$T$ 自伴 + $T$ 的所有特征值 $= 0$ ⇒ $T = 0$
Ex 7B-2：正规的 $T$ 满足 $T^k v = 0 \Rightarrow Tv = 0$

谱定理在实战里用来干嘛？

两个最硬核的应用——所有数据科学工具的根基。

应用 1 · PCA（主成分分析）

数据矩阵 $X \in \mathbf{R}^{n \times p}$（$n$ 样本、$p$ 特征，已中心化）。协方差矩阵 $\Sigma = \frac{1}{n} X^\top X \in \mathbf{R}^{p \times p}$ 天然对称半正定（$v^\top \Sigma v = \frac{1}{n}\|Xv\|^2 \geq 0$）。

谱定理给出 $\Sigma = Q \Lambda Q^\top$，其中：

$Q = [q_1, q_2, \ldots, q_p]$：正交，每列是一个主成分方向
$\Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_p)$，$\lambda_i \geq 0$：每个方向上的方差

投影降维：取前 $k$ 大的特征值对应的 $q_i$ 列组成 $Q_k \in \mathbf{R}^{p \times k}$，数据 $Y = X Q_k \in \mathbf{R}^{n \times k}$ 是 $k$ 维简化版，保留了最多方差。

由 Eckart-Young 定理，$Q_k$ 是所有 $p \to k$ 线性降维里方差最大、重构误差最小的选择。这是因子模型、Eigenface、t-SNE、各种表示学习的共同起点。

金融实例：美债 $\{2Y, 5Y, 10Y, 30Y\}$ 收益率的 $\Sigma$ 做谱分解：第 1 特征方向 $\approx (1, 1, 1, 1)$ 水平、第 2 $\approx (-1, -0.5, 0.5, 1)$ 斜率、第 3 $\approx (1, -1, -1, 1)$ 曲率，方差贡献分别 $\approx$ 85% / 10% / 3%。整条收益率曲线的波动只有 3 个真实维度。做 steepener 就是押注第 2 方向、butterfly 押注第 3。

应用 2 · 量子力学：可观测量必为自伴

物理公设：任何可测量的物理量（位置 $\hat X$、动量 $\hat P$、能量 $\hat H$、自旋 $\hat S_z$）对应于 Hilbert 空间上的自伴算子。测量该量时：

测量结果 = 算子的某个特征值 $\lambda_i$（7.13 保证 $\lambda_i \in \mathbf{R}$——必须是实数否则物理无意义）
测量后系统状态 $\psi$ 坍缩到 $\lambda_i$ 对应的特征向量 $\psi_i$
测到 $\lambda_i$ 的概率 $= |\langle \psi, \psi_i\rangle|^2$（要求 $\psi_i$ 正交规范——谱定理保证这件事总能办到）

Schrödinger 方程 $\hat H \psi = E \psi$ 就是能量算子的谱方程，解出来的特征值 $E_n$ 就是观测到的能级（氢原子 $-13.6/n^2$ eV、粒子在盒子里的 $n^2 \pi^2 \hbar^2 / (2mL^2)$ 等）。整个量子力学的数学骨架就是"自伴算子 + 谱定理 + Rayleigh 变分"。

一句话：谱定理说"任何对称的线性变换都可以用正交特征轴拆开看"——这是对称性 → 结构的最纯粹范例。从协方差矩阵到 Schrödinger 方程，只要底层数学对象有自伴性，谱定理就能给出一个干净的正交分解。

谱定理搞懂了，下一步？

两个方向：

7C 正算子（Positive Operators）：自伴且特征值 $\geq 0$。这是协方差矩阵、核矩阵、Gram 矩阵的共同抽象。Q 学到这里学 $\sqrt T$（算子的平方根）和 Cholesky 分解
7E SVD + 7F 后果：Q11 已经预告了 SVD 的存在；7E 是完整证明 + 几何图像，7F 给推论（低秩近似、伪逆、条件数、极分解）。强烈推荐——做数据科学/ML/金融建模的人这是日常工具

学完 SVD 后，线性代数的整张地图就完整了：

可对角化（5D）$\xrightarrow{+\text{正交}}$ 谱定理（7A-B）$\xrightarrow{+\text{一般矩阵}}$ SVD（7E）

剩下的只是专门化（PCA、LSI、PageRank、Kalman 滤波、LQ/QR 分解……）。

★ 轮到你了——自测 8 题

每题至少想 3 分钟再看答案。难度：★ 概念/简单计算 · ★★ 证明 · ★★★ 综合。

E1 ★判断：下列哪些是自伴、正规、酉？

(a) $\begin{pmatrix}2 & 1 \\ 1 & 3\end{pmatrix}$ (b) $\begin{pmatrix}0 & -1 \\ 1 & 0\end{pmatrix}$ (c) $\begin{pmatrix}1 & 2 \\ 0 & 1\end{pmatrix}$ (d) $\frac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ 1 & -1\end{pmatrix}$

提示

检查 $T^\top = T$（自伴）、$T^\top T = T T^\top$（正规）、$T^\top T = I$（酉）。

答案

(a) ✅ 自伴（$b=c=1$）、✅ 正规、❌ 非酉（$T^\top T = \begin{pmatrix}5 & 5 \\ 5 & 10\end{pmatrix} \neq I$）

(b) ❌ 非自伴（$T^\top \neq T$）、✅ 正规（$T^\top T = I = T T^\top$）、✅ 酉（$T^\top T = I$）—— 这就是 90° 旋转

(c) ❌ 非自伴、❌ 非正规（$T^\top T = \begin{pmatrix}1 & 2 \\ 2 & 5\end{pmatrix}$、$T T^\top = \begin{pmatrix}5 & 2 \\ 2 & 1\end{pmatrix}$——不等）、❌ 非酉

(d) ✅ 自伴、✅ 正规、✅ 酉（Hadamard 矩阵，常见于量子计算）

E2 ★手动谱分解 $A = \begin{pmatrix}2 & 1 \\ 1 & 2\end{pmatrix}$

找正交矩阵 $Q$ 和对角 $\Lambda$ 使 $A = Q \Lambda Q^\top$。

提示

先求特征值（用 $\det(A - \lambda I) = 0$）。然后对每个 $\lambda$ 解 $(A - \lambda I)v = 0$。最后把特征向量单位化（除以范数）得到正交规范基。

答案

$p(\lambda) = (2-\lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 = (\lambda - 1)(\lambda - 3)$。$\lambda_1 = 1, \lambda_2 = 3$。

$\lambda = 1$：$(A - I)v = \begin{pmatrix}1 & 1 \\ 1 & 1\end{pmatrix}v = 0 \Rightarrow v_1 = (1, -1)$，单位化 $q_1 = \frac{1}{\sqrt 2}(1, -1)$

$\lambda = 3$：$(A - 3I)v = \begin{pmatrix}-1 & 1 \\ 1 & -1\end{pmatrix}v = 0 \Rightarrow v_2 = (1, 1)$，单位化 $q_2 = \frac{1}{\sqrt 2}(1, 1)$

验证正交：$\langle q_1, q_2\rangle = \frac{1}{2}(1 \cdot 1 + (-1) \cdot 1) = 0$ ✓

$Q = \frac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ -1 & 1\end{pmatrix}$，$\Lambda = \operatorname{diag}(1, 3)$，$A = Q \Lambda Q^\top$

E2.5 ★★证明：$T^* = T \Rightarrow$ 特征值 $\in \mathbf{R}$（Q3 的自证）

不看 Q3 的证明，独立推出"自伴算子的所有特征值都是实数"。

提示

从 $Tv = \lambda v$ 出发，计算 $\langle Tv, v\rangle$ 的两种方式。

答案

设 $Tv = \lambda v$，$v \neq 0$。

$\langle Tv, v\rangle = \langle \lambda v, v\rangle = \lambda \|v\|^2$

同时：$\langle Tv, v\rangle = \langle v, T^* v\rangle = \langle v, T v\rangle = \langle v, \lambda v\rangle = \overline\lambda \|v\|^2$

$\lambda \|v\|^2 = \overline\lambda \|v\|^2$，$\|v\|^2 > 0 \Rightarrow \lambda = \overline\lambda \Rightarrow \lambda \in \mathbf{R}$。∎

E3 ★★证明：正规 $\iff \|Tv\| = \|T^* v\|$ 对所有 $v$

这是 Axler 的 7.20 左右。提示已经给得很足，自己推。

提示

$\|Tv\|^2 = \langle Tv, Tv\rangle = \langle v, T^*Tv\rangle$；$\|T^*v\|^2 = \langle v, T T^* v\rangle$。两者相等 $\iff T^*T = TT^*$（要用到"内积决定算子"）。

答案

$(\Rightarrow)$：设 $T$ 正规。对任意 $v$，$\|Tv\|^2 = \langle Tv, Tv\rangle = \langle v, T^* T v\rangle$。同理 $\|T^* v\|^2 = \langle v, T T^* v\rangle$。由 $T^* T = T T^*$ 两者相等。

$(\Leftarrow)$：设 $\|Tv\| = \|T^*v\|$ 对所有 $v$，即 $\langle v, (T^* T - T T^*)v\rangle = 0$。$T^* T - T T^*$ 自伴（$(T^* T)^* = T^* T$），所以它自伴且 "内积 $\langle v, \cdot v\rangle = 0$ 对所有 $v$" 推出它是零算子（Ex 7A-13）。故 $T^* T = T T^*$。∎

关键小引理：自伴 $S$ 满足 $\langle Sv, v\rangle = 0 \forall v \Rightarrow S = 0$。可用极化恒等式证。

E4 ★★证明：自伴 $T$ 且所有特征值 $= 0 \Rightarrow T = 0$（Axler Ex 7A-13）

提示

用实谱定理：自伴 $\Rightarrow$ 有正交规范特征基。此时 $T = Q \Lambda Q^\top$，$\Lambda = 0$。

答案

由实谱定理，$T = Q \Lambda Q^\top$，$\Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)$。若所有 $\lambda_i = 0$，则 $\Lambda = 0$，所以 $T = Q \cdot 0 \cdot Q^\top = 0$。∎

注：这是"自伴"版本才有的性质。一般可对角化算子即使所有特征值 $= 0$ 也可以非零——但必须是可对角化的 $0$，即 $P \cdot 0 \cdot P^{-1} = 0$ 所以还是 0。其实这个结论在一般可对角化下也成立。真正的关键反例是非对角化算子：Jordan 块 $N = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$ 所有特征值 $= 0$ 但 $N \neq 0$。所以"特征值都是 0 + 可对角化 ⇒ $T = 0$" 是准确表述，而自伴保证可对角化。

E5 ★★计算 SVD：$A = \begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix}$

找 $U, \Sigma, V$ 使 $A = U \Sigma V^\top$。

提示

先算 $A^\top A$，对它做谱分解得 $V$ 和 $\sigma_i^2$。然后 $u_i = A v_i / \sigma_i$ 得 $U$。

答案

$A^\top A = \begin{pmatrix}3 & 4 \\ 0 & 5\end{pmatrix}\begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix} = \begin{pmatrix}25 & 20 \\ 20 & 25\end{pmatrix}$

特征值：$(25 - \lambda)^2 - 400 = 0 \Rightarrow \lambda - 25 = \pm 20 \Rightarrow \lambda_1 = 45, \lambda_2 = 5$

奇异值 $\sigma_1 = \sqrt{45} = 3\sqrt 5$，$\sigma_2 = \sqrt 5$

$V$ 的列（$A^\top A$ 的特征向量）：$\lambda = 45 \Rightarrow v_1 = \frac{1}{\sqrt 2}(1, 1)$；$\lambda = 5 \Rightarrow v_2 = \frac{1}{\sqrt 2}(1, -1)$

$U$ 的列：$u_i = A v_i / \sigma_i$。$u_1 = \frac{1}{3\sqrt 5} A \frac{(1,1)}{\sqrt 2} = \frac{1}{3\sqrt{10}}(3, 9) = \frac{1}{\sqrt{10}}(1, 3)$；$u_2 = \frac{1}{\sqrt 5} A \frac{(1,-1)}{\sqrt 2} = \frac{1}{\sqrt{10}}(3, -1)$

$U = \frac{1}{\sqrt{10}}\begin{pmatrix}1 & 3 \\ 3 & -1\end{pmatrix}$，$\Sigma = \begin{pmatrix}3\sqrt 5 & 0 \\ 0 & \sqrt 5\end{pmatrix}$，$V = \frac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ 1 & -1\end{pmatrix}$

验证：$U \Sigma V^\top$ 算一遍应该等于 $A$。

E6 ★★Rayleigh 商与最大特征值

设 $A \in \mathbf{R}^{n \times n}$ 对称、$\lambda_1$ 是最大特征值。证明 $\lambda_1 = \max_{\|v\|=1} v^\top A v$，并证最大值在 $\lambda_1$ 对应的特征向量方向取得。

提示

用实谱定理，在正交规范特征基 $(e_1, \ldots, e_n)$ 下写 $v = \sum c_i e_i$。用 $\|v\| = 1 \iff \sum c_i^2 = 1$。

答案

由实谱定理，$A = Q \Lambda Q^\top$ 且 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n$。在特征基下 $v = \sum c_i e_i$，$\|v\|^2 = \sum c_i^2 = 1$。

$v^\top A v = \sum_i \lambda_i c_i^2 \;\leq\; \lambda_1 \sum_i c_i^2 = \lambda_1$。等号成立 $\iff c_1 = 1$ 且其他 $c_i = 0$（即 $v = e_1$）。∎

物理解读：PCA 第一主成分方向就是让 $v^\top \Sigma v$（方差）最大的 $\|v\|=1$ 方向。

E7 ★★★证：自伴可交换 ⇒ 同时谱分解

设 $S, T$ 都是有限维复内积空间 $V$ 上的自伴算子且 $ST = TS$。证明：存在 $V$ 的一组正交规范基同时是 $S$ 和 $T$ 的特征基。

提示

两步：(1) $ST = TS \Rightarrow$ $S$ 保持 $T$ 的每个特征空间不变。(2) 在每个 $E(\mu_j, T)$ 上对 $S$ 再做谱分解。

答案

引理：若 $v \in E(\mu, T)$，则 $Sv \in E(\mu, T)$。

证：$T(Sv) = S(Tv) = S(\mu v) = \mu(Sv)$。✓

主证明：

$T$ 自伴 $\Rightarrow V = E(\mu_1, T) \oplus \cdots \oplus E(\mu_m, T)$（正交直和，谱定理）。

对每个 $E(\mu_j, T)$：$S|_{E(\mu_j, T)}$ 是从 $E(\mu_j, T)$ 到自身的算子（引理），自伴（继承 $S$ 的自伴性，因为 $E(\mu_j, T)$ 是闭的内积子空间），所以在 $E(\mu_j, T)$ 内也能谱分解——取正交规范特征基 $\beta_j$。

合并 $\beta = \beta_1 \cup \cdots \cup \beta_m$：每个向量同时是 $T$ 的特征向量（在某个 $E(\mu_j, T)$ 里）和 $S$ 的特征向量（$\beta_j$ 的选择），又各 $\beta_j$ 内正交，不同 $\beta_j$ 间也正交（因 $E(\mu_j, T)$ 之间正交），所以 $\beta$ 是 $V$ 的正交规范基、同时对角化 $S$ 和 $T$。∎

物理意义：量子力学中"能量 + 角动量 $L_z$"可交换 $\Rightarrow$ 有共同本征态 $|n, \ell, m\rangle$。"位置 + 动量"不交换 $\Rightarrow$ 不能同时精确测——海森堡不确定性原理。

E8 ★★★协方差矩阵特征值全 ≥ 0

设 $X \in \mathbf{R}^{n \times p}$ 是数据矩阵（已中心化），$\Sigma = \frac{1}{n} X^\top X$ 是协方差矩阵。证明 $\Sigma$ 自伴且所有特征值 $\geq 0$。由此解释为什么 PCA 的"方差"量总是非负。

提示

自伴很容易。非负用 Rayleigh：$v^\top \Sigma v = \frac{1}{n} \|Xv\|^2 \geq 0$ 对任意 $v$ 成立。

答案

自伴：$\Sigma^\top = \frac{1}{n}(X^\top X)^\top = \frac{1}{n} X^\top X = \Sigma$。✓

特征值 $\geq 0$：设 $\Sigma v = \lambda v$，$v \neq 0$。由 Rayleigh：

$\lambda = \frac{v^\top \Sigma v}{v^\top v} = \frac{1}{n v^\top v} v^\top X^\top X v = \frac{\|Xv\|^2}{n \|v\|^2} \geq 0$ ✓

等号 $\lambda = 0 \iff \|Xv\| = 0 \iff Xv = 0 \iff v \in \operatorname{null} X$——这对应于"协方差 0 的方向"（冗余维度）。

PCA 诠释：特征向量 $q_i$ 方向的方差 $= q_i^\top \Sigma q_i = \lambda_i \geq 0$——这是方差的非负性，数学上由对称半正定矩阵的非负特征值保证。$\lambda_i = 0$ 意味着数据在该方向完全没有变化（常数），可安全丢掉。

完成度自检：E1-E2 通 = 会识别 + 手动谱分解；E2.5-E4 证明通 = 理解核心代数机制；E5-E6 通 = 能连接到 SVD 和 Rayleigh；E7-E8 通 = 准备好做 PCA / 量子力学 / SVD 这些下游应用。

Ch 7 The Spectral Theorem · Axler 4e · §7A–7B · pp.204–230

0 · 符号对照