Ch 7 The Spectral Theorem · Axler 4e · §7A–7B · pp.204–230

Axler 全书视觉巅峰:自伴/正规算子在正交特征基下就是对角矩阵。对称矩阵 = 先旋转、沿正交轴独立拉伸、再旋转回去。PCA / SVD / 主轴定理 / 量子力学可观测量 / 傅里叶谱分析的共同代数地基。

0 · 符号对照

符号念作含义类型
$V$V有限维内积空间(inner product space,$\mathbf{R}$ 或 $\mathbf{C}$ 上)空间 + 内积
$\langle u, v \rangle$u, v 的内积$V$ 上的内积。$\mathbf{R}$ 上是 $u \cdot v$;$\mathbf{C}$ 上 $\langle u, v\rangle = \sum_i u_i \overline{v_i}$$\mathbf{F}$ 中的数
$\|v\|$v 的范数$\sqrt{\langle v, v\rangle}$$\geq 0$ 的实数
$T \in \mathcal{L}(V)$V 上的算子线性算子 $V \to V$算子
$T^*$T 的伴随(adjoint)唯一的算子满足 $\langle Tu, v\rangle = \langle u, T^* v\rangle$ 对所有 $u, v \in V$算子
自伴self-adjoint / Hermitian$T^* = T$。$\mathbf{R}$ 上等价于"矩阵对称",$\mathbf{C}$ 上是"Hermitian"算子的性质
正规normal$T T^* = T^* T$(与伴随可交换)。比自伴更宽,包括酉算子、斜自伴等算子的性质
酉 / 正交unitary / orthogonal$T^* T = I$(保距算子)。$\mathbf{R}$ 上叫正交矩阵($Q^\top Q = I$),$\mathbf{C}$ 上叫酉算子的性质
正交规范基orthonormal basis (ONB)$V$ 的一组基 $(e_1, \ldots, e_n)$ 满足 $\langle e_i, e_j\rangle = \delta_{ij}$特殊基
$E(\lambda, T)$特征空间$\{v : Tv = \lambda v\}$$V$ 的子空间
$Q$正交/酉矩阵列是正交规范特征向量的矩阵,满足 $Q^{-1} = Q^*$(或 $Q^\top$)矩阵
$Q^* T Q = D$正交对角化$T$ 和对角矩阵 $D$ 通过正交/酉矩阵相似——比一般对角化严格矩阵方程
$\sigma_i$sigma i(奇异值)$T^* T$ 的特征值的平方根。用于 SVD$\geq 0$ 实数
$\delta_{ij}$delta i jKronecker 符号:$i = j$ 时 $= 1$,否则 $= 0$0 或 1
颜色约定 特征方向/对角元 · 普通向量 · 病态(非正规)· 正交规范基方向

什么是"伴随算子" $T^*$?

这是 Ch 7 所有故事的起点。内积空间让我们可以讨论"角度"和"正交"——伴随算子就是内积结构自然诱导出来的对偶算子。

7.2 定义. 设 $V$ 是有限维内积空间、$T \in \mathcal{L}(V)$。$T$ 的 伴随(adjoint)$T^*$ 是唯一的算子 $V \to V$ 满足 $$ \langle Tu, v\rangle = \langle u, T^* v\rangle \quad \text{对所有 } u, v \in V. $$

存在性 + 唯一性:由 Riesz 表示定理,这样的 $T^*$ 存在且唯一(每个线性泛函 $v \mapsto \langle Tu, v\rangle$ 可写成 $\langle \cdot, w\rangle$ 某个 $w$,这个 $w$ 就是 $T^* v$)。

矩阵形式(在正交规范基下):

直觉:伴随 = "内积关系下的镜像"。任何关于 $T$ 的性质都有一个对应的"伴随版本"——$T$ 的零空间 = $T^*$ 的像的正交补 ($\operatorname{null} T = (\operatorname{range} T^*)^\perp$);$T$ 的像 = $T^*$ 的零空间的正交补。


"自伴" 和 "正规" 区别在哪?

这两个定义的关系像"正方形 vs 长方形"——自伴是正规的特例

7.5 定义(自伴). $T$ 是 自伴(self-adjoint),当且仅当 $T^* = T$。
7.18 定义(正规). $T$ 是 正规(normal),当且仅当 $TT^* = T^* T$($T$ 与 $T^*$ 可交换)。

显然自伴 $\Rightarrow$ 正规($T T = T T$ 自动成立)。反之不成立。

正规但不自伴的例子

非正规的例子:剪切 $\begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$。$T^\top = \begin{pmatrix}1 & 0 \\ 1 & 1\end{pmatrix}$,$T^\top T = \begin{pmatrix}1 & 1 \\ 1 & 2\end{pmatrix}$,$TT^\top = \begin{pmatrix}2 & 1 \\ 1 & 1\end{pmatrix}$——不相等。所以不正规。

为什么正规重要:Ch 7 的核心定理(谱定理)会告诉你——正规算子在 $\mathbf{C}$ 上等价于"存在正交规范特征基",自伴在 $\mathbf{R}$ 上等价于"存在正交规范特征基且特征值都是实数"。


自伴算子的特征值为什么一定是实数?

即使在复空间 $V$ 上,自伴算子的特征值也全是实数。这是 Ch 7 的第一个"漂亮"结论:

7.13 定理. 自伴算子的特征值都是实数。

一行证明:设 $Tv = \lambda v$,$v \neq 0$。考虑 $\langle Tv, v\rangle$:

所以 $\lambda \|v\|^2 = \overline{\lambda} \|v\|^2$。因 $\|v\|^2 \neq 0$,有 $\lambda = \overline{\lambda}$,即 $\lambda \in \mathbf{R}$。∎

物理意义:量子力学里可观测量(位置、动量、能量、自旋)都由自伴算子表示;测量值永远是实数 这件事是物理定律——数学上正好对应"自伴算子特征值为实"。

附赠:同样的技巧证不同特征值的特征向量互相正交(7.21):设 $Tv_i = \lambda_i v_i$,$\lambda_1 \neq \lambda_2$,都实数(前面结论)。用 $\langle Tv_1, v_2\rangle$:

$\lambda_1 \langle v_1, v_2\rangle = \langle \lambda_1 v_1, v_2\rangle = \langle Tv_1, v_2\rangle = \langle v_1, Tv_2\rangle = \langle v_1, \lambda_2 v_2\rangle = \lambda_2 \langle v_1, v_2\rangle$

$(\lambda_1 - \lambda_2) \langle v_1, v_2\rangle = 0 \Rightarrow \langle v_1, v_2\rangle = 0$。特征向量自动正交——这是谱定理的"一半"。


亲眼看自伴/正规算子的谱分解(2D)

滑杆改 $T = \begin{pmatrix}a&b\\c&d\end{pmatrix}$。按钮下"对称化"会自动令 $c = b$ 把矩阵变成对称(实自伴)。观察:

右侧读出 $T^\top T$ vs $T T^\top$ 的差,如果为零就是正规。

$Tv$ 位移 特征方向 正交规范基 (自伴时)

矩阵 $T = \begin{pmatrix}a & b\\c & d\end{pmatrix}$

2.00
1.00
1.00
2.00

正规性检测

谱分解 $Q^\top T Q = D$


复谱定理($\mathbf{C}$ 上)到底说了什么?

7.24 复谱定理. 设 $V$ 是有限维内积空间、$T \in \mathcal{L}(V)$。以下等价:
  • (1) $T$ 是正规的($TT^* = T^* T$)
  • (2) $V$ 有一组由 $T$ 的特征向量组成的正交规范基
  • (3) 存在酉矩阵 $Q$ 使 $Q^* T Q$ 是对角矩阵

翻译:在复空间里,正规就是"能被酉对角化"的充要条件。比可对角化(5D)更严格——不仅有特征基,而且特征基可选正交规范。

为什么说正规是恰好的条件:反向方向比较显然(有正交规范特征基 $\Rightarrow$ $T$ 在该基下对角 $\Rightarrow T, T^*$ 都是对角的 $\Rightarrow$ 可交换 $\Rightarrow$ 正规)。正向(正规 $\Rightarrow$ 有 ONB 特征基)是谱定理的核心,Q12 给证明骨架。

非正规的惩罚:剪切在 $\mathbf{C}$ 上也不能被酉对角化(虽然是上三角化过的)。Jordan 块是最经典的"非正规"反例。


实谱定理($\mathbf{R}$ 上)呢?

实数域下,"正规"还不够——因为实正规矩阵可能有复特征值(如旋转),那在 $\mathbf{R}$ 上没有实特征基。需要更强的条件:自伴

7.29 实谱定理. 设 $V$ 是有限维内积空间、$T \in \mathcal{L}(V)$。以下等价:
  • (1) $T$ 是自伴的($T^* = T$,即矩阵对称)
  • (2) $V$ 有一组由 $T$ 的特征向量组成的正交规范基,且所有特征值 $\in \mathbf{R}$
  • (3) 存在正交矩阵 $Q$($Q^\top Q = I$)使 $Q^\top T Q$ 是对角矩阵

写成矩阵方程,这是数据科学最常引用的一条公式:

设 $A \in \mathbf{R}^{n \times n}$ 对称,则存在正交矩阵 $Q$ 和实对角矩阵 $\Lambda$ 使 $A = Q \Lambda Q^\top$

三件事一起打包

对比 5D:一般的"可对角化"(5D)只保证存在特征基、不保证正交、不保证特征值实。谱定理把这三条同时升级——自伴算子是"完美版"的可对角化算子


自伴算子的几何图像:"旋转—拉伸—旋转"

把谱定理 $A = Q \Lambda Q^\top$ 从右往左读,就是任何对称算子的三步分解

$A v \;=\; Q \,\bigl[\Lambda \,(Q^\top v)\bigr]$

视觉总结:对称矩阵作用在 $v$ 上 = "旋转到特征方向 → 各方向独立缩放 → 旋转回来"。这是整个线性代数里最漂亮的结构分解。

在上面 2D 画布观察:按"对称(自伴)"预设。单位圆被 $T$ 变成椭圆

按"旋转"预设则完全不同——单位圆还是圆(等距保持),没有拉伸方向;按"剪切"时椭圆出现但主轴不正交,因为剪切不是对称的。


3D 里谱分解是什么样?(椭球可视化)

3×3 实对称矩阵 $A$ 把单位球 $\{v : \|v\| = 1\}$ 变成椭球,三根主轴正好沿 3 个互相正交的特征向量方向,主轴半径等于 $|\lambda_i|$。

下面的 Three.js 场景:你改 3×3 矩阵,脚本会自动将其对称化($\frac{1}{2}(A + A^\top)$)然后可视化:

拖动鼠标旋转视角。Space 暂停,R 复位相机。

正交特征轴 椭球($A$ 作用后的单位球)

矩阵 $A$(自动对称化 $\tfrac{1}{2}(A + A^\top)$)

正交特征分解


为什么"正交"这件事比"可对角化"值钱得多?

一般对角化 $T = P D P^{-1}$ 和正交对角化 $T = Q \Lambda Q^\top$ 只差一个字母,但应用上天壤之别。三个关键优势:

1. 数值稳定

一般 $P$ 可能接近奇异(条件数大),$P^{-1}$ 计算放大噪声。正交矩阵 $Q$ 的条件数永远 $= 1$——数值完美。这是为什么 LAPACK 的 dsyevr(对称特征分解)是所有特征值算法里最稳定、最快的。

2. 几何保持

正交矩阵 $Q$ 保持长度和角度:$\|Qv\| = \|v\|$、$\langle Qu, Qv\rangle = \langle u, v\rangle$。$Q^\top T Q = \Lambda$ 这种变换就是"换一副眼镜看 $T$,眼镜本身不扭曲距离"。在物理学、工程学里这意味着能量守恒、质量守恒等物理不变量被保留。

3. 最优低秩近似(Eckart-Young)

若 $A = Q \Lambda Q^\top$,保留最大 $k$ 个特征值对应的特征向量做 $A_k = Q_k \Lambda_k Q_k^\top$,则 $A_k$ 是所有秩 $\leq k$ 矩阵中与 $A$ 距离最小的(Frobenius 或谱范数意义下)。这直接是 PCA 和 SVD 的精髓——主成分截断 = 最优降维。

4. 勾股分解

由 $V = E(\lambda_1) \oplus \cdots \oplus E(\lambda_m)$ 且各特征空间两两正交,任意 $v$ 可唯一分解成正交投影之和:$v = \sum_i P_{E(\lambda_i)} v$。这是傅里叶分析、小波变换、多尺度分析的共同模板。


Rayleigh 商:特征值的极值刻画

对自伴 $A$ 和非零向量 $v$,定义Rayleigh 商

$R_A(v) \;=\; \dfrac{\langle A v, v\rangle}{\langle v, v\rangle} \;=\; \dfrac{v^\top A v}{v^\top v}$
Rayleigh 定理. 设 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n$ 是 $A$ 的实特征值。则 $$ \lambda_1 \;=\; \max_{v \neq 0} R_A(v), \quad \lambda_n \;=\; \min_{v \neq 0} R_A(v). $$ 最大值在最大特征值对应的特征向量方向取得,最小值类似。

证明思路:在正交规范特征基 $(e_1, \ldots, e_n)$ 下写 $v = \sum c_i e_i$。则 $\langle v, v\rangle = \sum c_i^2$、$\langle Av, v\rangle = \sum \lambda_i c_i^2$(用 $A e_i = \lambda_i e_i$ 和正交性)。所以 $R_A(v) = \sum \lambda_i c_i^2 / \sum c_i^2$ 是特征值的凸组合(权重 $c_i^2 / \sum c_j^2$),取极值时全权重压到 $\lambda_1$ 或 $\lambda_n$ 对应的 $e_i$。

应用


SVD:谱定理对"任何矩阵"的推广

谱定理要求算子自伴/正规,才能正交对角化。但如果 $A$ 是任意矩阵(甚至不方阵),怎么办?—— SVD 出场。

7E 奇异值分解 (SVD). 设 $A \in \mathbf{R}^{m \times n}$ 是任意矩阵。存在:
  • $U \in \mathbf{R}^{m \times m}$ 正交
  • $V \in \mathbf{R}^{n \times n}$ 正交
  • $\Sigma \in \mathbf{R}^{m \times n}$ 对角非负(奇异值 $\sigma_1 \geq \cdots \geq \sigma_r > 0$ 按降序排列,其余 0)
使得 $A = U \Sigma V^\top$。

几何三步(SVD 对任何线性映射的普适描述):

与谱定理的精确关系:奇异值是 $A^\top A$ 特征值的平方根($A^\top A$ 总是对称半正定,可谱分解)。写成:

$A^\top A = V \Sigma^\top \Sigma V^\top = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_r^2, 0, \ldots) V^\top$

所以 SVD = "对 $A^\top A$(或 $A A^\top$)应用谱定理" 再拼起来。谱定理是"对称方阵的全套",SVD 是"一般矩阵的可用全套"。

实用价值:数据矩阵 $X$($n$ 样本 × $p$ 特征)的 SVD 给出 PCA、潜在因子模型、图像压缩、推荐系统、伪逆($A^+ = V \Sigma^+ U^\top$)、秩计算……所有"近似线性代数"的工具。


谱定理证明骨架(为什么正规 ⇒ 正交特征基)

证明分三步(以复谱定理为例):

Step 1:正规算子在 1 维不变子空间上作用为标量

对复有限维 $V$、正规 $T$,由 5.19(复域下每个算子有特征值)取特征向量 $v_1$。考虑子空间 $U = \operatorname{span}(v_1)$ 和其正交补 $U^\perp$。

Step 2:正规 ⇒ $U^\perp$ 也是 $T$-不变

关键引理:若 $T$ 正规、$U$ 是 $T$-不变,则 $U^\perp$ 也是 $T$-不变。

证:对 $w \in U^\perp$、$u \in U$。要证 $Tw \in U^\perp$,即 $\langle Tw, u\rangle = 0$。用 $\langle Tw, u\rangle = \langle w, T^* u\rangle$。如果能证 $T^* u \in U$ 就行。

再证 $U$ 也是 $T^*$-不变(用正规性 + 一个小引理:$\|Tv\| = \|T^* v\|$ 对正规 $T$ 成立)。跳过细节。

Step 3:归纳降维

$T$ 限制到 $U^\perp$(维度 $n - 1$)仍然正规(伴随性质保持)。对 $T|_{U^\perp}$ 归纳——继续找特征向量、取其正交补……一路降维。最终得到 $n$ 个两两正交的特征向量 $v_1, \ldots, v_n$。正规化(除以各自范数)就是正交规范特征基。∎

实谱定理(7.29)的证明稍更曲折,因为实域下"特征值存在"不保证。Axler 用的是"2D 不变子空间"技巧(任何实算子都有 1 或 2 维不变子空间),再配合"自伴 ⇒ 2D 不变子空间可拆成两个 1D"这个关键步骤。具体见 Axler 7.27、7.29 或者自查。

Ch 7 (谱定理部分) 要记住哪些底子定理?

7.2 伴随. $T^*$ 是唯一满足 $\langle Tu, v\rangle = \langle u, T^* v\rangle$ 的算子,在 ONB 下矩阵是共轭转置
7.13 实特征值. 自伴算子的所有特征值都是实数
7.21 特征向量正交. 自伴算子的不同特征值对应的特征向量互相正交
7.24 复谱定理. 复内积空间上,$T$ 正规 $\iff$ 有正交规范特征基 $\iff$ 酉对角化
7.29 实谱定理. 实内积空间上,$T$ 自伴 $\iff$ 有正交规范特征基且特征值全实 $\iff$ 正交对角化
7.35+ 正规算子刻画. $T$ 正规 $\iff \|Tv\| = \|T^* v\|$ 对所有 $v$
7E SVD. 任何 $A \in \mathbf{R}^{m \times n}$ 可分解为 $A = U \Sigma V^\top$,$U, V$ 正交、$\Sigma$ 对角非负

Axler 7A/7B 习题


谱定理在实战里用来干嘛?

两个最硬核的应用——所有数据科学工具的根基。

应用 1 · PCA(主成分分析)

数据矩阵 $X \in \mathbf{R}^{n \times p}$($n$ 样本、$p$ 特征,已中心化)。协方差矩阵 $\Sigma = \frac{1}{n} X^\top X \in \mathbf{R}^{p \times p}$ 天然对称半正定($v^\top \Sigma v = \frac{1}{n}\|Xv\|^2 \geq 0$)。

谱定理给出 $\Sigma = Q \Lambda Q^\top$,其中:

投影降维:取前 $k$ 大的特征值对应的 $q_i$ 列组成 $Q_k \in \mathbf{R}^{p \times k}$,数据 $Y = X Q_k \in \mathbf{R}^{n \times k}$ 是 $k$ 维简化版,保留了最多方差。

由 Eckart-Young 定理,$Q_k$ 是所有 $p \to k$ 线性降维里方差最大、重构误差最小的选择。这是因子模型、Eigenface、t-SNE、各种表示学习的共同起点。

金融实例:美债 $\{2Y, 5Y, 10Y, 30Y\}$ 收益率的 $\Sigma$ 做谱分解:第 1 特征方向 $\approx (1, 1, 1, 1)$ 水平、第 2 $\approx (-1, -0.5, 0.5, 1)$ 斜率、第 3 $\approx (1, -1, -1, 1)$ 曲率,方差贡献分别 $\approx$ 85% / 10% / 3%。整条收益率曲线的波动只有 3 个真实维度。做 steepener 就是押注第 2 方向、butterfly 押注第 3。

应用 2 · 量子力学:可观测量必为自伴

物理公设:任何可测量的物理量(位置 $\hat X$、动量 $\hat P$、能量 $\hat H$、自旋 $\hat S_z$)对应于 Hilbert 空间上的自伴算子。测量该量时:

Schrödinger 方程 $\hat H \psi = E \psi$ 就是能量算子的谱方程,解出来的特征值 $E_n$ 就是观测到的能级(氢原子 $-13.6/n^2$ eV、粒子在盒子里的 $n^2 \pi^2 \hbar^2 / (2mL^2)$ 等)。整个量子力学的数学骨架就是"自伴算子 + 谱定理 + Rayleigh 变分"。

一句话:谱定理说"任何对称的线性变换都可以用正交特征轴拆开看"——这是对称性 → 结构的最纯粹范例。从协方差矩阵到 Schrödinger 方程,只要底层数学对象有自伴性,谱定理就能给出一个干净的正交分解。

谱定理搞懂了,下一步?

两个方向:

学完 SVD 后,线性代数的整张地图就完整了:

可对角化(5D)$\xrightarrow{+\text{正交}}$ 谱定理(7A-B)$\xrightarrow{+\text{一般矩阵}}$ SVD(7E)

剩下的只是专门化(PCA、LSI、PageRank、Kalman 滤波、LQ/QR 分解……)。


★ 轮到你了——自测 8 题

每题至少想 3 分钟再看答案。难度:★ 概念/简单计算 · ★★ 证明 · ★★★ 综合。

E1 ★判断:下列哪些是自伴、正规、酉?

(a) $\begin{pmatrix}2 & 1 \\ 1 & 3\end{pmatrix}$   (b) $\begin{pmatrix}0 & -1 \\ 1 & 0\end{pmatrix}$   (c) $\begin{pmatrix}1 & 2 \\ 0 & 1\end{pmatrix}$   (d) $\frac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ 1 & -1\end{pmatrix}$

提示

检查 $T^\top = T$(自伴)、$T^\top T = T T^\top$(正规)、$T^\top T = I$(酉)。

答案

(a) ✅ 自伴($b=c=1$)、✅ 正规、❌ 非酉($T^\top T = \begin{pmatrix}5 & 5 \\ 5 & 10\end{pmatrix} \neq I$)

(b) ❌ 非自伴($T^\top \neq T$)、✅ 正规($T^\top T = I = T T^\top$)、✅ 酉($T^\top T = I$)—— 这就是 90° 旋转

(c) ❌ 非自伴、❌ 非正规($T^\top T = \begin{pmatrix}1 & 2 \\ 2 & 5\end{pmatrix}$、$T T^\top = \begin{pmatrix}5 & 2 \\ 2 & 1\end{pmatrix}$——不等)、❌ 非酉

(d) ✅ 自伴、✅ 正规、✅ 酉(Hadamard 矩阵,常见于量子计算)

E2 ★手动谱分解 $A = \begin{pmatrix}2 & 1 \\ 1 & 2\end{pmatrix}$

找正交矩阵 $Q$ 和对角 $\Lambda$ 使 $A = Q \Lambda Q^\top$。

提示

先求特征值(用 $\det(A - \lambda I) = 0$)。然后对每个 $\lambda$ 解 $(A - \lambda I)v = 0$。最后把特征向量单位化(除以范数)得到正交规范基。

答案

$p(\lambda) = (2-\lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 = (\lambda - 1)(\lambda - 3)$。$\lambda_1 = 1, \lambda_2 = 3$。

$\lambda = 1$:$(A - I)v = \begin{pmatrix}1 & 1 \\ 1 & 1\end{pmatrix}v = 0 \Rightarrow v_1 = (1, -1)$,单位化 $q_1 = \frac{1}{\sqrt 2}(1, -1)$

$\lambda = 3$:$(A - 3I)v = \begin{pmatrix}-1 & 1 \\ 1 & -1\end{pmatrix}v = 0 \Rightarrow v_2 = (1, 1)$,单位化 $q_2 = \frac{1}{\sqrt 2}(1, 1)$

验证正交:$\langle q_1, q_2\rangle = \frac{1}{2}(1 \cdot 1 + (-1) \cdot 1) = 0$ ✓

$Q = \frac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ -1 & 1\end{pmatrix}$,$\Lambda = \operatorname{diag}(1, 3)$,$A = Q \Lambda Q^\top$

E2.5 ★★证明:$T^* = T \Rightarrow$ 特征值 $\in \mathbf{R}$(Q3 的自证)

不看 Q3 的证明,独立推出"自伴算子的所有特征值都是实数"。

提示

从 $Tv = \lambda v$ 出发,计算 $\langle Tv, v\rangle$ 的两种方式。

答案

设 $Tv = \lambda v$,$v \neq 0$。

$\langle Tv, v\rangle = \langle \lambda v, v\rangle = \lambda \|v\|^2$

同时:$\langle Tv, v\rangle = \langle v, T^* v\rangle = \langle v, T v\rangle = \langle v, \lambda v\rangle = \overline\lambda \|v\|^2$

$\lambda \|v\|^2 = \overline\lambda \|v\|^2$,$\|v\|^2 > 0 \Rightarrow \lambda = \overline\lambda \Rightarrow \lambda \in \mathbf{R}$。∎

E3 ★★证明:正规 $\iff \|Tv\| = \|T^* v\|$ 对所有 $v$

这是 Axler 的 7.20 左右。提示已经给得很足,自己推。

提示

$\|Tv\|^2 = \langle Tv, Tv\rangle = \langle v, T^*Tv\rangle$;$\|T^*v\|^2 = \langle v, T T^* v\rangle$。两者相等 $\iff T^*T = TT^*$(要用到"内积决定算子")。

答案

$(\Rightarrow)$:设 $T$ 正规。对任意 $v$,$\|Tv\|^2 = \langle Tv, Tv\rangle = \langle v, T^* T v\rangle$。同理 $\|T^* v\|^2 = \langle v, T T^* v\rangle$。由 $T^* T = T T^*$ 两者相等。

$(\Leftarrow)$:设 $\|Tv\| = \|T^*v\|$ 对所有 $v$,即 $\langle v, (T^* T - T T^*)v\rangle = 0$。$T^* T - T T^*$ 自伴($(T^* T)^* = T^* T$),所以它自伴且 "内积 $\langle v, \cdot v\rangle = 0$ 对所有 $v$" 推出它是零算子(Ex 7A-13)。故 $T^* T = T T^*$。∎

关键小引理:自伴 $S$ 满足 $\langle Sv, v\rangle = 0 \forall v \Rightarrow S = 0$。可用极化恒等式证。

E4 ★★证明:自伴 $T$ 且所有特征值 $= 0 \Rightarrow T = 0$(Axler Ex 7A-13)

提示

用实谱定理:自伴 $\Rightarrow$ 有正交规范特征基。此时 $T = Q \Lambda Q^\top$,$\Lambda = 0$。

答案

由实谱定理,$T = Q \Lambda Q^\top$,$\Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)$。若所有 $\lambda_i = 0$,则 $\Lambda = 0$,所以 $T = Q \cdot 0 \cdot Q^\top = 0$。∎

:这是"自伴"版本才有的性质。一般可对角化算子即使所有特征值 $= 0$ 也可以非零——但必须是可对角化的 $0$,即 $P \cdot 0 \cdot P^{-1} = 0$ 所以还是 0。其实这个结论在一般可对角化下也成立。真正的关键反例是非对角化算子:Jordan 块 $N = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$ 所有特征值 $= 0$ 但 $N \neq 0$。所以"特征值都是 0 + 可对角化 ⇒ $T = 0$" 是准确表述,而自伴保证可对角化。

E5 ★★计算 SVD:$A = \begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix}$

找 $U, \Sigma, V$ 使 $A = U \Sigma V^\top$。

提示

先算 $A^\top A$,对它做谱分解得 $V$ 和 $\sigma_i^2$。然后 $u_i = A v_i / \sigma_i$ 得 $U$。

答案

$A^\top A = \begin{pmatrix}3 & 4 \\ 0 & 5\end{pmatrix}\begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix} = \begin{pmatrix}25 & 20 \\ 20 & 25\end{pmatrix}$

特征值:$(25 - \lambda)^2 - 400 = 0 \Rightarrow \lambda - 25 = \pm 20 \Rightarrow \lambda_1 = 45, \lambda_2 = 5$

奇异值 $\sigma_1 = \sqrt{45} = 3\sqrt 5$,$\sigma_2 = \sqrt 5$

$V$ 的列($A^\top A$ 的特征向量):$\lambda = 45 \Rightarrow v_1 = \frac{1}{\sqrt 2}(1, 1)$;$\lambda = 5 \Rightarrow v_2 = \frac{1}{\sqrt 2}(1, -1)$

$U$ 的列:$u_i = A v_i / \sigma_i$。$u_1 = \frac{1}{3\sqrt 5} A \frac{(1,1)}{\sqrt 2} = \frac{1}{3\sqrt{10}}(3, 9) = \frac{1}{\sqrt{10}}(1, 3)$;$u_2 = \frac{1}{\sqrt 5} A \frac{(1,-1)}{\sqrt 2} = \frac{1}{\sqrt{10}}(3, -1)$

$U = \frac{1}{\sqrt{10}}\begin{pmatrix}1 & 3 \\ 3 & -1\end{pmatrix}$,$\Sigma = \begin{pmatrix}3\sqrt 5 & 0 \\ 0 & \sqrt 5\end{pmatrix}$,$V = \frac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ 1 & -1\end{pmatrix}$

验证:$U \Sigma V^\top$ 算一遍应该等于 $A$。

E6 ★★Rayleigh 商与最大特征值

设 $A \in \mathbf{R}^{n \times n}$ 对称、$\lambda_1$ 是最大特征值。证明 $\lambda_1 = \max_{\|v\|=1} v^\top A v$,并证最大值在 $\lambda_1$ 对应的特征向量方向取得。

提示

用实谱定理,在正交规范特征基 $(e_1, \ldots, e_n)$ 下写 $v = \sum c_i e_i$。用 $\|v\| = 1 \iff \sum c_i^2 = 1$。

答案

由实谱定理,$A = Q \Lambda Q^\top$ 且 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n$。在特征基下 $v = \sum c_i e_i$,$\|v\|^2 = \sum c_i^2 = 1$。

$v^\top A v = \sum_i \lambda_i c_i^2 \;\leq\; \lambda_1 \sum_i c_i^2 = \lambda_1$。等号成立 $\iff c_1 = 1$ 且其他 $c_i = 0$(即 $v = e_1$)。∎

物理解读:PCA 第一主成分方向就是让 $v^\top \Sigma v$(方差)最大的 $\|v\|=1$ 方向。

E7 ★★★证:自伴可交换 ⇒ 同时谱分解

设 $S, T$ 都是有限维复内积空间 $V$ 上的自伴算子且 $ST = TS$。证明:存在 $V$ 的一组正交规范基同时是 $S$ 和 $T$ 的特征基。

提示

两步:(1) $ST = TS \Rightarrow$ $S$ 保持 $T$ 的每个特征空间不变。(2) 在每个 $E(\mu_j, T)$ 上对 $S$ 再做谱分解。

答案

引理:若 $v \in E(\mu, T)$,则 $Sv \in E(\mu, T)$。

证:$T(Sv) = S(Tv) = S(\mu v) = \mu(Sv)$。✓

主证明

$T$ 自伴 $\Rightarrow V = E(\mu_1, T) \oplus \cdots \oplus E(\mu_m, T)$(正交直和,谱定理)。

对每个 $E(\mu_j, T)$:$S|_{E(\mu_j, T)}$ 是从 $E(\mu_j, T)$ 到自身的算子(引理),自伴(继承 $S$ 的自伴性,因为 $E(\mu_j, T)$ 是闭的内积子空间),所以在 $E(\mu_j, T)$ 内也能谱分解——取正交规范特征基 $\beta_j$。

合并 $\beta = \beta_1 \cup \cdots \cup \beta_m$:每个向量同时是 $T$ 的特征向量(在某个 $E(\mu_j, T)$ 里)和 $S$ 的特征向量($\beta_j$ 的选择),又各 $\beta_j$ 内正交,不同 $\beta_j$ 间也正交(因 $E(\mu_j, T)$ 之间正交),所以 $\beta$ 是 $V$ 的正交规范基、同时对角化 $S$ 和 $T$。∎

物理意义:量子力学中"能量 + 角动量 $L_z$"可交换 $\Rightarrow$ 有共同本征态 $|n, \ell, m\rangle$。"位置 + 动量"不交换 $\Rightarrow$ 不能同时精确测——海森堡不确定性原理。

E8 ★★★协方差矩阵特征值全 ≥ 0

设 $X \in \mathbf{R}^{n \times p}$ 是数据矩阵(已中心化),$\Sigma = \frac{1}{n} X^\top X$ 是协方差矩阵。证明 $\Sigma$ 自伴且所有特征值 $\geq 0$。由此解释为什么 PCA 的"方差"量总是非负。

提示

自伴很容易。非负用 Rayleigh:$v^\top \Sigma v = \frac{1}{n} \|Xv\|^2 \geq 0$ 对任意 $v$ 成立。

答案

自伴:$\Sigma^\top = \frac{1}{n}(X^\top X)^\top = \frac{1}{n} X^\top X = \Sigma$。✓

特征值 $\geq 0$:设 $\Sigma v = \lambda v$,$v \neq 0$。由 Rayleigh:

$\lambda = \frac{v^\top \Sigma v}{v^\top v} = \frac{1}{n v^\top v} v^\top X^\top X v = \frac{\|Xv\|^2}{n \|v\|^2} \geq 0$ ✓

等号 $\lambda = 0 \iff \|Xv\| = 0 \iff Xv = 0 \iff v \in \operatorname{null} X$——这对应于"协方差 0 的方向"(冗余维度)。

PCA 诠释:特征向量 $q_i$ 方向的方差 $= q_i^\top \Sigma q_i = \lambda_i \geq 0$——这是方差的非负性,数学上由对称半正定矩阵的非负特征值保证。$\lambda_i = 0$ 意味着数据在该方向完全没有变化(常数),可安全丢掉。

完成度自检:E1-E2 通 = 会识别 + 手动谱分解;E2.5-E4 证明通 = 理解核心代数机制;E5-E6 通 = 能连接到 SVD 和 Rayleigh;E7-E8 通 = 准备好做 PCA / 量子力学 / SVD 这些下游应用。