Axler 全书视觉巅峰:自伴/正规算子在正交特征基下就是对角矩阵。对称矩阵 = 先旋转、沿正交轴独立拉伸、再旋转回去。PCA / SVD / 主轴定理 / 量子力学可观测量 / 傅里叶谱分析的共同代数地基。
| 符号 | 念作 | 含义 | 类型 |
|---|---|---|---|
| $V$ | V | 有限维内积空间(inner product space,$\mathbf{R}$ 或 $\mathbf{C}$ 上) | 空间 + 内积 |
| $\langle u, v \rangle$ | u, v 的内积 | $V$ 上的内积。$\mathbf{R}$ 上是 $u \cdot v$;$\mathbf{C}$ 上 $\langle u, v\rangle = \sum_i u_i \overline{v_i}$ | $\mathbf{F}$ 中的数 |
| $\|v\|$ | v 的范数 | $\sqrt{\langle v, v\rangle}$ | $\geq 0$ 的实数 |
| $T \in \mathcal{L}(V)$ | V 上的算子 | 线性算子 $V \to V$ | 算子 |
| $T^*$ | T 的伴随(adjoint) | 唯一的算子满足 $\langle Tu, v\rangle = \langle u, T^* v\rangle$ 对所有 $u, v \in V$ | 算子 |
| 自伴 | self-adjoint / Hermitian | $T^* = T$。$\mathbf{R}$ 上等价于"矩阵对称",$\mathbf{C}$ 上是"Hermitian" | 算子的性质 |
| 正规 | normal | $T T^* = T^* T$(与伴随可交换)。比自伴更宽,包括酉算子、斜自伴等 | 算子的性质 |
| 酉 / 正交 | unitary / orthogonal | $T^* T = I$(保距算子)。$\mathbf{R}$ 上叫正交矩阵($Q^\top Q = I$),$\mathbf{C}$ 上叫酉 | 算子的性质 |
| 正交规范基 | orthonormal basis (ONB) | $V$ 的一组基 $(e_1, \ldots, e_n)$ 满足 $\langle e_i, e_j\rangle = \delta_{ij}$ | 特殊基 |
| $E(\lambda, T)$ | 特征空间 | $\{v : Tv = \lambda v\}$ | $V$ 的子空间 |
| $Q$ | 正交/酉矩阵 | 列是正交规范特征向量的矩阵,满足 $Q^{-1} = Q^*$(或 $Q^\top$) | 矩阵 |
| $Q^* T Q = D$ | 正交对角化 | $T$ 和对角矩阵 $D$ 通过正交/酉矩阵相似——比一般对角化严格 | 矩阵方程 |
| $\sigma_i$ | sigma i(奇异值) | $T^* T$ 的特征值的平方根。用于 SVD | $\geq 0$ 实数 |
| $\delta_{ij}$ | delta i j | Kronecker 符号:$i = j$ 时 $= 1$,否则 $= 0$ | 0 或 1 |
这是 Ch 7 所有故事的起点。内积空间让我们可以讨论"角度"和"正交"——伴随算子就是内积结构自然诱导出来的对偶算子。
存在性 + 唯一性:由 Riesz 表示定理,这样的 $T^*$ 存在且唯一(每个线性泛函 $v \mapsto \langle Tu, v\rangle$ 可写成 $\langle \cdot, w\rangle$ 某个 $w$,这个 $w$ 就是 $T^* v$)。
矩阵形式(在正交规范基下):
直觉:伴随 = "内积关系下的镜像"。任何关于 $T$ 的性质都有一个对应的"伴随版本"——$T$ 的零空间 = $T^*$ 的像的正交补 ($\operatorname{null} T = (\operatorname{range} T^*)^\perp$);$T$ 的像 = $T^*$ 的零空间的正交补。
这两个定义的关系像"正方形 vs 长方形"——自伴是正规的特例。
显然自伴 $\Rightarrow$ 正规($T T = T T$ 自动成立)。反之不成立。
正规但不自伴的例子:
非正规的例子:剪切 $\begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$。$T^\top = \begin{pmatrix}1 & 0 \\ 1 & 1\end{pmatrix}$,$T^\top T = \begin{pmatrix}1 & 1 \\ 1 & 2\end{pmatrix}$,$TT^\top = \begin{pmatrix}2 & 1 \\ 1 & 1\end{pmatrix}$——不相等。所以不正规。
为什么正规重要:Ch 7 的核心定理(谱定理)会告诉你——正规算子在 $\mathbf{C}$ 上等价于"存在正交规范特征基",自伴在 $\mathbf{R}$ 上等价于"存在正交规范特征基且特征值都是实数"。
即使在复空间 $V$ 上,自伴算子的特征值也全是实数。这是 Ch 7 的第一个"漂亮"结论:
一行证明:设 $Tv = \lambda v$,$v \neq 0$。考虑 $\langle Tv, v\rangle$:
所以 $\lambda \|v\|^2 = \overline{\lambda} \|v\|^2$。因 $\|v\|^2 \neq 0$,有 $\lambda = \overline{\lambda}$,即 $\lambda \in \mathbf{R}$。∎
物理意义:量子力学里可观测量(位置、动量、能量、自旋)都由自伴算子表示;测量值永远是实数 这件事是物理定律——数学上正好对应"自伴算子特征值为实"。
附赠:同样的技巧证不同特征值的特征向量互相正交(7.21):设 $Tv_i = \lambda_i v_i$,$\lambda_1 \neq \lambda_2$,都实数(前面结论)。用 $\langle Tv_1, v_2\rangle$:
$(\lambda_1 - \lambda_2) \langle v_1, v_2\rangle = 0 \Rightarrow \langle v_1, v_2\rangle = 0$。特征向量自动正交——这是谱定理的"一半"。
滑杆改 $T = \begin{pmatrix}a&b\\c&d\end{pmatrix}$。按钮下"对称化"会自动令 $c = b$ 把矩阵变成对称(实自伴)。观察:
右侧读出 $T^\top T$ vs $T T^\top$ 的差,如果为零就是正规。
翻译:在复空间里,正规就是"能被酉对角化"的充要条件。比可对角化(5D)更严格——不仅有特征基,而且特征基可选正交规范。
为什么说正规是恰好的条件:反向方向比较显然(有正交规范特征基 $\Rightarrow$ $T$ 在该基下对角 $\Rightarrow T, T^*$ 都是对角的 $\Rightarrow$ 可交换 $\Rightarrow$ 正规)。正向(正规 $\Rightarrow$ 有 ONB 特征基)是谱定理的核心,Q12 给证明骨架。
非正规的惩罚:剪切在 $\mathbf{C}$ 上也不能被酉对角化(虽然是上三角化过的)。Jordan 块是最经典的"非正规"反例。
实数域下,"正规"还不够——因为实正规矩阵可能有复特征值(如旋转),那在 $\mathbf{R}$ 上没有实特征基。需要更强的条件:自伴。
写成矩阵方程,这是数据科学最常引用的一条公式:
三件事一起打包:
对比 5D:一般的"可对角化"(5D)只保证存在特征基、不保证正交、不保证特征值实。谱定理把这三条同时升级——自伴算子是"完美版"的可对角化算子。
把谱定理 $A = Q \Lambda Q^\top$ 从右往左读,就是任何对称算子的三步分解:
视觉总结:对称矩阵作用在 $v$ 上 = "旋转到特征方向 → 各方向独立缩放 → 旋转回来"。这是整个线性代数里最漂亮的结构分解。
在上面 2D 画布观察:按"对称(自伴)"预设。单位圆被 $T$ 变成椭圆:
按"旋转"预设则完全不同——单位圆还是圆(等距保持),没有拉伸方向;按"剪切"时椭圆出现但主轴不正交,因为剪切不是对称的。
3×3 实对称矩阵 $A$ 把单位球 $\{v : \|v\| = 1\}$ 变成椭球,三根主轴正好沿 3 个互相正交的特征向量方向,主轴半径等于 $|\lambda_i|$。
下面的 Three.js 场景:你改 3×3 矩阵,脚本会自动将其对称化($\frac{1}{2}(A + A^\top)$)然后可视化:
拖动鼠标旋转视角。Space 暂停,R 复位相机。
一般对角化 $T = P D P^{-1}$ 和正交对角化 $T = Q \Lambda Q^\top$ 只差一个字母,但应用上天壤之别。三个关键优势:
一般 $P$ 可能接近奇异(条件数大),$P^{-1}$ 计算放大噪声。正交矩阵 $Q$ 的条件数永远 $= 1$——数值完美。这是为什么 LAPACK 的 dsyevr(对称特征分解)是所有特征值算法里最稳定、最快的。
正交矩阵 $Q$ 保持长度和角度:$\|Qv\| = \|v\|$、$\langle Qu, Qv\rangle = \langle u, v\rangle$。$Q^\top T Q = \Lambda$ 这种变换就是"换一副眼镜看 $T$,眼镜本身不扭曲距离"。在物理学、工程学里这意味着能量守恒、质量守恒等物理不变量被保留。
若 $A = Q \Lambda Q^\top$,保留最大 $k$ 个特征值对应的特征向量做 $A_k = Q_k \Lambda_k Q_k^\top$,则 $A_k$ 是所有秩 $\leq k$ 矩阵中与 $A$ 距离最小的(Frobenius 或谱范数意义下)。这直接是 PCA 和 SVD 的精髓——主成分截断 = 最优降维。
由 $V = E(\lambda_1) \oplus \cdots \oplus E(\lambda_m)$ 且各特征空间两两正交,任意 $v$ 可唯一分解成正交投影之和:$v = \sum_i P_{E(\lambda_i)} v$。这是傅里叶分析、小波变换、多尺度分析的共同模板。
对自伴 $A$ 和非零向量 $v$,定义Rayleigh 商:
证明思路:在正交规范特征基 $(e_1, \ldots, e_n)$ 下写 $v = \sum c_i e_i$。则 $\langle v, v\rangle = \sum c_i^2$、$\langle Av, v\rangle = \sum \lambda_i c_i^2$(用 $A e_i = \lambda_i e_i$ 和正交性)。所以 $R_A(v) = \sum \lambda_i c_i^2 / \sum c_i^2$ 是特征值的凸组合(权重 $c_i^2 / \sum c_j^2$),取极值时全权重压到 $\lambda_1$ 或 $\lambda_n$ 对应的 $e_i$。
应用:
谱定理要求算子自伴/正规,才能正交对角化。但如果 $A$ 是任意矩阵(甚至不方阵),怎么办?—— SVD 出场。
几何三步(SVD 对任何线性映射的普适描述):
与谱定理的精确关系:奇异值是 $A^\top A$ 特征值的平方根($A^\top A$ 总是对称半正定,可谱分解)。写成:
所以 SVD = "对 $A^\top A$(或 $A A^\top$)应用谱定理" 再拼起来。谱定理是"对称方阵的全套",SVD 是"一般矩阵的可用全套"。
实用价值:数据矩阵 $X$($n$ 样本 × $p$ 特征)的 SVD 给出 PCA、潜在因子模型、图像压缩、推荐系统、伪逆($A^+ = V \Sigma^+ U^\top$)、秩计算……所有"近似线性代数"的工具。
证明分三步(以复谱定理为例):
对复有限维 $V$、正规 $T$,由 5.19(复域下每个算子有特征值)取特征向量 $v_1$。考虑子空间 $U = \operatorname{span}(v_1)$ 和其正交补 $U^\perp$。
关键引理:若 $T$ 正规、$U$ 是 $T$-不变,则 $U^\perp$ 也是 $T$-不变。
证:对 $w \in U^\perp$、$u \in U$。要证 $Tw \in U^\perp$,即 $\langle Tw, u\rangle = 0$。用 $\langle Tw, u\rangle = \langle w, T^* u\rangle$。如果能证 $T^* u \in U$ 就行。
再证 $U$ 也是 $T^*$-不变(用正规性 + 一个小引理:$\|Tv\| = \|T^* v\|$ 对正规 $T$ 成立)。跳过细节。
$T$ 限制到 $U^\perp$(维度 $n - 1$)仍然正规(伴随性质保持)。对 $T|_{U^\perp}$ 归纳——继续找特征向量、取其正交补……一路降维。最终得到 $n$ 个两两正交的特征向量 $v_1, \ldots, v_n$。正规化(除以各自范数)就是正交规范特征基。∎
两个最硬核的应用——所有数据科学工具的根基。
数据矩阵 $X \in \mathbf{R}^{n \times p}$($n$ 样本、$p$ 特征,已中心化)。协方差矩阵 $\Sigma = \frac{1}{n} X^\top X \in \mathbf{R}^{p \times p}$ 天然对称半正定($v^\top \Sigma v = \frac{1}{n}\|Xv\|^2 \geq 0$)。
谱定理给出 $\Sigma = Q \Lambda Q^\top$,其中:
投影降维:取前 $k$ 大的特征值对应的 $q_i$ 列组成 $Q_k \in \mathbf{R}^{p \times k}$,数据 $Y = X Q_k \in \mathbf{R}^{n \times k}$ 是 $k$ 维简化版,保留了最多方差。
由 Eckart-Young 定理,$Q_k$ 是所有 $p \to k$ 线性降维里方差最大、重构误差最小的选择。这是因子模型、Eigenface、t-SNE、各种表示学习的共同起点。
金融实例:美债 $\{2Y, 5Y, 10Y, 30Y\}$ 收益率的 $\Sigma$ 做谱分解:第 1 特征方向 $\approx (1, 1, 1, 1)$ 水平、第 2 $\approx (-1, -0.5, 0.5, 1)$ 斜率、第 3 $\approx (1, -1, -1, 1)$ 曲率,方差贡献分别 $\approx$ 85% / 10% / 3%。整条收益率曲线的波动只有 3 个真实维度。做 steepener 就是押注第 2 方向、butterfly 押注第 3。
物理公设:任何可测量的物理量(位置 $\hat X$、动量 $\hat P$、能量 $\hat H$、自旋 $\hat S_z$)对应于 Hilbert 空间上的自伴算子。测量该量时:
Schrödinger 方程 $\hat H \psi = E \psi$ 就是能量算子的谱方程,解出来的特征值 $E_n$ 就是观测到的能级(氢原子 $-13.6/n^2$ eV、粒子在盒子里的 $n^2 \pi^2 \hbar^2 / (2mL^2)$ 等)。整个量子力学的数学骨架就是"自伴算子 + 谱定理 + Rayleigh 变分"。
两个方向:
学完 SVD 后,线性代数的整张地图就完整了:
剩下的只是专门化(PCA、LSI、PageRank、Kalman 滤波、LQ/QR 分解……)。
每题至少想 3 分钟再看答案。难度:★ 概念/简单计算 · ★★ 证明 · ★★★ 综合。
(a) $\begin{pmatrix}2 & 1 \\ 1 & 3\end{pmatrix}$ (b) $\begin{pmatrix}0 & -1 \\ 1 & 0\end{pmatrix}$ (c) $\begin{pmatrix}1 & 2 \\ 0 & 1\end{pmatrix}$ (d) $\frac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ 1 & -1\end{pmatrix}$
检查 $T^\top = T$(自伴)、$T^\top T = T T^\top$(正规)、$T^\top T = I$(酉)。
(a) ✅ 自伴($b=c=1$)、✅ 正规、❌ 非酉($T^\top T = \begin{pmatrix}5 & 5 \\ 5 & 10\end{pmatrix} \neq I$)
(b) ❌ 非自伴($T^\top \neq T$)、✅ 正规($T^\top T = I = T T^\top$)、✅ 酉($T^\top T = I$)—— 这就是 90° 旋转
(c) ❌ 非自伴、❌ 非正规($T^\top T = \begin{pmatrix}1 & 2 \\ 2 & 5\end{pmatrix}$、$T T^\top = \begin{pmatrix}5 & 2 \\ 2 & 1\end{pmatrix}$——不等)、❌ 非酉
(d) ✅ 自伴、✅ 正规、✅ 酉(Hadamard 矩阵,常见于量子计算)
找正交矩阵 $Q$ 和对角 $\Lambda$ 使 $A = Q \Lambda Q^\top$。
先求特征值(用 $\det(A - \lambda I) = 0$)。然后对每个 $\lambda$ 解 $(A - \lambda I)v = 0$。最后把特征向量单位化(除以范数)得到正交规范基。
$p(\lambda) = (2-\lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 = (\lambda - 1)(\lambda - 3)$。$\lambda_1 = 1, \lambda_2 = 3$。
$\lambda = 1$:$(A - I)v = \begin{pmatrix}1 & 1 \\ 1 & 1\end{pmatrix}v = 0 \Rightarrow v_1 = (1, -1)$,单位化 $q_1 = \frac{1}{\sqrt 2}(1, -1)$
$\lambda = 3$:$(A - 3I)v = \begin{pmatrix}-1 & 1 \\ 1 & -1\end{pmatrix}v = 0 \Rightarrow v_2 = (1, 1)$,单位化 $q_2 = \frac{1}{\sqrt 2}(1, 1)$
验证正交:$\langle q_1, q_2\rangle = \frac{1}{2}(1 \cdot 1 + (-1) \cdot 1) = 0$ ✓
$Q = \frac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ -1 & 1\end{pmatrix}$,$\Lambda = \operatorname{diag}(1, 3)$,$A = Q \Lambda Q^\top$
不看 Q3 的证明,独立推出"自伴算子的所有特征值都是实数"。
从 $Tv = \lambda v$ 出发,计算 $\langle Tv, v\rangle$ 的两种方式。
设 $Tv = \lambda v$,$v \neq 0$。
$\langle Tv, v\rangle = \langle \lambda v, v\rangle = \lambda \|v\|^2$
同时:$\langle Tv, v\rangle = \langle v, T^* v\rangle = \langle v, T v\rangle = \langle v, \lambda v\rangle = \overline\lambda \|v\|^2$
$\lambda \|v\|^2 = \overline\lambda \|v\|^2$,$\|v\|^2 > 0 \Rightarrow \lambda = \overline\lambda \Rightarrow \lambda \in \mathbf{R}$。∎
这是 Axler 的 7.20 左右。提示已经给得很足,自己推。
$\|Tv\|^2 = \langle Tv, Tv\rangle = \langle v, T^*Tv\rangle$;$\|T^*v\|^2 = \langle v, T T^* v\rangle$。两者相等 $\iff T^*T = TT^*$(要用到"内积决定算子")。
$(\Rightarrow)$:设 $T$ 正规。对任意 $v$,$\|Tv\|^2 = \langle Tv, Tv\rangle = \langle v, T^* T v\rangle$。同理 $\|T^* v\|^2 = \langle v, T T^* v\rangle$。由 $T^* T = T T^*$ 两者相等。
$(\Leftarrow)$:设 $\|Tv\| = \|T^*v\|$ 对所有 $v$,即 $\langle v, (T^* T - T T^*)v\rangle = 0$。$T^* T - T T^*$ 自伴($(T^* T)^* = T^* T$),所以它自伴且 "内积 $\langle v, \cdot v\rangle = 0$ 对所有 $v$" 推出它是零算子(Ex 7A-13)。故 $T^* T = T T^*$。∎
关键小引理:自伴 $S$ 满足 $\langle Sv, v\rangle = 0 \forall v \Rightarrow S = 0$。可用极化恒等式证。
用实谱定理:自伴 $\Rightarrow$ 有正交规范特征基。此时 $T = Q \Lambda Q^\top$,$\Lambda = 0$。
由实谱定理,$T = Q \Lambda Q^\top$,$\Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)$。若所有 $\lambda_i = 0$,则 $\Lambda = 0$,所以 $T = Q \cdot 0 \cdot Q^\top = 0$。∎
注:这是"自伴"版本才有的性质。一般可对角化算子即使所有特征值 $= 0$ 也可以非零——但必须是可对角化的 $0$,即 $P \cdot 0 \cdot P^{-1} = 0$ 所以还是 0。其实这个结论在一般可对角化下也成立。真正的关键反例是非对角化算子:Jordan 块 $N = \begin{pmatrix}0 & 1 \\ 0 & 0\end{pmatrix}$ 所有特征值 $= 0$ 但 $N \neq 0$。所以"特征值都是 0 + 可对角化 ⇒ $T = 0$" 是准确表述,而自伴保证可对角化。
找 $U, \Sigma, V$ 使 $A = U \Sigma V^\top$。
先算 $A^\top A$,对它做谱分解得 $V$ 和 $\sigma_i^2$。然后 $u_i = A v_i / \sigma_i$ 得 $U$。
$A^\top A = \begin{pmatrix}3 & 4 \\ 0 & 5\end{pmatrix}\begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix} = \begin{pmatrix}25 & 20 \\ 20 & 25\end{pmatrix}$
特征值:$(25 - \lambda)^2 - 400 = 0 \Rightarrow \lambda - 25 = \pm 20 \Rightarrow \lambda_1 = 45, \lambda_2 = 5$
奇异值 $\sigma_1 = \sqrt{45} = 3\sqrt 5$,$\sigma_2 = \sqrt 5$
$V$ 的列($A^\top A$ 的特征向量):$\lambda = 45 \Rightarrow v_1 = \frac{1}{\sqrt 2}(1, 1)$;$\lambda = 5 \Rightarrow v_2 = \frac{1}{\sqrt 2}(1, -1)$
$U$ 的列:$u_i = A v_i / \sigma_i$。$u_1 = \frac{1}{3\sqrt 5} A \frac{(1,1)}{\sqrt 2} = \frac{1}{3\sqrt{10}}(3, 9) = \frac{1}{\sqrt{10}}(1, 3)$;$u_2 = \frac{1}{\sqrt 5} A \frac{(1,-1)}{\sqrt 2} = \frac{1}{\sqrt{10}}(3, -1)$
$U = \frac{1}{\sqrt{10}}\begin{pmatrix}1 & 3 \\ 3 & -1\end{pmatrix}$,$\Sigma = \begin{pmatrix}3\sqrt 5 & 0 \\ 0 & \sqrt 5\end{pmatrix}$,$V = \frac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ 1 & -1\end{pmatrix}$
验证:$U \Sigma V^\top$ 算一遍应该等于 $A$。
设 $A \in \mathbf{R}^{n \times n}$ 对称、$\lambda_1$ 是最大特征值。证明 $\lambda_1 = \max_{\|v\|=1} v^\top A v$,并证最大值在 $\lambda_1$ 对应的特征向量方向取得。
用实谱定理,在正交规范特征基 $(e_1, \ldots, e_n)$ 下写 $v = \sum c_i e_i$。用 $\|v\| = 1 \iff \sum c_i^2 = 1$。
由实谱定理,$A = Q \Lambda Q^\top$ 且 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n$。在特征基下 $v = \sum c_i e_i$,$\|v\|^2 = \sum c_i^2 = 1$。
$v^\top A v = \sum_i \lambda_i c_i^2 \;\leq\; \lambda_1 \sum_i c_i^2 = \lambda_1$。等号成立 $\iff c_1 = 1$ 且其他 $c_i = 0$(即 $v = e_1$)。∎
物理解读:PCA 第一主成分方向就是让 $v^\top \Sigma v$(方差)最大的 $\|v\|=1$ 方向。
设 $S, T$ 都是有限维复内积空间 $V$ 上的自伴算子且 $ST = TS$。证明:存在 $V$ 的一组正交规范基同时是 $S$ 和 $T$ 的特征基。
两步:(1) $ST = TS \Rightarrow$ $S$ 保持 $T$ 的每个特征空间不变。(2) 在每个 $E(\mu_j, T)$ 上对 $S$ 再做谱分解。
引理:若 $v \in E(\mu, T)$,则 $Sv \in E(\mu, T)$。
证:$T(Sv) = S(Tv) = S(\mu v) = \mu(Sv)$。✓
主证明:
$T$ 自伴 $\Rightarrow V = E(\mu_1, T) \oplus \cdots \oplus E(\mu_m, T)$(正交直和,谱定理)。
对每个 $E(\mu_j, T)$:$S|_{E(\mu_j, T)}$ 是从 $E(\mu_j, T)$ 到自身的算子(引理),自伴(继承 $S$ 的自伴性,因为 $E(\mu_j, T)$ 是闭的内积子空间),所以在 $E(\mu_j, T)$ 内也能谱分解——取正交规范特征基 $\beta_j$。
合并 $\beta = \beta_1 \cup \cdots \cup \beta_m$:每个向量同时是 $T$ 的特征向量(在某个 $E(\mu_j, T)$ 里)和 $S$ 的特征向量($\beta_j$ 的选择),又各 $\beta_j$ 内正交,不同 $\beta_j$ 间也正交(因 $E(\mu_j, T)$ 之间正交),所以 $\beta$ 是 $V$ 的正交规范基、同时对角化 $S$ 和 $T$。∎
物理意义:量子力学中"能量 + 角动量 $L_z$"可交换 $\Rightarrow$ 有共同本征态 $|n, \ell, m\rangle$。"位置 + 动量"不交换 $\Rightarrow$ 不能同时精确测——海森堡不确定性原理。
设 $X \in \mathbf{R}^{n \times p}$ 是数据矩阵(已中心化),$\Sigma = \frac{1}{n} X^\top X$ 是协方差矩阵。证明 $\Sigma$ 自伴且所有特征值 $\geq 0$。由此解释为什么 PCA 的"方差"量总是非负。
自伴很容易。非负用 Rayleigh:$v^\top \Sigma v = \frac{1}{n} \|Xv\|^2 \geq 0$ 对任意 $v$ 成立。
自伴:$\Sigma^\top = \frac{1}{n}(X^\top X)^\top = \frac{1}{n} X^\top X = \Sigma$。✓
特征值 $\geq 0$:设 $\Sigma v = \lambda v$,$v \neq 0$。由 Rayleigh:
$\lambda = \frac{v^\top \Sigma v}{v^\top v} = \frac{1}{n v^\top v} v^\top X^\top X v = \frac{\|Xv\|^2}{n \|v\|^2} \geq 0$ ✓
等号 $\lambda = 0 \iff \|Xv\| = 0 \iff Xv = 0 \iff v \in \operatorname{null} X$——这对应于"协方差 0 的方向"(冗余维度)。
PCA 诠释:特征向量 $q_i$ 方向的方差 $= q_i^\top \Sigma q_i = \lambda_i \geq 0$——这是方差的非负性,数学上由对称半正定矩阵的非负特征值保证。$\lambda_i = 0$ 意味着数据在该方向完全没有变化(常数),可安全丢掉。