谱定理说"自伴算子可以被正交特征基对角化"。SVD 说"任何矩阵都可以被两个正交变换夹住对角化"。$A = U \Sigma V^\top$ 是数据科学最常被引用的一条公式——PCA、潜在语义分析、推荐系统、图像压缩、伪逆、极分解,全部建立在这一节。
| 符号 | 念作 | 含义 | 类型 |
|---|---|---|---|
| $A$ | A | 任意矩阵(一般 $m \times n$,$m \neq n$ 也行) | 矩阵 |
| $A^\top$ / $A^*$ | A 转置 / 共轭转置 | 实转置($\mathbf{R}$)或共轭转置($\mathbf{C}$) | 矩阵 |
| $A^\top A$ | A-transpose-A(Gram 矩阵) | 永远对称半正定,$n \times n$。用于 SVD 的构造 | 对称 $\geq 0$ 矩阵 |
| $\sigma_i$ | sigma i(奇异值) | $A$ 的奇异值:$A^\top A$ 特征值的平方根,总 $\geq 0$ | $\geq 0$ 实数 |
| $\Sigma$ | Sigma(大写) | 奇异值组成的"对角"矩阵,可能非方($m \times n$),对角元 $\sigma_1 \geq \sigma_2 \geq \cdots \geq 0$ | "对角"矩阵 |
| $v_i$ / $V$ | 右奇异向量 | $A^\top A$ 的正交规范特征向量;$V$ 是它们组成的正交/酉矩阵 | 正交矩阵 $n \times n$ |
| $u_i$ / $U$ | 左奇异向量 | $u_i = A v_i / \sigma_i$($\sigma_i > 0$ 时);$U$ 是它们组成的正交/酉矩阵 | 正交矩阵 $m \times m$ |
| $A = U \Sigma V^\top$ | SVD 分解 | 奇异值分解:任何矩阵的 "旋转-拉伸-旋转" 分解 | 矩阵方程 |
| $\operatorname{rank} A$ | A 的秩 | 非零奇异值的个数,也等于 $\dim \operatorname{range} A$ | 非负整数 |
| $A^+$ | A-加(Moore-Penrose 伪逆) | $V \Sigma^+ U^\top$,其中 $\Sigma^+$ 把非零 $\sigma_i$ 取倒、零保留 | 矩阵 |
| $\|A\|_F$ | A 的 Frobenius 范数 | $\sqrt{\sum_{i,j} A_{ij}^2} = \sqrt{\sum_i \sigma_i^2}$ | $\geq 0$ 实数 |
| $\|A\|_2$ | A 的谱范数 | 最大奇异值 $\sigma_1$ | $\geq 0$ 实数 |
| $A_k$ | 秩-k 最佳近似 | 保留前 $k$ 个奇异值的截断:$A_k = \sum_{i=1}^k \sigma_i u_i v_i^\top$ | 秩 $\leq k$ 矩阵 |
把任何矩阵 $A \in \mathbf{R}^{m \times n}$ 拆成"正交 × 对角 × 正交"三段的定理:
非方形矩阵也可以——这是和"对角化"最大的区别。$A$ 可以是 $1000 \times 3$ 的瘦长数据矩阵,也可以是 $3 \times 1000$ 的胖矩阵,都有 SVD。
唯一性:奇异值 $\sigma_i$ 是唯一的(按降序)。$U, V$ 不唯一(特征向量方向可以翻负号;简并情况下基可自由旋转)。
SVD 是谱定理对"任意矩阵"的推广。一个对照表:
| 维度 | 谱定理(7B) | SVD(7E) |
|---|---|---|
| 适用对象 | 自伴算子 $T: V \to V$ | 任意矩阵 $A: \mathbf{R}^n \to \mathbf{R}^m$ |
| 形状 | 必为方阵 | 任意 $m \times n$ |
| 分解 | $T = Q \Lambda Q^\top$ | $A = U \Sigma V^\top$ |
| 对角元 | 特征值 $\lambda_i \in \mathbf{R}$(可正可负可零) | 奇异值 $\sigma_i \geq 0$(非负) |
| "对角化矩阵" | 一个正交 $Q$(左右一样) | 两个正交 $U \neq V$(源空间和目标空间不同) |
关键观察:$A^\top A$ 永远是对称半正定的($v^\top A^\top A v = \|Av\|^2 \geq 0$),所以谱定理可以应用到 $A^\top A$——这就是为什么 SVD 总是存在,而且奇异值永远非负。
如果 $A$ 本身就是对称半正定的,SVD 和谱分解完全一致($U = V = Q$,$\sigma_i = \lambda_i$)。所以谱定理严格地是 SVD 的特例。
常见混淆点。先说结论:
对对称半正定方阵:$\sigma_i = \lambda_i$ 完全一致。
对一般方阵:可能完全不同。例子:
直观对比:特征值回答"算子沿哪些方向只拉伸不转"(可能有复数、可能重复退化);奇异值回答"算子能把单位向量最多放大到多长"(永远实、永远非负、永远能找到正交基)。
任意 2×2 矩阵 $A$ 把单位圆变成椭圆。SVD 说这个"圆→椭圆"变换可以分三步完成:
下面滑杆改 $A$,按"步骤"按钮切换观察不同阶段。紫色是右奇异向量 $v_1, v_2$($A^\top A$ 的特征方向),黄色是椭圆主轴($= \sigma_i u_i$,左奇异向量缩放后的)。
标准食谱,4 步:
例子:$A = \begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix}$
上面 2D 交互的 SVD 读数就是跑这套流程实时算出来的。
能,而且是比行阶梯式更稳定的定义:
为什么:$\operatorname{rank} A = \dim \operatorname{range} A$。$\operatorname{range} A = \operatorname{span}(u_1, \ldots, u_r)$ 其中 $u_i = A v_i / \sigma_i$(对 $\sigma_i > 0$)。非零 $\sigma_i$ 恰好有 $r$ 个,所以 $\operatorname{range} A$ 是 $r$ 维。
数值上的意义:实际数据里矩阵永远是"近乎秩亏"而不是"精确秩亏"——比如奇异值是 $(100, 10, 0.001, 0.0001)$。高斯消元得到的"秩"极敏感于浮点误差,而 SVD 告诉你"数值秩约为 2"非常稳定。这是为什么工业代码永远用 SVD 算秩,不用行阶梯式。
相关定理:
这四组子空间就是 Q8 要讲的"线性代数基本定理"——SVD 把它们一并展示。
非方阵或方阵但奇异的 $A$ 没有逆矩阵。SVD 给出的替代品叫伪逆:
性质:$A^+$ 是"最接近逆"的矩阵——满足 $AA^+A = A$、$A^+AA^+ = A^+$,并且 $(AA^+)^\top = AA^+$、$(A^+A)^\top = A^+A$(Penrose 4 条件)。
最重要应用:最小二乘解。方程组 $Ax = b$ 在 $A$ 不可逆(欠定/超定)时无精确解。"最小二乘解"
的解正好是 $x^* = A^+ b$。如果有多个最小二乘解(欠定),$A^+ b$ 是其中范数最小的那个。
比对:线性回归 $y = X \beta + \varepsilon$ 的经典闭式解 $\hat\beta = (X^\top X)^{-1} X^\top y$ 在 $X$ 列满秩时成立;$X$ 列亏时退化为 $\hat\beta = X^+ y$,总是可算。Scikit-learn 的 LinearRegression 底层就是走 SVD。
SVD 一图打包了 $A$ 关联的所有四个子空间,它们成两对正交补:
SVD 给每个基:
| 子空间 | 基 | 维数 |
|---|---|---|
| $\operatorname{range} A^\top$(行空间) | $v_1, \ldots, v_r$ | $r$ |
| $\operatorname{null} A$ | $v_{r+1}, \ldots, v_n$ | $n - r$ |
| $\operatorname{range} A$(列空间) | $u_1, \ldots, u_r$ | $r$ |
| $\operatorname{null} A^\top$ | $u_{r+1}, \ldots, u_m$ | $m - r$ |
秩-零度定理直接可见:$\dim \operatorname{range} A^\top + \dim \operatorname{null} A = r + (n - r) = n$。
Gilbert Strang 称这为"the fundamental theorem of linear algebra"——它的几何视觉是:$A$ 把行空间(源空间的 $r$ 维部分)同构地映到列空间(目标空间的 $r$ 维部分),零空间全部塌成 0。
任意 3×3 矩阵 $A$ 把单位球变成椭球(可能退化为椭圆/线段/点)。SVD 告诉你这椭球的 3 根主轴长度就是奇异值。
场景里:蓝线框球 = 单位球(参照),黄椭球 = $A$ 作用后的像,黄色 3 根轴 = 主轴(长度 $= \sigma_i$)。Space 暂停,R 复位相机。
SVD 最震撼的应用之一:它不只是"分解"一个矩阵,还给出了最优的低秩近似。
直白解读:SVD 按奇异值大小排序了"最重要的模式"。丢掉最小的那些,剩下的秩 $k$ 近似是所有秩 $k$ 矩阵里误差最小的那个——没有争议、没有其他更好的选择。
应用 1 · 图像压缩:一张 $1000 \times 1000$ 灰度图有 $10^6$ 个数。做 SVD 保留前 50 个奇异值,只需存 $50 \times (1000 + 1000 + 1) \approx 10^5$ 个数——压缩 10 倍,视觉上看不出区别(大多数图像前 50 个奇异值占了 >95% 能量)。JPEG 的 DCT 是这种思路的固定基版本。
应用 2 · 去噪:如果数据 = 信号 + 噪声,信号通常是低秩的,噪声是高秩散布的。做 SVD,丢掉小的奇异值(噪声),保留大的(信号)——最简单而有效的去噪。
Ch7B 讲了 PCA 是"协方差矩阵 $\Sigma = \frac{1}{n} X^\top X$ 的谱分解"。换个角度看,直接对数据矩阵 $X$ 做 SVD:
所以:
数值上的重要区别:直接对 $X$ 做 SVD 比"先算 $X^\top X$ 再对它做谱分解"数值稳定得多。$X^\top X$ 的条件数是 $X$ 的平方——形成 $X^\top X$ 就丢失了一半的数值精度。工业代码(scikit-learn、NumPy 的 np.linalg.svd)总是直接对 $X$ 做 SVD。
实务价值:这意味着你做 PCA 不需要内存里放下协方差矩阵。对 $X \in \mathbf{R}^{10^6 \times 1000}$,$X^\top X$ 是 $10^6$ 元素可行、但 randomized SVD 能直接从 $X$ 的流式读取算前 $k$ 主成分。这是大数据 PCA 的核心技术。
关键步骤是从"$A^\top A$ 的谱分解"爬到"$A$ 的 SVD"。
起点:$A^\top A$ 对称半正定。由谱定理存在正交矩阵 $V$ 使 $A^\top A = V D V^\top$,$D = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)$,$\lambda_i \geq 0$(Q11 证过半正定)。
按 $\lambda_i$ 降序,设 $\lambda_1, \ldots, \lambda_r > 0$,$\lambda_{r+1} = \cdots = \lambda_n = 0$。令 $\sigma_i = \sqrt{\lambda_i}$。
定义:$u_i = A v_i / \sigma_i$ 对 $i = 1, \ldots, r$(这里 $\sigma_i > 0$ 所以能除)。
要证明 $u_1, \ldots, u_r$ 正交规范:
最后一步用了 $\lambda_j = \sigma_j^2$ 和 $v_i, v_j$ 正交规范。
补齐 $U$:$u_1, \ldots, u_r$ 是 $\mathbf{R}^m$ 里的正交规范向量组,用任意扩张(Gram-Schmidt)补到完整正交规范基 $u_1, \ldots, u_m$。
验证 $A = U \Sigma V^\top$:看 $A V$ 的第 $i$ 列:
所以 $AV = U \Sigma$。因 $V$ 正交 $V^\top = V^{-1}$,得 $A = U \Sigma V^\top$。∎
挑两个最有"啊原来是这个"感的应用。
评分矩阵 $R \in \mathbf{R}^{m \times n}$:$m$ 用户 × $n$ 电影,$R_{ij}$ 是用户 $i$ 对电影 $j$ 的打分(大部分是空的)。假设它大致是 低秩的——少数几个"兴趣因子"(动作/爱情/悬疑/...)就能解释绝大多数评分。
对已知评分做 截断 SVD $R \approx U_k \Sigma_k V_k^\top$(典型 $k \approx 20-100$):
预测用户 $i$ 对没看过的电影 $j$ 的评分:$\hat R_{ij} = \sum_{l=1}^k \sigma_l U_{il} V_{jl}$。Netflix Prize (2006-2009) 冠军方案的数学内核就是这个(加一些正则化和 bias)。
文档-词项矩阵 $A \in \mathbf{R}^{D \times W}$:$D$ 篇文档 × $W$ 个词,$A_{dw}$ 是词 $w$ 在文档 $d$ 出现的 TF-IDF 权重。
问题:搜索"汽车"的用户可能也对"轿车"、"自动驾驶"感兴趣——词表面不同但语义相近。怎么让搜索引擎"理解"?
对 $A$ 做 SVD 截断,得到潜在语义空间:每篇文档和每个词都被嵌入到 $k \approx 300$ 维向量。意思相近的词("汽车"和"轿车")在这个空间里距离接近,因为它们在相同的文档里一起出现的模式类似。
搜索查询"汽车"变成一个 $k$ 维向量,用 cosine 相似度匹配所有文档向量——即便文档里不含"汽车"这个词,只含"轿车",也能被检索出来。这是 1990 年代 Deerwester 等人提出的 LSI,后来演化成 word2vec / BERT 等一众 embedding 方法,整个自然语言处理的代数根基。
Axler Ch7 最后的 7F 是 SVD 的延伸应用,值得快速翻一遍:
然后Ch 8 广义特征空间 / Jordan 分解是另一条线:处理"不能对角化但还想尽可能对角"的算子。属于线性代数的"收尾"——现实中很少直接用,但理论闭环必要。
再往后 Ch 9 行列式 = 有符号体积 是 Axler 压轴的视觉章节;Ch 10 多线性代数 / 张量 是通向微分几何 / 量子多体 / 深度学习的桥梁。
你完成 Ch 5 + Ch 6 + Ch 7 就相当于掌握了"现代线性代数标准包"——足以看懂 99% 的数据科学/ML/工程论文的数学部分。
每题想 3 分钟再看答案。难度:★ 概念 / ★★ 证明 / ★★★ 综合。
(a) $\operatorname{diag}(3, -2, 1)$ (b) $\begin{pmatrix}0 & 1 \\ 1 & 0\end{pmatrix}$(反射) (c) $\begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$(剪切) (d) $\begin{pmatrix}2 & 1 \\ 1 & 2\end{pmatrix}$(对称)
结论:正规算子的奇异值 $= |\lambda_i|$。正规 ⇔ $AA^\top = A^\top A$。
(a) ✅ 对角矩阵显然正规:$\sigma = (3, 2, 1) = (|3|, |-2|, |1|)$
(b) ✅ 反射是酉算子($A^\top A = I$),正规。$\lambda = \pm 1$,$\sigma = (1, 1) = (|-1|, |1|)$
(c) ❌ 剪切不正规($A^\top A \neq A A^\top$)。$\lambda = (1, 1)$(重复),但 $A^\top A = \begin{pmatrix}1 & 1\\1 & 2\end{pmatrix}$ 的特征值是 $\frac{3 \pm \sqrt 5}{2}$,奇异值是它们的根号 $\approx (1.618, 0.618)$——不等于 $|\lambda|$。
(d) ✅ 对称(自伴)必正规。$\lambda = (3, 1)$(Q11 of 7B 算过),$\sigma = (3, 1)$
找 $U, \Sigma, V$,要求 $\sigma_1 \geq \sigma_2$ 降序。
按 Q5 四步走:$A^\top A$ → 谱分解 → $v_i, \sigma_i$ → $u_i = A v_i / \sigma_i$。
$A^\top A = \begin{pmatrix}25 & 20 \\ 20 & 25\end{pmatrix}$。特征值 $\lambda_1 = 45, \lambda_2 = 5$。奇异值 $\sigma_1 = 3\sqrt 5, \sigma_2 = \sqrt 5$。
特征向量:$v_1 = \tfrac{1}{\sqrt 2}(1, 1)^\top$,$v_2 = \tfrac{1}{\sqrt 2}(1, -1)^\top$。
$u_1 = A v_1 / \sigma_1 = \tfrac{1}{3\sqrt 5} \cdot \tfrac{1}{\sqrt 2} \begin{pmatrix}3 \\ 9\end{pmatrix} = \tfrac{1}{\sqrt{10}} \begin{pmatrix}1 \\ 3\end{pmatrix}$。
$u_2 = A v_2 / \sigma_2 = \tfrac{1}{\sqrt 5} \cdot \tfrac{1}{\sqrt 2} \begin{pmatrix}3 \\ -1\end{pmatrix} = \tfrac{1}{\sqrt{10}} \begin{pmatrix}3 \\ -1\end{pmatrix}$。
$U = \tfrac{1}{\sqrt{10}}\begin{pmatrix}1 & 3 \\ 3 & -1\end{pmatrix}$,$\Sigma = \operatorname{diag}(3\sqrt 5, \sqrt 5)$,$V = \tfrac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ 1 & -1\end{pmatrix}$。
验证 $U^\top U = I$(用 $1/10 \cdot (1 + 9) = 1$ 对角元 + $1/10 \cdot (3 - 3) = 0$ 非对角元)✓。
定义 $\|A\|_2 = \sup_{\|v\|=1} \|Av\|$。证明它等于最大奇异值 $\sigma_1$。
用 SVD:$\|Av\|^2 = v^\top A^\top A v$,然后 Rayleigh。
设 $A = U \Sigma V^\top$。$\|Av\|^2 = v^\top A^\top A v$。而 $A^\top A = V \Sigma^\top \Sigma V^\top = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_n^2) V^\top$。
在基 $(v_1, \ldots, v_n)$ 下写 $v = \sum c_i v_i$,$\|v\|^2 = \sum c_i^2 = 1$:
$\|Av\|^2 = v^\top A^\top A v = \sum \sigma_i^2 c_i^2 \leq \sigma_1^2 \sum c_i^2 = \sigma_1^2$
等号在 $c_1 = 1$ 其他为 0 时取得(即 $v = v_1$)。∎ 所以 $\|A\|_2 = \sigma_1$。
设 $A \in \mathbf{R}^{n \times n}$ 正规($A^\top A = A A^\top$,如对称/反对称/酉)。证奇异值和特征值的关系 $\sigma_i = |\lambda_i|$(按同一降序 $|\lambda|$)。
复谱定理:正规 ⇒ 酉相似于对角矩阵 $\Lambda = \operatorname{diag}(\lambda_i)$。然后算 $A^\top A$ 在特征基下是什么。
复谱定理给出 $A = Q \Lambda Q^*$($Q$ 酉,$\Lambda$ 对角,对角元是特征值 $\lambda_i \in \mathbf{C}$)。
$A^* A = Q \Lambda^* Q^* \cdot Q \Lambda Q^* = Q \Lambda^* \Lambda Q^* = Q \operatorname{diag}(|\lambda_i|^2) Q^*$。
所以 $A^* A$ 的特征值是 $|\lambda_i|^2$,它们的根号就是奇异值 $\sigma_i = |\lambda_i|$。按降序排对应。∎
反过来:不正规时,奇异值一般不等于 $|$特征值$|$(如剪切,见 E1(c))。
证明 $\|A\|_F = \sqrt{\operatorname{tr}(A^\top A)} = \sqrt{\sum \sigma_i^2}$(所有奇异值的平方和开根)。
迹在正交相似变换下不变:$\operatorname{tr}(UMU^\top) = \operatorname{tr}(M)$。
$\|A\|_F^2 = \sum_{i,j} A_{ij}^2 = \operatorname{tr}(A^\top A)$(迹 = 对角元和,$A^\top A$ 的第 $j$ 个对角元是 $\sum_i A_{ij}^2$)。
由 SVD:$A^\top A = V \Sigma^\top \Sigma V^\top$,$\Sigma^\top \Sigma = \operatorname{diag}(\sigma_1^2, \ldots)$。
$\operatorname{tr}(A^\top A) = \operatorname{tr}(V \operatorname{diag}(\sigma_i^2) V^\top) = \operatorname{tr}(\operatorname{diag}(\sigma_i^2)) = \sum \sigma_i^2$
(中间用了 $\operatorname{tr}(VMV^\top) = \operatorname{tr}(V^\top V M) = \operatorname{tr}(M)$ 因为 $V$ 正交)。∎
设 $A \in \mathbf{R}^{m \times n}$,$b \in \mathbf{R}^m$。证 $x^* = A^+ b$ 使 $\|Ax - b\|^2$ 最小。(不用其他定理,直接从 SVD 出发验。)
代换 $y = V^\top x, c = U^\top b$,问题变成"最小化 $\|\Sigma y - c\|$"——对角矩阵最优解显然。
$A = U\Sigma V^\top$,记 $y = V^\top x$($V$ 正交,所以可逆),$c = U^\top b$($U$ 正交,保长):
$\|Ax - b\|^2 = \|U\Sigma V^\top x - b\|^2 = \|U(\Sigma y - c)\|^2 = \|\Sigma y - c\|^2$
($U$ 正交保范数。)现在 $\Sigma$ 对角,问题完全解耦:$\|\Sigma y - c\|^2 = \sum_{i=1}^r (\sigma_i y_i - c_i)^2 + \sum_{i=r+1}^{\min(m,n)} c_i^2$(这里 $\sigma_i = 0$ 的项,$y_i$ 没影响误差)。
最小化:对 $i \leq r$ 取 $y_i = c_i / \sigma_i$;对 $i > r$($\sigma_i = 0$)取 $y_i = 0$(最小范数)。
这就是 $y = \Sigma^+ c$,即 $V^\top x = \Sigma^+ U^\top b$,所以 $x = V \Sigma^+ U^\top b = A^+ b$。∎
证:对所有秩 $\leq k$ 的矩阵 $B$,$\|A - B\|_2 \geq \sigma_{k+1}$(即 $A_k$ 不可被击败)。
核心:$B$ 秩 $\leq k$ 意味着 $\operatorname{null} B$ 至少 $n - k$ 维。取 $V_{k+1} = \operatorname{span}(v_1, \ldots, v_{k+1})$ 是 $k+1$ 维,和 $\operatorname{null} B$ 必相交非零。
设 $\operatorname{rank} B \leq k$,则 $\dim \operatorname{null} B \geq n - k$。令 $W = \operatorname{span}(v_1, \ldots, v_{k+1})$(前 $k+1$ 个右奇异向量张成的 $k+1$ 维子空间)。
$\dim W + \dim \operatorname{null} B \geq (k+1) + (n-k) = n + 1 > n$,所以 $W \cap \operatorname{null} B \neq \{0\}$。取非零 $v \in W \cap \operatorname{null} B$,归一化 $\|v\| = 1$。
$(A - B)v = Av - 0 = Av$。在 $W$ 里 $v = \sum_{i=1}^{k+1} c_i v_i$,$\|v\|^2 = \sum c_i^2 = 1$。
$\|Av\|^2 = \sum_{i=1}^{k+1} \sigma_i^2 c_i^2 \geq \sigma_{k+1}^2 \sum_{i=1}^{k+1} c_i^2 = \sigma_{k+1}^2$
(因 $\sigma_1 \geq \cdots \geq \sigma_{k+1}$,$\sigma_{k+1}$ 是最小的)。所以 $\|(A-B)v\| \geq \sigma_{k+1}$,故 $\|A - B\|_2 \geq \sigma_{k+1}$。∎
等号在 $B = A_k$ 时取得($\|A - A_k\|_2 = \sigma_{k+1}$,因为 $A - A_k = \sum_{i > k} \sigma_i u_i v_i^\top$,最大奇异值是 $\sigma_{k+1}$)。
设 $X \in \mathbf{R}^{n \times p}$ 是中心化数据矩阵(每列均值 $= 0$),$n > p$。证:对 $X$ 做 SVD $X = U \Sigma V^\top$ 和对 $X^\top X / n$ 做谱分解得到的主成分方向完全一致,且特征值 $= \sigma_i^2 / n$。
直接展开 $X^\top X$ 用 SVD 表达。
$X^\top X = V \Sigma^\top U^\top U \Sigma V^\top = V \Sigma^\top \Sigma V^\top$。$U^\top U = I$($U$ 正交的 $n \times n$,$n \geq p$)。
$\Sigma^\top \Sigma \in \mathbf{R}^{p \times p}$ 是对角矩阵,对角元为 $\sigma_1^2, \ldots, \sigma_p^2$。
所以 $X^\top X = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_p^2) V^\top$——这就是 $X^\top X$ 的谱分解,$V$ 的列是特征向量、$\sigma_i^2$ 是特征值。
除以 $n$:$\frac{X^\top X}{n}$ 的特征值是 $\sigma_i^2 / n$,特征向量不变。主成分方向和 SVD 的右奇异向量 $v_i$ 完全相同。∎
实务启示:永远用 SVD 实现 PCA,不要先形成协方差矩阵——数值稳定性差几个量级。