7E Singular Value Decomposition · Axler 4e · pp.242–253

谱定理说"自伴算子可以被正交特征基对角化"。SVD 说"任何矩阵都可以被两个正交变换夹住对角化"。$A = U \Sigma V^\top$ 是数据科学最常被引用的一条公式——PCA、潜在语义分析、推荐系统、图像压缩、伪逆、极分解,全部建立在这一节。

0 · 符号对照

符号念作含义类型
$A$A任意矩阵(一般 $m \times n$,$m \neq n$ 也行)矩阵
$A^\top$ / $A^*$A 转置 / 共轭转置实转置($\mathbf{R}$)或共轭转置($\mathbf{C}$)矩阵
$A^\top A$A-transpose-A(Gram 矩阵)永远对称半正定,$n \times n$。用于 SVD 的构造对称 $\geq 0$ 矩阵
$\sigma_i$sigma i(奇异值)$A$ 的奇异值:$A^\top A$ 特征值的平方根,总 $\geq 0$$\geq 0$ 实数
$\Sigma$Sigma(大写)奇异值组成的"对角"矩阵,可能非方($m \times n$),对角元 $\sigma_1 \geq \sigma_2 \geq \cdots \geq 0$"对角"矩阵
$v_i$ / $V$右奇异向量$A^\top A$ 的正交规范特征向量;$V$ 是它们组成的正交/酉矩阵正交矩阵 $n \times n$
$u_i$ / $U$左奇异向量$u_i = A v_i / \sigma_i$($\sigma_i > 0$ 时);$U$ 是它们组成的正交/酉矩阵正交矩阵 $m \times m$
$A = U \Sigma V^\top$SVD 分解奇异值分解:任何矩阵的 "旋转-拉伸-旋转" 分解矩阵方程
$\operatorname{rank} A$A 的秩非零奇异值的个数,也等于 $\dim \operatorname{range} A$非负整数
$A^+$A-加(Moore-Penrose 伪逆)$V \Sigma^+ U^\top$,其中 $\Sigma^+$ 把非零 $\sigma_i$ 取倒、零保留矩阵
$\|A\|_F$A 的 Frobenius 范数$\sqrt{\sum_{i,j} A_{ij}^2} = \sqrt{\sum_i \sigma_i^2}$$\geq 0$ 实数
$\|A\|_2$A 的谱范数最大奇异值 $\sigma_1$$\geq 0$ 实数
$A_k$秩-k 最佳近似保留前 $k$ 个奇异值的截断:$A_k = \sum_{i=1}^k \sigma_i u_i v_i^\top$秩 $\leq k$ 矩阵
颜色约定 奇异值/椭圆主轴 · 单位圆/原始数据 · 左右奇异向量 · $\Sigma^{-1}$ 区域(秩亏损时) · $A$ 的像/四子空间中的 range

SVD 到底在说什么?

把任何矩阵 $A \in \mathbf{R}^{m \times n}$ 拆成"正交 × 对角 × 正交"三段的定理:

7E 奇异值分解. 存在正交矩阵 $U \in \mathbf{R}^{m \times m}$、正交矩阵 $V \in \mathbf{R}^{n \times n}$、非负对角矩阵 $\Sigma \in \mathbf{R}^{m \times n}$($\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0$ 后面全是 0,$r = \operatorname{rank} A$),使 $$ A \;=\; U \Sigma V^\top. $$

非方形矩阵也可以——这是和"对角化"最大的区别。$A$ 可以是 $1000 \times 3$ 的瘦长数据矩阵,也可以是 $3 \times 1000$ 的胖矩阵,都有 SVD。

唯一性:奇异值 $\sigma_i$ 是唯一的(按降序)。$U, V$ 不唯一(特征向量方向可以翻负号;简并情况下基可自由旋转)。


SVD 和谱定理(Ch 7B)什么关系?

SVD 是谱定理对"任意矩阵"的推广。一个对照表:

维度谱定理(7B)SVD(7E)
适用对象自伴算子 $T: V \to V$任意矩阵 $A: \mathbf{R}^n \to \mathbf{R}^m$
形状必为方阵任意 $m \times n$
分解$T = Q \Lambda Q^\top$$A = U \Sigma V^\top$
对角元特征值 $\lambda_i \in \mathbf{R}$(可正可负可零)奇异值 $\sigma_i \geq 0$(非负)
"对角化矩阵"一个正交 $Q$(左右一样)两个正交 $U \neq V$(源空间和目标空间不同)

关键观察:$A^\top A$ 永远是对称半正定的($v^\top A^\top A v = \|Av\|^2 \geq 0$),所以谱定理可以应用到 $A^\top A$——这就是为什么 SVD 总是存在,而且奇异值永远非负。

如果 $A$ 本身就是对称半正定的,SVD 和谱分解完全一致($U = V = Q$,$\sigma_i = \lambda_i$)。所以谱定理严格地是 SVD 的特例。


奇异值和特征值有什么区别?

常见混淆点。先说结论:

对称半正定方阵:$\sigma_i = \lambda_i$ 完全一致。

一般方阵:可能完全不同。例子:

$A = \begin{pmatrix}0 & 2 \\ 0 & 0\end{pmatrix}$,特征多项式 $\lambda^2 = 0$,双重特征值 $\lambda = 0$。
但 $A^\top A = \begin{pmatrix}0 & 0 \\ 0 & 4\end{pmatrix}$,奇异值 $\sigma_1 = 2, \sigma_2 = 0$。
$A$ 的"谱"(特征值全零)告诉你 $A$ 幂零;而奇异值告诉你 $A$ 在单位圆最远能把向量拉到 $\sigma_1 = 2$ 远。完全不同的信息

直观对比:特征值回答"算子沿哪些方向只拉伸不转"(可能有复数、可能重复退化);奇异值回答"算子能把单位向量最多放大到多长"(永远实、永远非负、永远能找到正交基)。


亲眼看 SVD 的三步分解(2D 交互)

任意 2×2 矩阵 $A$ 把单位圆变成椭圆。SVD 说这个"圆→椭圆"变换可以分三步完成:

  1. $V^\top$:把单位圆旋转(正交变换)——变的还是单位圆,只是选了新坐标轴($A^\top A$ 的特征方向)
  2. $\Sigma$:沿新坐标轴独立拉伸 $\sigma_1, \sigma_2$ 倍——椭圆出场,主轴沿坐标轴
  3. $U$:把椭圆再做一次刚性旋转——到最终位置

下面滑杆改 $A$,按"步骤"按钮切换观察不同阶段。紫色是右奇异向量 $v_1, v_2$($A^\top A$ 的特征方向),黄色是椭圆主轴($= \sigma_i u_i$,左奇异向量缩放后的)。

单位圆 椭圆(= A 作用后) 奇异向量

矩阵 $A = \begin{pmatrix}a & b \\ c & d\end{pmatrix}$

1.50
1.00
-0.50
2.00

SVD 分解


SVD 具体怎么算?

标准食谱,4 步:

  1. 算 $A^\top A$($n \times n$,对称半正定)
  2. 对 $A^\top A$ 做谱分解:特征值 $\lambda_i \geq 0$,正交规范特征向量 $v_i$。令 $\sigma_i = \sqrt{\lambda_i}$(按降序排),把 $v_i$ 作为 $V$ 的列
  3. 对每个 $\sigma_i > 0$,令 $u_i = A v_i / \sigma_i$。这些 $u_i$ 自动正交规范(§12 会证)
  4. 如果 $m > r$ = 非零奇异值个数,把 $U$ 的剩余列用 $\{u_1, \ldots, u_r\}$ 的正交补的任意正交规范基补齐

例子:$A = \begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix}$

$A^\top A = \begin{pmatrix}3 & 4 \\ 0 & 5\end{pmatrix}\begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix} = \begin{pmatrix}25 & 20 \\ 20 & 25\end{pmatrix}$
特征多项式 $(25 - \lambda)^2 - 400 = 0 \Rightarrow \lambda_1 = 45, \lambda_2 = 5$
奇异值 $\sigma_1 = 3\sqrt{5}, \sigma_2 = \sqrt{5}$
$v_1 = \tfrac{1}{\sqrt 2}(1,1), v_2 = \tfrac{1}{\sqrt 2}(1,-1)$
$u_1 = Av_1 / \sigma_1 = \tfrac{1}{\sqrt{10}}(1, 3), u_2 = Av_2 / \sigma_2 = \tfrac{1}{\sqrt{10}}(3, -1)$

上面 2D 交互的 SVD 读数就是跑这套流程实时算出来的。


"秩" 能从 SVD 直接读出来?

能,而且是比行阶梯式更稳定的定义:

7.53 定理. $\operatorname{rank} A = $ $A$ 的非零奇异值个数

为什么:$\operatorname{rank} A = \dim \operatorname{range} A$。$\operatorname{range} A = \operatorname{span}(u_1, \ldots, u_r)$ 其中 $u_i = A v_i / \sigma_i$(对 $\sigma_i > 0$)。非零 $\sigma_i$ 恰好有 $r$ 个,所以 $\operatorname{range} A$ 是 $r$ 维。

数值上的意义:实际数据里矩阵永远是"近乎秩亏"而不是"精确秩亏"——比如奇异值是 $(100, 10, 0.001, 0.0001)$。高斯消元得到的"秩"极敏感于浮点误差,而 SVD 告诉你"数值秩约为 2"非常稳定。这是为什么工业代码永远用 SVD 算秩,不用行阶梯式。

相关定理

这四组子空间就是 Q8 要讲的"线性代数基本定理"——SVD 把它们一并展示。


$A$ 不可逆时怎么"反演"?——伪逆(Moore-Penrose pseudoinverse)

非方阵或方阵但奇异的 $A$ 没有逆矩阵。SVD 给出的替代品叫伪逆

7E+ 伪逆定义. 若 $A = U \Sigma V^\top$,其中 $\Sigma$ 对角元为 $\sigma_1 \geq \cdots \geq \sigma_r > 0 = \cdots = 0$,定义 $$ A^+ \;=\; V \Sigma^+ U^\top, $$ 其中 $\Sigma^+$ 是把 $\Sigma$ 的非零对角元 $\sigma_i$ 变成 $1/\sigma_i$、零保留零、然后整个转置。

性质:$A^+$ 是"最接近逆"的矩阵——满足 $AA^+A = A$、$A^+AA^+ = A^+$,并且 $(AA^+)^\top = AA^+$、$(A^+A)^\top = A^+A$(Penrose 4 条件)。

最重要应用:最小二乘解。方程组 $Ax = b$ 在 $A$ 不可逆(欠定/超定)时无精确解。"最小二乘解"

$x^* \;=\; \arg\min_{x} \|Ax - b\|^2$

的解正好是 $x^* = A^+ b$。如果有多个最小二乘解(欠定),$A^+ b$ 是其中范数最小的那个。

比对:线性回归 $y = X \beta + \varepsilon$ 的经典闭式解 $\hat\beta = (X^\top X)^{-1} X^\top y$ 在 $X$ 列满秩时成立;$X$ 列亏时退化为 $\hat\beta = X^+ y$,总是可算。Scikit-learn 的 LinearRegression 底层就是走 SVD。


线性代数的"基本定理":四个基本子空间

SVD 一图打包了 $A$ 关联的所有四个子空间,它们成两对正交补:

$\mathbf{R}^n \;=\; \operatorname{range} A^\top \;\oplus\; \operatorname{null} A$ (源空间分解)
$\mathbf{R}^m \;=\; \operatorname{range} A \;\oplus\; \operatorname{null} A^\top$ (目标空间分解)

每一对是正交补:$\operatorname{range} A^\top \perp \operatorname{null} A$ 且 $\operatorname{range} A \perp \operatorname{null} A^\top$

SVD 给每个基

子空间维数
$\operatorname{range} A^\top$(行空间)$v_1, \ldots, v_r$$r$
$\operatorname{null} A$$v_{r+1}, \ldots, v_n$$n - r$
$\operatorname{range} A$(列空间)$u_1, \ldots, u_r$$r$
$\operatorname{null} A^\top$$u_{r+1}, \ldots, u_m$$m - r$

秩-零度定理直接可见:$\dim \operatorname{range} A^\top + \dim \operatorname{null} A = r + (n - r) = n$。

Gilbert Strang 称这为"the fundamental theorem of linear algebra"——它的几何视觉是:$A$ 把行空间(源空间的 $r$ 维部分)同构地映到列空间(目标空间的 $r$ 维部分),零空间全部塌成 0


3D 里 SVD 长什么样?(Three.js 交互)

任意 3×3 矩阵 $A$ 把单位球变成椭球(可能退化为椭圆/线段/点)。SVD 告诉你这椭球的 3 根主轴长度就是奇异值。

场景里:蓝线框球 = 单位球(参照),黄椭球 = $A$ 作用后的像,黄色 3 根轴 = 主轴(长度 $= \sigma_i$)。Space 暂停,R 复位相机。

奇异值主轴 单位球($\|v\| = 1$)

矩阵 $A \in \mathbf{R}^{3 \times 3}$

奇异值


低秩近似:Eckart-Young 定理

SVD 最震撼的应用之一:它不只是"分解"一个矩阵,还给出了最优的低秩近似

Eckart-Young 定理. 设 $A$ 的 SVD 是 $A = \sum_{i=1}^r \sigma_i u_i v_i^\top$(秩 $r$)。定义前 $k$ 项截断: $$ A_k \;=\; \sum_{i=1}^k \sigma_i u_i v_i^\top. $$ 则在所有秩 $\leq k$ 的矩阵 $B$ 中,$A_k$ 在 Frobenius 范数谱范数 下同时是最佳近似: $$ \|A - A_k\|_F \leq \|A - B\|_F, \quad \|A - A_k\|_2 \leq \|A - B\|_2. $$ 误差恰好是 $\|A - A_k\|_2 = \sigma_{k+1}$,$\|A - A_k\|_F^2 = \sum_{i=k+1}^r \sigma_i^2$。

直白解读:SVD 按奇异值大小排序了"最重要的模式"。丢掉最小的那些,剩下的秩 $k$ 近似是所有秩 $k$ 矩阵里误差最小的那个——没有争议、没有其他更好的选择。

应用 1 · 图像压缩:一张 $1000 \times 1000$ 灰度图有 $10^6$ 个数。做 SVD 保留前 50 个奇异值,只需存 $50 \times (1000 + 1000 + 1) \approx 10^5$ 个数——压缩 10 倍,视觉上看不出区别(大多数图像前 50 个奇异值占了 >95% 能量)。JPEG 的 DCT 是这种思路的固定基版本。

应用 2 · 去噪:如果数据 = 信号 + 噪声,信号通常是低秩的,噪声是高秩散布的。做 SVD,丢掉小的奇异值(噪声),保留大的(信号)——最简单而有效的去噪。


PCA = 数据矩阵的 SVD

Ch7B 讲了 PCA 是"协方差矩阵 $\Sigma = \frac{1}{n} X^\top X$ 的谱分解"。换个角度看,直接对数据矩阵 $X$ 做 SVD:

$X \;=\; U \Sigma V^\top$
$X^\top X \;=\; V \Sigma^\top \Sigma V^\top \;=\; V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_p^2) V^\top$

所以:

数值上的重要区别:直接对 $X$ 做 SVD 比"先算 $X^\top X$ 再对它做谱分解"数值稳定得多。$X^\top X$ 的条件数是 $X$ 的平方——形成 $X^\top X$ 就丢失了一半的数值精度。工业代码(scikit-learn、NumPy 的 np.linalg.svd)总是直接对 $X$ 做 SVD。

实务价值:这意味着你做 PCA 不需要内存里放下协方差矩阵。对 $X \in \mathbf{R}^{10^6 \times 1000}$,$X^\top X$ 是 $10^6$ 元素可行、但 randomized SVD 能直接从 $X$ 的流式读取算前 $k$ 主成分。这是大数据 PCA 的核心技术。


SVD 的存在性证明骨架

关键步骤是从"$A^\top A$ 的谱分解"爬到"$A$ 的 SVD"。

起点:$A^\top A$ 对称半正定。由谱定理存在正交矩阵 $V$ 使 $A^\top A = V D V^\top$,$D = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)$,$\lambda_i \geq 0$(Q11 证过半正定)。

按 $\lambda_i$ 降序,设 $\lambda_1, \ldots, \lambda_r > 0$,$\lambda_{r+1} = \cdots = \lambda_n = 0$。令 $\sigma_i = \sqrt{\lambda_i}$。

定义:$u_i = A v_i / \sigma_i$ 对 $i = 1, \ldots, r$(这里 $\sigma_i > 0$ 所以能除)。

要证明 $u_1, \ldots, u_r$ 正交规范

$\langle u_i, u_j\rangle \;=\; \frac{\langle A v_i, A v_j\rangle}{\sigma_i \sigma_j} \;=\; \frac{\langle v_i, A^\top A v_j\rangle}{\sigma_i \sigma_j} \;=\; \frac{\lambda_j \langle v_i, v_j\rangle}{\sigma_i \sigma_j} \;=\; \frac{\lambda_j}{\sigma_i \sigma_j} \delta_{ij} \;=\; \delta_{ij}$

最后一步用了 $\lambda_j = \sigma_j^2$ 和 $v_i, v_j$ 正交规范。

补齐 $U$:$u_1, \ldots, u_r$ 是 $\mathbf{R}^m$ 里的正交规范向量组,用任意扩张(Gram-Schmidt)补到完整正交规范基 $u_1, \ldots, u_m$。

验证 $A = U \Sigma V^\top$:看 $A V$ 的第 $i$ 列:

所以 $AV = U \Sigma$。因 $V$ 正交 $V^\top = V^{-1}$,得 $A = U \Sigma V^\top$。∎


7E 要记住的核心定理

SVD 存在性. 任何 $A \in \mathbf{R}^{m \times n}$ 可分解为 $A = U \Sigma V^\top$($U, V$ 正交,$\Sigma$ 对角非负降序)
奇异值的根源. $\sigma_i = \sqrt{\lambda_i(A^\top A)}$($A^\top A$ 特征值的平方根)
秩 = 非零奇异值个数. $\operatorname{rank} A$ 等于 $A$ 的非零奇异值个数
Eckart-Young. $A_k = \sum_{i=1}^k \sigma_i u_i v_i^\top$ 是所有秩 $\leq k$ 矩阵中与 $A$ 距离最小的($F$-范数和 2-范数下同时最优),误差 $\sigma_{k+1}$
伪逆. $A^+ = V \Sigma^+ U^\top$ 是最小二乘问题 $\min \|Ax - b\|$ 的最小范数解 $x^* = A^+ b$
四子空间. $v_{1..r}$ 张行空间、$v_{r+1..n}$ 张零空间;$u_{1..r}$ 张列空间、$u_{r+1..m}$ 张 $A^\top$ 零空间

Axler 7E 习题


SVD 在实战里真的无处不在

挑两个最有"啊原来是这个"感的应用。

应用 1 · Netflix 推荐系统的数学内核

评分矩阵 $R \in \mathbf{R}^{m \times n}$:$m$ 用户 × $n$ 电影,$R_{ij}$ 是用户 $i$ 对电影 $j$ 的打分(大部分是空的)。假设它大致是 低秩的——少数几个"兴趣因子"(动作/爱情/悬疑/...)就能解释绝大多数评分。

对已知评分做 截断 SVD $R \approx U_k \Sigma_k V_k^\top$(典型 $k \approx 20-100$):

预测用户 $i$ 对没看过的电影 $j$ 的评分:$\hat R_{ij} = \sum_{l=1}^k \sigma_l U_{il} V_{jl}$。Netflix Prize (2006-2009) 冠军方案的数学内核就是这个(加一些正则化和 bias)。

应用 2 · Latent Semantic Indexing(搜索的"理解同义词"能力)

文档-词项矩阵 $A \in \mathbf{R}^{D \times W}$:$D$ 篇文档 × $W$ 个词,$A_{dw}$ 是词 $w$ 在文档 $d$ 出现的 TF-IDF 权重。

问题:搜索"汽车"的用户可能也对"轿车"、"自动驾驶"感兴趣——词表面不同但语义相近。怎么让搜索引擎"理解"?

对 $A$ 做 SVD 截断,得到潜在语义空间:每篇文档和每个词都被嵌入到 $k \approx 300$ 维向量。意思相近的词("汽车"和"轿车")在这个空间里距离接近,因为它们在相同的文档里一起出现的模式类似。

搜索查询"汽车"变成一个 $k$ 维向量,用 cosine 相似度匹配所有文档向量——即便文档里不含"汽车"这个词,只含"轿车",也能被检索出来。这是 1990 年代 Deerwester 等人提出的 LSI,后来演化成 word2vec / BERT 等一众 embedding 方法,整个自然语言处理的代数根基。

"SVD 是 20 世纪最重要的数值算法之一"(Cleve Moler,MATLAB 创始人)。它在工程、统计、机器学习、图像处理、量子化学、地震学、控制论……几乎每个应用数学领域都扮演核心角色。原因其实只有一个:它用最少的正交变换把任意矩阵"对角化",而且给出了所有相关子空间的正交基

SVD 搞懂了,下一步?

Axler Ch7 最后的 7F 是 SVD 的延伸应用,值得快速翻一遍:

然后Ch 8 广义特征空间 / Jordan 分解是另一条线:处理"不能对角化但还想尽可能对角"的算子。属于线性代数的"收尾"——现实中很少直接用,但理论闭环必要。

再往后 Ch 9 行列式 = 有符号体积 是 Axler 压轴的视觉章节;Ch 10 多线性代数 / 张量 是通向微分几何 / 量子多体 / 深度学习的桥梁。

你完成 Ch 5 + Ch 6 + Ch 7 就相当于掌握了"现代线性代数标准包"——足以看懂 99% 的数据科学/ML/工程论文的数学部分。


★ 轮到你了——自测 8 题

每题想 3 分钟再看答案。难度:★ 概念 / ★★ 证明 / ★★★ 综合。

E1 ★下列矩阵,哪些的奇异值等于其特征值绝对值?

(a) $\operatorname{diag}(3, -2, 1)$   (b) $\begin{pmatrix}0 & 1 \\ 1 & 0\end{pmatrix}$(反射)   (c) $\begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$(剪切)   (d) $\begin{pmatrix}2 & 1 \\ 1 & 2\end{pmatrix}$(对称)

提示

结论:正规算子的奇异值 $= |\lambda_i|$。正规 ⇔ $AA^\top = A^\top A$。

答案

(a) ✅ 对角矩阵显然正规:$\sigma = (3, 2, 1) = (|3|, |-2|, |1|)$

(b) ✅ 反射是酉算子($A^\top A = I$),正规。$\lambda = \pm 1$,$\sigma = (1, 1) = (|-1|, |1|)$

(c) ❌ 剪切不正规($A^\top A \neq A A^\top$)。$\lambda = (1, 1)$(重复),但 $A^\top A = \begin{pmatrix}1 & 1\\1 & 2\end{pmatrix}$ 的特征值是 $\frac{3 \pm \sqrt 5}{2}$,奇异值是它们的根号 $\approx (1.618, 0.618)$——不等于 $|\lambda|$。

(d) ✅ 对称(自伴)必正规。$\lambda = (3, 1)$(Q11 of 7B 算过),$\sigma = (3, 1)$

E2 ★手动算 SVD:$A = \begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix}$

找 $U, \Sigma, V$,要求 $\sigma_1 \geq \sigma_2$ 降序。

提示

按 Q5 四步走:$A^\top A$ → 谱分解 → $v_i, \sigma_i$ → $u_i = A v_i / \sigma_i$。

答案

$A^\top A = \begin{pmatrix}25 & 20 \\ 20 & 25\end{pmatrix}$。特征值 $\lambda_1 = 45, \lambda_2 = 5$。奇异值 $\sigma_1 = 3\sqrt 5, \sigma_2 = \sqrt 5$。

特征向量:$v_1 = \tfrac{1}{\sqrt 2}(1, 1)^\top$,$v_2 = \tfrac{1}{\sqrt 2}(1, -1)^\top$。

$u_1 = A v_1 / \sigma_1 = \tfrac{1}{3\sqrt 5} \cdot \tfrac{1}{\sqrt 2} \begin{pmatrix}3 \\ 9\end{pmatrix} = \tfrac{1}{\sqrt{10}} \begin{pmatrix}1 \\ 3\end{pmatrix}$。

$u_2 = A v_2 / \sigma_2 = \tfrac{1}{\sqrt 5} \cdot \tfrac{1}{\sqrt 2} \begin{pmatrix}3 \\ -1\end{pmatrix} = \tfrac{1}{\sqrt{10}} \begin{pmatrix}3 \\ -1\end{pmatrix}$。

$U = \tfrac{1}{\sqrt{10}}\begin{pmatrix}1 & 3 \\ 3 & -1\end{pmatrix}$,$\Sigma = \operatorname{diag}(3\sqrt 5, \sqrt 5)$,$V = \tfrac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ 1 & -1\end{pmatrix}$。

验证 $U^\top U = I$(用 $1/10 \cdot (1 + 9) = 1$ 对角元 + $1/10 \cdot (3 - 3) = 0$ 非对角元)✓。

E3 ★★证明:$\|A\|_2 = \sigma_1$(Axler Ex 7E-6)

定义 $\|A\|_2 = \sup_{\|v\|=1} \|Av\|$。证明它等于最大奇异值 $\sigma_1$。

提示

用 SVD:$\|Av\|^2 = v^\top A^\top A v$,然后 Rayleigh。

答案

设 $A = U \Sigma V^\top$。$\|Av\|^2 = v^\top A^\top A v$。而 $A^\top A = V \Sigma^\top \Sigma V^\top = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_n^2) V^\top$。

在基 $(v_1, \ldots, v_n)$ 下写 $v = \sum c_i v_i$,$\|v\|^2 = \sum c_i^2 = 1$:

$\|Av\|^2 = v^\top A^\top A v = \sum \sigma_i^2 c_i^2 \leq \sigma_1^2 \sum c_i^2 = \sigma_1^2$

等号在 $c_1 = 1$ 其他为 0 时取得(即 $v = v_1$)。∎ 所以 $\|A\|_2 = \sigma_1$。

E4 ★★证明:正规算子的奇异值 $= |$特征值$|$

设 $A \in \mathbf{R}^{n \times n}$ 正规($A^\top A = A A^\top$,如对称/反对称/酉)。证奇异值和特征值的关系 $\sigma_i = |\lambda_i|$(按同一降序 $|\lambda|$)。

提示

复谱定理:正规 ⇒ 酉相似于对角矩阵 $\Lambda = \operatorname{diag}(\lambda_i)$。然后算 $A^\top A$ 在特征基下是什么。

答案

复谱定理给出 $A = Q \Lambda Q^*$($Q$ 酉,$\Lambda$ 对角,对角元是特征值 $\lambda_i \in \mathbf{C}$)。

$A^* A = Q \Lambda^* Q^* \cdot Q \Lambda Q^* = Q \Lambda^* \Lambda Q^* = Q \operatorname{diag}(|\lambda_i|^2) Q^*$。

所以 $A^* A$ 的特征值是 $|\lambda_i|^2$,它们的根号就是奇异值 $\sigma_i = |\lambda_i|$。按降序排对应。∎

反过来:不正规时,奇异值一般不等于 $|$特征值$|$(如剪切,见 E1(c))。

E5 ★★Frobenius 范数 $= \sqrt{\sum \sigma_i^2}$

证明 $\|A\|_F = \sqrt{\operatorname{tr}(A^\top A)} = \sqrt{\sum \sigma_i^2}$(所有奇异值的平方和开根)。

提示

迹在正交相似变换下不变:$\operatorname{tr}(UMU^\top) = \operatorname{tr}(M)$。

答案

$\|A\|_F^2 = \sum_{i,j} A_{ij}^2 = \operatorname{tr}(A^\top A)$(迹 = 对角元和,$A^\top A$ 的第 $j$ 个对角元是 $\sum_i A_{ij}^2$)。

由 SVD:$A^\top A = V \Sigma^\top \Sigma V^\top$,$\Sigma^\top \Sigma = \operatorname{diag}(\sigma_1^2, \ldots)$。

$\operatorname{tr}(A^\top A) = \operatorname{tr}(V \operatorname{diag}(\sigma_i^2) V^\top) = \operatorname{tr}(\operatorname{diag}(\sigma_i^2)) = \sum \sigma_i^2$

(中间用了 $\operatorname{tr}(VMV^\top) = \operatorname{tr}(V^\top V M) = \operatorname{tr}(M)$ 因为 $V$ 正交)。∎

E6 ★★伪逆给出最小二乘解

设 $A \in \mathbf{R}^{m \times n}$,$b \in \mathbf{R}^m$。证 $x^* = A^+ b$ 使 $\|Ax - b\|^2$ 最小。(不用其他定理,直接从 SVD 出发验。)

提示

代换 $y = V^\top x, c = U^\top b$,问题变成"最小化 $\|\Sigma y - c\|$"——对角矩阵最优解显然。

答案

$A = U\Sigma V^\top$,记 $y = V^\top x$($V$ 正交,所以可逆),$c = U^\top b$($U$ 正交,保长):

$\|Ax - b\|^2 = \|U\Sigma V^\top x - b\|^2 = \|U(\Sigma y - c)\|^2 = \|\Sigma y - c\|^2$

($U$ 正交保范数。)现在 $\Sigma$ 对角,问题完全解耦:$\|\Sigma y - c\|^2 = \sum_{i=1}^r (\sigma_i y_i - c_i)^2 + \sum_{i=r+1}^{\min(m,n)} c_i^2$(这里 $\sigma_i = 0$ 的项,$y_i$ 没影响误差)。

最小化:对 $i \leq r$ 取 $y_i = c_i / \sigma_i$;对 $i > r$($\sigma_i = 0$)取 $y_i = 0$(最小范数)。

这就是 $y = \Sigma^+ c$,即 $V^\top x = \Sigma^+ U^\top b$,所以 $x = V \Sigma^+ U^\top b = A^+ b$。∎

E7 ★★★Eckart-Young 一半(谱范数)

证:对所有秩 $\leq k$ 的矩阵 $B$,$\|A - B\|_2 \geq \sigma_{k+1}$(即 $A_k$ 不可被击败)。

提示

核心:$B$ 秩 $\leq k$ 意味着 $\operatorname{null} B$ 至少 $n - k$ 维。取 $V_{k+1} = \operatorname{span}(v_1, \ldots, v_{k+1})$ 是 $k+1$ 维,和 $\operatorname{null} B$ 必相交非零。

答案

设 $\operatorname{rank} B \leq k$,则 $\dim \operatorname{null} B \geq n - k$。令 $W = \operatorname{span}(v_1, \ldots, v_{k+1})$(前 $k+1$ 个右奇异向量张成的 $k+1$ 维子空间)。

$\dim W + \dim \operatorname{null} B \geq (k+1) + (n-k) = n + 1 > n$,所以 $W \cap \operatorname{null} B \neq \{0\}$。取非零 $v \in W \cap \operatorname{null} B$,归一化 $\|v\| = 1$。

$(A - B)v = Av - 0 = Av$。在 $W$ 里 $v = \sum_{i=1}^{k+1} c_i v_i$,$\|v\|^2 = \sum c_i^2 = 1$。

$\|Av\|^2 = \sum_{i=1}^{k+1} \sigma_i^2 c_i^2 \geq \sigma_{k+1}^2 \sum_{i=1}^{k+1} c_i^2 = \sigma_{k+1}^2$

(因 $\sigma_1 \geq \cdots \geq \sigma_{k+1}$,$\sigma_{k+1}$ 是最小的)。所以 $\|(A-B)v\| \geq \sigma_{k+1}$,故 $\|A - B\|_2 \geq \sigma_{k+1}$。∎

等号在 $B = A_k$ 时取得($\|A - A_k\|_2 = \sigma_{k+1}$,因为 $A - A_k = \sum_{i > k} \sigma_i u_i v_i^\top$,最大奇异值是 $\sigma_{k+1}$)。

E8 ★★★PCA 数据与 SVD 数据等价

设 $X \in \mathbf{R}^{n \times p}$ 是中心化数据矩阵(每列均值 $= 0$),$n > p$。证:对 $X$ 做 SVD $X = U \Sigma V^\top$ 和对 $X^\top X / n$ 做谱分解得到的主成分方向完全一致,且特征值 $= \sigma_i^2 / n$。

提示

直接展开 $X^\top X$ 用 SVD 表达。

答案

$X^\top X = V \Sigma^\top U^\top U \Sigma V^\top = V \Sigma^\top \Sigma V^\top$。$U^\top U = I$($U$ 正交的 $n \times n$,$n \geq p$)。

$\Sigma^\top \Sigma \in \mathbf{R}^{p \times p}$ 是对角矩阵,对角元为 $\sigma_1^2, \ldots, \sigma_p^2$。

所以 $X^\top X = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_p^2) V^\top$——这就是 $X^\top X$ 的谱分解,$V$ 的列是特征向量、$\sigma_i^2$ 是特征值。

除以 $n$:$\frac{X^\top X}{n}$ 的特征值是 $\sigma_i^2 / n$,特征向量不变。主成分方向和 SVD 的右奇异向量 $v_i$ 完全相同。∎

实务启示:永远用 SVD 实现 PCA,不要先形成协方差矩阵——数值稳定性差几个量级。

完成度自检:E1-E2 通 = 会识别和计算 SVD;E3-E6 能证明 = 理解 SVD 的代数性质;E7-E8 搞定 = 准备好做最小二乘、PCA、低秩近似、推荐系统。SVD 是整个 Ch7 的终点和数据科学的起点。