Axler 7E · Singular Value Decomposition

符号	念作	含义	类型
$A$	A	任意矩阵（一般 $m \times n$，$m \neq n$ 也行）	矩阵
$A^\top$ / $A^*$	A 转置 / 共轭转置	实转置（$\mathbf{R}$）或共轭转置（$\mathbf{C}$）	矩阵
$A^\top A$	A-transpose-A（Gram 矩阵）	永远对称半正定，$n \times n$。用于 SVD 的构造	对称 $\geq 0$ 矩阵
$\sigma_i$	sigma i（奇异值）	$A$ 的奇异值：$A^\top A$ 特征值的平方根，总 $\geq 0$	$\geq 0$ 实数
$\Sigma$	Sigma（大写）	奇异值组成的"对角"矩阵，可能非方（$m \times n$），对角元 $\sigma_1 \geq \sigma_2 \geq \cdots \geq 0$	"对角"矩阵
$v_i$ / $V$	右奇异向量	$A^\top A$ 的正交规范特征向量；$V$ 是它们组成的正交/酉矩阵	正交矩阵 $n \times n$
$u_i$ / $U$	左奇异向量	$u_i = A v_i / \sigma_i$（$\sigma_i > 0$ 时）；$U$ 是它们组成的正交/酉矩阵	正交矩阵 $m \times m$
$A = U \Sigma V^\top$	SVD 分解	奇异值分解：任何矩阵的 "旋转-拉伸-旋转" 分解	矩阵方程
$\operatorname{rank} A$	A 的秩	非零奇异值的个数，也等于 $\dim \operatorname{range} A$	非负整数
$A^+$	A-加（Moore-Penrose 伪逆）	$V \Sigma^+ U^\top$，其中 $\Sigma^+$ 把非零 $\sigma_i$ 取倒、零保留	矩阵
$\\|A\\|_F$	A 的 Frobenius 范数	$\sqrt{\sum_{i,j} A_{ij}^2} = \sqrt{\sum_i \sigma_i^2}$	$\geq 0$ 实数
$\\|A\\|_2$	A 的谱范数	最大奇异值 $\sigma_1$	$\geq 0$ 实数
$A_k$	秩-k 最佳近似	保留前 $k$ 个奇异值的截断：$A_k = \sum_{i=1}^k \sigma_i u_i v_i^\top$	秩 $\leq k$ 矩阵

SVD 到底在说什么？

把任何矩阵 $A \in \mathbf{R}^{m \times n}$ 拆成"正交 × 对角 × 正交"三段的定理：

7E 奇异值分解. 存在正交矩阵 $U \in \mathbf{R}^{m \times m}$、正交矩阵 $V \in \mathbf{R}^{n \times n}$、非负对角矩阵 $\Sigma \in \mathbf{R}^{m \times n}$（$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0$ 后面全是 0，$r = \operatorname{rank} A$），使 $$ A \;=\; U \Sigma V^\top. $$

非方形矩阵也可以——这是和"对角化"最大的区别。$A$ 可以是 $1000 \times 3$ 的瘦长数据矩阵，也可以是 $3 \times 1000$ 的胖矩阵，都有 SVD。

唯一性：奇异值 $\sigma_i$ 是唯一的（按降序）。$U, V$ 不唯一（特征向量方向可以翻负号；简并情况下基可自由旋转）。

SVD 和谱定理（Ch 7B）什么关系？

SVD 是谱定理对"任意矩阵"的推广。一个对照表：

维度	谱定理（7B）	SVD（7E）
适用对象	自伴算子 $T: V \to V$	任意矩阵 $A: \mathbf{R}^n \to \mathbf{R}^m$
形状	必为方阵	任意 $m \times n$
分解	$T = Q \Lambda Q^\top$	$A = U \Sigma V^\top$
对角元	特征值 $\lambda_i \in \mathbf{R}$（可正可负可零）	奇异值 $\sigma_i \geq 0$（非负）
"对角化矩阵"	一个正交 $Q$（左右一样）	两个正交 $U \neq V$（源空间和目标空间不同）

关键观察：$A^\top A$ 永远是对称半正定的（$v^\top A^\top A v = \|Av\|^2 \geq 0$），所以谱定理可以应用到 $A^\top A$——这就是为什么 SVD 总是存在，而且奇异值永远非负。

如果 $A$ 本身就是对称半正定的，SVD 和谱分解完全一致（$U = V = Q$，$\sigma_i = \lambda_i$）。所以谱定理严格地是 SVD 的特例。

奇异值和特征值有什么区别？

常见混淆点。先说结论：

只有方阵 $A$ 才有特征值 $\lambda$
任何矩阵都有奇异值 $\sigma$
$A$ 的奇异值 $=$ $\sqrt{A^\top A}$ 的特征值（所以永远 $\geq 0$）

对对称半正定方阵：$\sigma_i = \lambda_i$ 完全一致。

对一般方阵：可能完全不同。例子：

$A = \begin{pmatrix}0 & 2 \\ 0 & 0\end{pmatrix}$，特征多项式 $\lambda^2 = 0$，双重特征值 $\lambda = 0$。
但 $A^\top A = \begin{pmatrix}0 & 0 \\ 0 & 4\end{pmatrix}$，奇异值 $\sigma_1 = 2, \sigma_2 = 0$。
$A$ 的"谱"（特征值全零）告诉你 $A$ 幂零；而奇异值告诉你 $A$ 在单位圆最远能把向量拉到 $\sigma_1 = 2$ 远。完全不同的信息。

直观对比：特征值回答"算子沿哪些方向只拉伸不转"（可能有复数、可能重复退化）；奇异值回答"算子能把单位向量最多放大到多长"（永远实、永远非负、永远能找到正交基）。

亲眼看 SVD 的三步分解（2D 交互）

任意 2×2 矩阵 $A$ 把单位圆变成椭圆。SVD 说这个"圆→椭圆"变换可以分三步完成：

$V^\top$：把单位圆旋转（正交变换）——变的还是单位圆，只是选了新坐标轴（$A^\top A$ 的特征方向）
$\Sigma$：沿新坐标轴独立拉伸 $\sigma_1, \sigma_2$ 倍——椭圆出场，主轴沿坐标轴
$U$：把椭圆再做一次刚性旋转——到最终位置

下面滑杆改 $A$，按"步骤"按钮切换观察不同阶段。紫色是右奇异向量 $v_1, v_2$（$A^\top A$ 的特征方向），黄色是椭圆主轴（$= \sigma_i u_i$，左奇异向量缩放后的）。

单位圆椭圆（= A 作用后）奇异向量

矩阵 $A = \begin{pmatrix}a & b \\ c & d\end{pmatrix}$

a1.50

b1.00

c-0.50

d2.00

SVD 分解

SVD 具体怎么算？

标准食谱，4 步：

算 $A^\top A$（$n \times n$，对称半正定）
对 $A^\top A$ 做谱分解：特征值 $\lambda_i \geq 0$，正交规范特征向量 $v_i$。令 $\sigma_i = \sqrt{\lambda_i}$（按降序排），把 $v_i$ 作为 $V$ 的列
对每个 $\sigma_i > 0$，令 $u_i = A v_i / \sigma_i$。这些 $u_i$ 自动正交规范（§12 会证）
如果 $m > r$ = 非零奇异值个数，把 $U$ 的剩余列用 $\{u_1, \ldots, u_r\}$ 的正交补的任意正交规范基补齐

例子：$A = \begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix}$

$A^\top A = \begin{pmatrix}3 & 4 \\ 0 & 5\end{pmatrix}\begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix} = \begin{pmatrix}25 & 20 \\ 20 & 25\end{pmatrix}$
特征多项式 $(25 - \lambda)^2 - 400 = 0 \Rightarrow \lambda_1 = 45, \lambda_2 = 5$
奇异值 $\sigma_1 = 3\sqrt{5}, \sigma_2 = \sqrt{5}$
$v_1 = \tfrac{1}{\sqrt 2}(1,1), v_2 = \tfrac{1}{\sqrt 2}(1,-1)$
$u_1 = Av_1 / \sigma_1 = \tfrac{1}{\sqrt{10}}(1, 3), u_2 = Av_2 / \sigma_2 = \tfrac{1}{\sqrt{10}}(3, -1)$

上面 2D 交互的 SVD 读数就是跑这套流程实时算出来的。

"秩" 能从 SVD 直接读出来？

能，而且是比行阶梯式更稳定的定义：

7.53 定理. $\operatorname{rank} A = $ $A$ 的非零奇异值个数。

为什么：$\operatorname{rank} A = \dim \operatorname{range} A$。$\operatorname{range} A = \operatorname{span}(u_1, \ldots, u_r)$ 其中 $u_i = A v_i / \sigma_i$（对 $\sigma_i > 0$）。非零 $\sigma_i$ 恰好有 $r$ 个，所以 $\operatorname{range} A$ 是 $r$ 维。

数值上的意义：实际数据里矩阵永远是"近乎秩亏"而不是"精确秩亏"——比如奇异值是 $(100, 10, 0.001, 0.0001)$。高斯消元得到的"秩"极敏感于浮点误差，而 SVD 告诉你"数值秩约为 2"非常稳定。这是为什么工业代码永远用 SVD 算秩，不用行阶梯式。

相关定理：

$\operatorname{null} A$ 由 $\{v_i : \sigma_i = 0\}$ 张成（右奇异向量中对应零奇异值的）
$\operatorname{range} A^\top$ 由 $\{v_i : \sigma_i > 0\}$ 张成
$\operatorname{range} A$ 由 $\{u_i : \sigma_i > 0\}$ 张成
$\operatorname{null} A^\top$ 由 $\{u_i : \sigma_i = 0\}$ 张成

这四组子空间就是 Q8 要讲的"线性代数基本定理"——SVD 把它们一并展示。

$A$ 不可逆时怎么"反演"？——伪逆（Moore-Penrose pseudoinverse）

非方阵或方阵但奇异的 $A$ 没有逆矩阵。SVD 给出的替代品叫伪逆：

7E+ 伪逆定义. 若 $A = U \Sigma V^\top$，其中 $\Sigma$ 对角元为 $\sigma_1 \geq \cdots \geq \sigma_r > 0 = \cdots = 0$，定义 $$ A^+ \;=\; V \Sigma^+ U^\top, $$ 其中 $\Sigma^+$ 是把 $\Sigma$ 的非零对角元 $\sigma_i$ 变成 $1/\sigma_i$、零保留零、然后整个转置。

性质：$A^+$ 是"最接近逆"的矩阵——满足 $AA^+A = A$、$A^+AA^+ = A^+$，并且 $(AA^+)^\top = AA^+$、$(A^+A)^\top = A^+A$（Penrose 4 条件）。

最重要应用：最小二乘解。方程组 $Ax = b$ 在 $A$ 不可逆（欠定/超定）时无精确解。"最小二乘解"

$x^* \;=\; \arg\min_{x} \|Ax - b\|^2$

的解正好是 $x^* = A^+ b$。如果有多个最小二乘解（欠定），$A^+ b$ 是其中范数最小的那个。

比对：线性回归 $y = X \beta + \varepsilon$ 的经典闭式解 $\hat\beta = (X^\top X)^{-1} X^\top y$ 在 $X$ 列满秩时成立；$X$ 列亏时退化为 $\hat\beta = X^+ y$，总是可算。Scikit-learn 的 LinearRegression 底层就是走 SVD。

线性代数的"基本定理"：四个基本子空间

SVD 一图打包了 $A$ 关联的所有四个子空间，它们成两对正交补：

$\mathbf{R}^n \;=\; \operatorname{range} A^\top \;\oplus\; \operatorname{null} A$ （源空间分解）
$\mathbf{R}^m \;=\; \operatorname{range} A \;\oplus\; \operatorname{null} A^\top$ （目标空间分解）

每一对是正交补：$\operatorname{range} A^\top \perp \operatorname{null} A$ 且 $\operatorname{range} A \perp \operatorname{null} A^\top$

SVD 给每个基：

子空间	基	维数
$\operatorname{range} A^\top$（行空间）	$v_1, \ldots, v_r$	$r$
$\operatorname{null} A$	$v_{r+1}, \ldots, v_n$	$n - r$
$\operatorname{range} A$（列空间）	$u_1, \ldots, u_r$	$r$
$\operatorname{null} A^\top$	$u_{r+1}, \ldots, u_m$	$m - r$

秩-零度定理直接可见：$\dim \operatorname{range} A^\top + \dim \operatorname{null} A = r + (n - r) = n$。

Gilbert Strang 称这为"the fundamental theorem of linear algebra"——它的几何视觉是：$A$ 把行空间（源空间的 $r$ 维部分）同构地映到列空间（目标空间的 $r$ 维部分），零空间全部塌成 0。

3D 里 SVD 长什么样？（Three.js 交互）

任意 3×3 矩阵 $A$ 把单位球变成椭球（可能退化为椭圆/线段/点）。SVD 告诉你这椭球的 3 根主轴长度就是奇异值。

场景里：蓝线框球 = 单位球（参照），黄椭球 = $A$ 作用后的像，黄色 3 根轴 = 主轴（长度 $= \sigma_i$）。Space 暂停，R 复位相机。

奇异值主轴单位球（$\|v\| = 1$）

矩阵 $A \in \mathbf{R}^{3 \times 3}$

奇异值

低秩近似：Eckart-Young 定理

SVD 最震撼的应用之一：它不只是"分解"一个矩阵，还给出了最优的低秩近似。

Eckart-Young 定理. 设 $A$ 的 SVD 是 $A = \sum_{i=1}^r \sigma_i u_i v_i^\top$（秩 $r$）。定义前 $k$ 项截断： $$ A_k \;=\; \sum_{i=1}^k \sigma_i u_i v_i^\top. $$ 则在所有秩 $\leq k$ 的矩阵 $B$ 中，$A_k$ 在 Frobenius 范数和 谱范数 下同时是最佳近似： $$ \|A - A_k\|_F \leq \|A - B\|_F, \quad \|A - A_k\|_2 \leq \|A - B\|_2. $$ 误差恰好是 $\|A - A_k\|_2 = \sigma_{k+1}$，$\|A - A_k\|_F^2 = \sum_{i=k+1}^r \sigma_i^2$。

直白解读：SVD 按奇异值大小排序了"最重要的模式"。丢掉最小的那些，剩下的秩 $k$ 近似是所有秩 $k$ 矩阵里误差最小的那个——没有争议、没有其他更好的选择。

应用 1 · 图像压缩：一张 $1000 \times 1000$ 灰度图有 $10^6$ 个数。做 SVD 保留前 50 个奇异值，只需存 $50 \times (1000 + 1000 + 1) \approx 10^5$ 个数——压缩 10 倍，视觉上看不出区别（大多数图像前 50 个奇异值占了 >95% 能量）。JPEG 的 DCT 是这种思路的固定基版本。

应用 2 · 去噪：如果数据 = 信号 + 噪声，信号通常是低秩的，噪声是高秩散布的。做 SVD，丢掉小的奇异值（噪声），保留大的（信号）——最简单而有效的去噪。

PCA = 数据矩阵的 SVD

Ch7B 讲了 PCA 是"协方差矩阵 $\Sigma = \frac{1}{n} X^\top X$ 的谱分解"。换个角度看，直接对数据矩阵 $X$ 做 SVD：

$X \;=\; U \Sigma V^\top$
$X^\top X \;=\; V \Sigma^\top \Sigma V^\top \;=\; V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_p^2) V^\top$

所以：

$V$ 的列 = $X^\top X$ 的特征向量 = PCA 主成分方向
$\sigma_i^2 / n$ = $X^\top X / n$ 的特征值 = 第 $i$ 主成分的方差
$U \Sigma$ 的前 $k$ 列 = 数据投影到前 $k$ 主成分后的坐标（$n \times k$ 矩阵）

数值上的重要区别：直接对 $X$ 做 SVD 比"先算 $X^\top X$ 再对它做谱分解"数值稳定得多。$X^\top X$ 的条件数是 $X$ 的平方——形成 $X^\top X$ 就丢失了一半的数值精度。工业代码（scikit-learn、NumPy 的 np.linalg.svd）总是直接对 $X$ 做 SVD。

实务价值：这意味着你做 PCA 不需要内存里放下协方差矩阵。对 $X \in \mathbf{R}^{10^6 \times 1000}$，$X^\top X$ 是 $10^6$ 元素可行、但 randomized SVD 能直接从 $X$ 的流式读取算前 $k$ 主成分。这是大数据 PCA 的核心技术。

SVD 的存在性证明骨架

关键步骤是从"$A^\top A$ 的谱分解"爬到"$A$ 的 SVD"。

起点：$A^\top A$ 对称半正定。由谱定理存在正交矩阵 $V$ 使 $A^\top A = V D V^\top$，$D = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)$，$\lambda_i \geq 0$（Q11 证过半正定）。

按 $\lambda_i$ 降序，设 $\lambda_1, \ldots, \lambda_r > 0$，$\lambda_{r+1} = \cdots = \lambda_n = 0$。令 $\sigma_i = \sqrt{\lambda_i}$。

定义：$u_i = A v_i / \sigma_i$ 对 $i = 1, \ldots, r$（这里 $\sigma_i > 0$ 所以能除）。

要证明 $u_1, \ldots, u_r$ 正交规范：

$\langle u_i, u_j\rangle \;=\; \frac{\langle A v_i, A v_j\rangle}{\sigma_i \sigma_j} \;=\; \frac{\langle v_i, A^\top A v_j\rangle}{\sigma_i \sigma_j} \;=\; \frac{\lambda_j \langle v_i, v_j\rangle}{\sigma_i \sigma_j} \;=\; \frac{\lambda_j}{\sigma_i \sigma_j} \delta_{ij} \;=\; \delta_{ij}$

最后一步用了 $\lambda_j = \sigma_j^2$ 和 $v_i, v_j$ 正交规范。

补齐 $U$：$u_1, \ldots, u_r$ 是 $\mathbf{R}^m$ 里的正交规范向量组，用任意扩张（Gram-Schmidt）补到完整正交规范基 $u_1, \ldots, u_m$。

验证 $A = U \Sigma V^\top$：看 $A V$ 的第 $i$ 列：

$i \leq r$：$A v_i = \sigma_i u_i$（定义）
$i > r$：$A v_i = 0$（因为 $\|A v_i\|^2 = \langle v_i, A^\top A v_i\rangle = \lambda_i \|v_i\|^2 = 0$）

所以 $AV = U \Sigma$。因 $V$ 正交 $V^\top = V^{-1}$，得 $A = U \Sigma V^\top$。∎

7E 要记住的核心定理

SVD 存在性. 任何 $A \in \mathbf{R}^{m \times n}$ 可分解为 $A = U \Sigma V^\top$（$U, V$ 正交，$\Sigma$ 对角非负降序）

奇异值的根源. $\sigma_i = \sqrt{\lambda_i(A^\top A)}$（$A^\top A$ 特征值的平方根）

秩 = 非零奇异值个数. $\operatorname{rank} A$ 等于 $A$ 的非零奇异值个数

Eckart-Young. $A_k = \sum_{i=1}^k \sigma_i u_i v_i^\top$ 是所有秩 $\leq k$ 矩阵中与 $A$ 距离最小的（$F$-范数和 2-范数下同时最优），误差 $\sigma_{k+1}$

伪逆. $A^+ = V \Sigma^+ U^\top$ 是最小二乘问题 $\min \|Ax - b\|$ 的最小范数解 $x^* = A^+ b$

四子空间. $v_{1..r}$ 张行空间、$v_{r+1..n}$ 张零空间；$u_{1..r}$ 张列空间、$u_{r+1..m}$ 张 $A^\top$ 零空间

Axler 7E 习题

Ex 7E-6：证 $\|A\|_2 = \sigma_1$（谱范数 = 最大奇异值）
Ex 7E-9：若 $A$ 正规，SVD 和特征值分解什么关系？
Ex 7E-13：$A^+ A$ 和 $A A^+$ 分别是什么算子？

SVD 在实战里真的无处不在

挑两个最有"啊原来是这个"感的应用。

应用 1 · Netflix 推荐系统的数学内核

评分矩阵 $R \in \mathbf{R}^{m \times n}$：$m$ 用户 × $n$ 电影，$R_{ij}$ 是用户 $i$ 对电影 $j$ 的打分（大部分是空的）。假设它大致是低秩的——少数几个"兴趣因子"（动作/爱情/悬疑/...）就能解释绝大多数评分。

对已知评分做 截断 SVD $R \approx U_k \Sigma_k V_k^\top$（典型 $k \approx 20-100$）：

$U_k$ 的第 $i$ 行 = 用户 $i$ 的 $k$ 维"兴趣向量"（在 $k$ 个潜在因子上的偏好）
$V_k$ 的第 $j$ 行 = 电影 $j$ 的 $k$ 维"特征向量"（在 $k$ 个潜在因子上的得分）
$\sigma_i$ = 第 $i$ 个潜在因子的重要性

预测用户 $i$ 对没看过的电影 $j$ 的评分：$\hat R_{ij} = \sum_{l=1}^k \sigma_l U_{il} V_{jl}$。Netflix Prize (2006-2009) 冠军方案的数学内核就是这个（加一些正则化和 bias）。

应用 2 · Latent Semantic Indexing（搜索的"理解同义词"能力）

文档-词项矩阵 $A \in \mathbf{R}^{D \times W}$：$D$ 篇文档 × $W$ 个词，$A_{dw}$ 是词 $w$ 在文档 $d$ 出现的 TF-IDF 权重。

问题：搜索"汽车"的用户可能也对"轿车"、"自动驾驶"感兴趣——词表面不同但语义相近。怎么让搜索引擎"理解"？

对 $A$ 做 SVD 截断，得到潜在语义空间：每篇文档和每个词都被嵌入到 $k \approx 300$ 维向量。意思相近的词（"汽车"和"轿车"）在这个空间里距离接近，因为它们在相同的文档里一起出现的模式类似。

搜索查询"汽车"变成一个 $k$ 维向量，用 cosine 相似度匹配所有文档向量——即便文档里不含"汽车"这个词，只含"轿车"，也能被检索出来。这是 1990 年代 Deerwester 等人提出的 LSI，后来演化成 word2vec / BERT 等一众 embedding 方法，整个自然语言处理的代数根基。

"SVD 是 20 世纪最重要的数值算法之一"（Cleve Moler，MATLAB 创始人）。它在工程、统计、机器学习、图像处理、量子化学、地震学、控制论……几乎每个应用数学领域都扮演核心角色。原因其实只有一个：它用最少的正交变换把任意矩阵"对角化"，而且给出了所有相关子空间的正交基。

SVD 搞懂了，下一步？

Axler Ch7 最后的 7F 是 SVD 的延伸应用，值得快速翻一遍：

极分解（polar decomposition）：任何方阵 $A = PQ$，$P$ 正定、$Q$ 正交——"旋转 + 拉伸"的另一种视角
算子范数的奇异值刻画：$\|A\|_2 = \sigma_1$、$\|A\|_F^2 = \sum \sigma_i^2$
条件数 $\kappa(A) = \sigma_1/\sigma_n$（可逆方阵）——数值稳定性的度量

然后Ch 8 广义特征空间 / Jordan 分解是另一条线：处理"不能对角化但还想尽可能对角"的算子。属于线性代数的"收尾"——现实中很少直接用，但理论闭环必要。

再往后 Ch 9 行列式 = 有符号体积 是 Axler 压轴的视觉章节；Ch 10 多线性代数 / 张量 是通向微分几何 / 量子多体 / 深度学习的桥梁。

你完成 Ch 5 + Ch 6 + Ch 7 就相当于掌握了"现代线性代数标准包"——足以看懂 99% 的数据科学/ML/工程论文的数学部分。

★ 轮到你了——自测 8 题

每题想 3 分钟再看答案。难度：★ 概念 / ★★ 证明 / ★★★ 综合。

E1 ★下列矩阵，哪些的奇异值等于其特征值绝对值？

(a) $\operatorname{diag}(3, -2, 1)$ (b) $\begin{pmatrix}0 & 1 \\ 1 & 0\end{pmatrix}$（反射） (c) $\begin{pmatrix}1 & 1 \\ 0 & 1\end{pmatrix}$（剪切） (d) $\begin{pmatrix}2 & 1 \\ 1 & 2\end{pmatrix}$（对称）

提示

结论：正规算子的奇异值 $= |\lambda_i|$。正规 ⇔ $AA^\top = A^\top A$。

答案

(a) ✅ 对角矩阵显然正规：$\sigma = (3, 2, 1) = (|3|, |-2|, |1|)$

(b) ✅ 反射是酉算子（$A^\top A = I$），正规。$\lambda = \pm 1$，$\sigma = (1, 1) = (|-1|, |1|)$

(c) ❌ 剪切不正规（$A^\top A \neq A A^\top$）。$\lambda = (1, 1)$（重复），但 $A^\top A = \begin{pmatrix}1 & 1\\1 & 2\end{pmatrix}$ 的特征值是 $\frac{3 \pm \sqrt 5}{2}$，奇异值是它们的根号 $\approx (1.618, 0.618)$——不等于 $|\lambda|$。

(d) ✅ 对称（自伴）必正规。$\lambda = (3, 1)$（Q11 of 7B 算过），$\sigma = (3, 1)$

E2 ★手动算 SVD：$A = \begin{pmatrix}3 & 0 \\ 4 & 5\end{pmatrix}$

找 $U, \Sigma, V$，要求 $\sigma_1 \geq \sigma_2$ 降序。

提示

按 Q5 四步走：$A^\top A$ → 谱分解 → $v_i, \sigma_i$ → $u_i = A v_i / \sigma_i$。

答案

$A^\top A = \begin{pmatrix}25 & 20 \\ 20 & 25\end{pmatrix}$。特征值 $\lambda_1 = 45, \lambda_2 = 5$。奇异值 $\sigma_1 = 3\sqrt 5, \sigma_2 = \sqrt 5$。

特征向量：$v_1 = \tfrac{1}{\sqrt 2}(1, 1)^\top$，$v_2 = \tfrac{1}{\sqrt 2}(1, -1)^\top$。

$u_1 = A v_1 / \sigma_1 = \tfrac{1}{3\sqrt 5} \cdot \tfrac{1}{\sqrt 2} \begin{pmatrix}3 \\ 9\end{pmatrix} = \tfrac{1}{\sqrt{10}} \begin{pmatrix}1 \\ 3\end{pmatrix}$。

$u_2 = A v_2 / \sigma_2 = \tfrac{1}{\sqrt 5} \cdot \tfrac{1}{\sqrt 2} \begin{pmatrix}3 \\ -1\end{pmatrix} = \tfrac{1}{\sqrt{10}} \begin{pmatrix}3 \\ -1\end{pmatrix}$。

$U = \tfrac{1}{\sqrt{10}}\begin{pmatrix}1 & 3 \\ 3 & -1\end{pmatrix}$，$\Sigma = \operatorname{diag}(3\sqrt 5, \sqrt 5)$，$V = \tfrac{1}{\sqrt 2}\begin{pmatrix}1 & 1 \\ 1 & -1\end{pmatrix}$。

验证 $U^\top U = I$（用 $1/10 \cdot (1 + 9) = 1$ 对角元 + $1/10 \cdot (3 - 3) = 0$ 非对角元）✓。

E3 ★★证明：$\|A\|_2 = \sigma_1$（Axler Ex 7E-6）

定义 $\|A\|_2 = \sup_{\|v\|=1} \|Av\|$。证明它等于最大奇异值 $\sigma_1$。

提示

用 SVD：$\|Av\|^2 = v^\top A^\top A v$，然后 Rayleigh。

答案

设 $A = U \Sigma V^\top$。$\|Av\|^2 = v^\top A^\top A v$。而 $A^\top A = V \Sigma^\top \Sigma V^\top = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_n^2) V^\top$。

在基 $(v_1, \ldots, v_n)$ 下写 $v = \sum c_i v_i$，$\|v\|^2 = \sum c_i^2 = 1$：

$\|Av\|^2 = v^\top A^\top A v = \sum \sigma_i^2 c_i^2 \leq \sigma_1^2 \sum c_i^2 = \sigma_1^2$

等号在 $c_1 = 1$ 其他为 0 时取得（即 $v = v_1$）。∎ 所以 $\|A\|_2 = \sigma_1$。

E4 ★★证明：正规算子的奇异值 $= |$特征值$|$

设 $A \in \mathbf{R}^{n \times n}$ 正规（$A^\top A = A A^\top$，如对称/反对称/酉）。证奇异值和特征值的关系 $\sigma_i = |\lambda_i|$（按同一降序 $|\lambda|$）。

提示

复谱定理：正规 ⇒ 酉相似于对角矩阵 $\Lambda = \operatorname{diag}(\lambda_i)$。然后算 $A^\top A$ 在特征基下是什么。

答案

复谱定理给出 $A = Q \Lambda Q^*$（$Q$ 酉，$\Lambda$ 对角，对角元是特征值 $\lambda_i \in \mathbf{C}$）。

$A^* A = Q \Lambda^* Q^* \cdot Q \Lambda Q^* = Q \Lambda^* \Lambda Q^* = Q \operatorname{diag}(|\lambda_i|^2) Q^*$。

所以 $A^* A$ 的特征值是 $|\lambda_i|^2$，它们的根号就是奇异值 $\sigma_i = |\lambda_i|$。按降序排对应。∎

反过来：不正规时，奇异值一般不等于 $|$特征值$|$（如剪切，见 E1(c)）。

E5 ★★Frobenius 范数 $= \sqrt{\sum \sigma_i^2}$

证明 $\|A\|_F = \sqrt{\operatorname{tr}(A^\top A)} = \sqrt{\sum \sigma_i^2}$（所有奇异值的平方和开根）。

提示

迹在正交相似变换下不变：$\operatorname{tr}(UMU^\top) = \operatorname{tr}(M)$。

答案

$\|A\|_F^2 = \sum_{i,j} A_{ij}^2 = \operatorname{tr}(A^\top A)$（迹 = 对角元和，$A^\top A$ 的第 $j$ 个对角元是 $\sum_i A_{ij}^2$）。

由 SVD：$A^\top A = V \Sigma^\top \Sigma V^\top$，$\Sigma^\top \Sigma = \operatorname{diag}(\sigma_1^2, \ldots)$。

$\operatorname{tr}(A^\top A) = \operatorname{tr}(V \operatorname{diag}(\sigma_i^2) V^\top) = \operatorname{tr}(\operatorname{diag}(\sigma_i^2)) = \sum \sigma_i^2$

（中间用了 $\operatorname{tr}(VMV^\top) = \operatorname{tr}(V^\top V M) = \operatorname{tr}(M)$ 因为 $V$ 正交）。∎

E6 ★★伪逆给出最小二乘解

设 $A \in \mathbf{R}^{m \times n}$，$b \in \mathbf{R}^m$。证 $x^* = A^+ b$ 使 $\|Ax - b\|^2$ 最小。（不用其他定理，直接从 SVD 出发验。）

提示

代换 $y = V^\top x, c = U^\top b$，问题变成"最小化 $\|\Sigma y - c\|$"——对角矩阵最优解显然。

答案

$A = U\Sigma V^\top$，记 $y = V^\top x$（$V$ 正交，所以可逆），$c = U^\top b$（$U$ 正交，保长）：

$\|Ax - b\|^2 = \|U\Sigma V^\top x - b\|^2 = \|U(\Sigma y - c)\|^2 = \|\Sigma y - c\|^2$

（$U$ 正交保范数。）现在 $\Sigma$ 对角，问题完全解耦：$\|\Sigma y - c\|^2 = \sum_{i=1}^r (\sigma_i y_i - c_i)^2 + \sum_{i=r+1}^{\min(m,n)} c_i^2$（这里 $\sigma_i = 0$ 的项，$y_i$ 没影响误差）。

最小化：对 $i \leq r$ 取 $y_i = c_i / \sigma_i$；对 $i > r$（$\sigma_i = 0$）取 $y_i = 0$（最小范数）。

这就是 $y = \Sigma^+ c$，即 $V^\top x = \Sigma^+ U^\top b$，所以 $x = V \Sigma^+ U^\top b = A^+ b$。∎

E7 ★★★Eckart-Young 一半（谱范数）

证：对所有秩 $\leq k$ 的矩阵 $B$，$\|A - B\|_2 \geq \sigma_{k+1}$（即 $A_k$ 不可被击败）。

提示

核心：$B$ 秩 $\leq k$ 意味着 $\operatorname{null} B$ 至少 $n - k$ 维。取 $V_{k+1} = \operatorname{span}(v_1, \ldots, v_{k+1})$ 是 $k+1$ 维，和 $\operatorname{null} B$ 必相交非零。

答案

设 $\operatorname{rank} B \leq k$，则 $\dim \operatorname{null} B \geq n - k$。令 $W = \operatorname{span}(v_1, \ldots, v_{k+1})$（前 $k+1$ 个右奇异向量张成的 $k+1$ 维子空间）。

$\dim W + \dim \operatorname{null} B \geq (k+1) + (n-k) = n + 1 > n$，所以 $W \cap \operatorname{null} B \neq \{0\}$。取非零 $v \in W \cap \operatorname{null} B$，归一化 $\|v\| = 1$。

$(A - B)v = Av - 0 = Av$。在 $W$ 里 $v = \sum_{i=1}^{k+1} c_i v_i$，$\|v\|^2 = \sum c_i^2 = 1$。

$\|Av\|^2 = \sum_{i=1}^{k+1} \sigma_i^2 c_i^2 \geq \sigma_{k+1}^2 \sum_{i=1}^{k+1} c_i^2 = \sigma_{k+1}^2$

（因 $\sigma_1 \geq \cdots \geq \sigma_{k+1}$，$\sigma_{k+1}$ 是最小的）。所以 $\|(A-B)v\| \geq \sigma_{k+1}$，故 $\|A - B\|_2 \geq \sigma_{k+1}$。∎

等号在 $B = A_k$ 时取得（$\|A - A_k\|_2 = \sigma_{k+1}$，因为 $A - A_k = \sum_{i > k} \sigma_i u_i v_i^\top$，最大奇异值是 $\sigma_{k+1}$）。

E8 ★★★PCA 数据与 SVD 数据等价

设 $X \in \mathbf{R}^{n \times p}$ 是中心化数据矩阵（每列均值 $= 0$），$n > p$。证：对 $X$ 做 SVD $X = U \Sigma V^\top$ 和对 $X^\top X / n$ 做谱分解得到的主成分方向完全一致，且特征值 $= \sigma_i^2 / n$。

提示

直接展开 $X^\top X$ 用 SVD 表达。

答案

$X^\top X = V \Sigma^\top U^\top U \Sigma V^\top = V \Sigma^\top \Sigma V^\top$。$U^\top U = I$（$U$ 正交的 $n \times n$，$n \geq p$）。

$\Sigma^\top \Sigma \in \mathbf{R}^{p \times p}$ 是对角矩阵，对角元为 $\sigma_1^2, \ldots, \sigma_p^2$。

所以 $X^\top X = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_p^2) V^\top$——这就是 $X^\top X$ 的谱分解，$V$ 的列是特征向量、$\sigma_i^2$ 是特征值。

除以 $n$：$\frac{X^\top X}{n}$ 的特征值是 $\sigma_i^2 / n$，特征向量不变。主成分方向和 SVD 的右奇异向量 $v_i$ 完全相同。∎

实务启示：永远用 SVD 实现 PCA，不要先形成协方差矩阵——数值稳定性差几个量级。

完成度自检：E1-E2 通 = 会识别和计算 SVD；E3-E6 能证明 = 理解 SVD 的代数性质；E7-E8 搞定 = 准备好做最小二乘、PCA、低秩近似、推荐系统。SVD 是整个 Ch7 的终点和数据科学的起点。

7E Singular Value Decomposition · Axler 4e · pp.242–253

0 · 符号对照