Ch 6 Inner Product Spaces · Axler 4e · §6A–6C · pp.177–203

内积空间是把"距离、角度、正交"加到普通向量空间里。前 5 章只有"加法 + 标量乘法"——你不能问"这两个向量夹角多少",也不能问"哪个向量离我最近"。加上内积后,整张几何地图才被还原。Ch 7 谱定理的前置:没有正交性,就没有谱分解。

0 · 符号对照

符号念作含义类型
$V$V有限维内积空间($\mathbf{R}$ 或 $\mathbf{C}$ 上),即向量空间 + 一个内积空间 + 内积
$\langle u, v\rangle$u, v 的内积$V \times V \to \mathbf{F}$ 的函数,满足正定 + 加法线性 + 对称($\mathbf{R}$)或共轭对称($\mathbf{C}$)$\mathbf{F}$ 中的数
$\|v\|$v 的范数$\sqrt{\langle v, v\rangle}$——向量的"长度"$\geq 0$ 的实数
$u \perp v$u 与 v 正交$\langle u, v\rangle = 0$关系
$\theta$theta非零向量夹角,由 $\cos\theta = \langle u, v\rangle / (\|u\|\|v\|)$ 定义$[0, \pi]$ 的实数
$e_i$e i正交规范基(ONB)里的第 $i$ 个向量:$\|e_i\| = 1$、$e_i \perp e_j \; (i \neq j)$单位向量
$\delta_{ij}$delta i jKronecker:$i = j$ 时 $= 1$,否则 $= 0$。ONB 即 $\langle e_i, e_j\rangle = \delta_{ij}$0 或 1
Gram-Schmidt格拉姆-施密特把任何基 $(v_1, \ldots, v_n)$ 正交化成 ONB $(e_1, \ldots, e_n)$ 的算法算法
$U$U$V$ 的子空间子空间
$U^\perp$U 的正交补$\{v \in V : \langle v, u\rangle = 0 \; \forall u \in U\}$——与 $U$ 中所有向量都正交的向量集合$V$ 的子空间
$V = U \oplus U^\perp$V 是 U 与 U⊥ 的直和任何 $v \in V$ 有唯一分解 $v = u + w$,$u \in U$、$w \in U^\perp$分解
$P_U$到 U 的正交投影算子 $V \to V$,把 $v$ 映到直和分解中的 $U$-分量 $u$。$P_U^2 = P_U$、$P_U^* = P_U$算子
$\hat v$v-hat(傅里叶系数)$\langle v, e_i\rangle$——$v$ 在 ONB 第 $i$ 根轴上的坐标$\mathbf{F}$ 中的数
颜色约定 原向量 · 正交规范基方向 · 投影分量 · 残差(垂直分量)· 非正交/需要修正的部分

什么是"内积"?三条公理一次看完

内积是把向量空间 $V$ 里任意两个向量 $u, v$ 送到 $\mathbf{F}$($\mathbf{R}$ 或 $\mathbf{C}$)里一个数 $\langle u, v\rangle$ 的函数,必须满足三条公理:

6.3 定义(内积). 设 $V$ 是 $\mathbf{F}$ 上的向量空间。一个内积是映射 $\langle \cdot, \cdot\rangle : V \times V \to \mathbf{F}$,满足:
  • (1) 正定性:$\langle v, v\rangle \geq 0$ 对所有 $v$;且 $\langle v, v\rangle = 0 \iff v = 0$
  • (2) 第一位加法线性:$\langle u + u', v\rangle = \langle u, v\rangle + \langle u', v\rangle$;$\langle \lambda u, v\rangle = \lambda \langle u, v\rangle$
  • (3) 共轭对称:$\langle u, v\rangle = \overline{\langle v, u\rangle}$($\mathbf{R}$ 上退化为 $\langle u, v\rangle = \langle v, u\rangle$ 对称)

三条公理合起来自动推出"第二位共轭线性":$\langle u, v + v'\rangle = \langle u, v\rangle + \langle u, v'\rangle$、$\langle u, \lambda v\rangle = \overline{\lambda} \langle u, v\rangle$。

标准例子(记住这些——其他都是变种):

有限维 $\Rightarrow$ 任选 ONB 后,内积必然是(标准)点积。所以 Ch 6 本质上研究"$\mathbf{R}^n$ 点积"的一切推论。


为什么要引入内积?前面 5 章难道还不够用?

前面 5 章(向量空间、线性映射、特征值、对角化)里你能做的事情:"加法、标量乘、算线性组合、找特征值、判断是否可对角化"。但你不能做

加上内积,瞬间解锁几何——距离、角度、正交、投影、最小二乘、傅里叶分析,全都是内积的直接产物。

一句话:内积 $=$ 把欧氏几何(毕达哥拉斯定理、余弦定理、投影)装进线性代数里的接口。一旦装上,从 $\mathbf{R}^n$ 到无穷维 Hilbert 空间(量子态、信号、函数空间)用的都是同一套语言。

为什么 Ch 7 要先讲 Ch 6:谱定理的结论是"自伴算子有一组正交规范特征基"——正交性只在有内积的空间里才有意义。Ch 6 把内积这个工具造出来,Ch 7 才能做手术。


范数 $\|v\| = \sqrt{\langle v, v\rangle}$ 有哪些性质?

从内积诱导出范数(长度),它自动满足三条:

6.9 范数性质. 对任意 $v \in V$、$\lambda \in \mathbf{F}$:
  • (N1) $\|v\| \geq 0$;$\|v\| = 0 \iff v = 0$ (正定)
  • (N2) $\|\lambda v\| = |\lambda| \cdot \|v\|$ (齐性)
  • (N3) $\|u + v\| \leq \|u\| + \|v\|$ (三角不等式)

(N1)(N2) 都是一步展开 $\|v\|^2 = \langle v, v\rangle$ 用公理得到;(N3) 三角不等式需要 Cauchy-Schwarz(见 Q4)——因为

$\|u + v\|^2 = \|u\|^2 + 2 \operatorname{Re}\langle u, v\rangle + \|v\|^2 \leq \|u\|^2 + 2 \|u\|\|v\| + \|v\|^2 = (\|u\| + \|v\|)^2$

其中 $\operatorname{Re}\langle u, v\rangle \leq |\langle u, v\rangle| \leq \|u\|\|v\|$(最后一步就是 Cauchy-Schwarz)。

勾股定理(6.13):若 $u \perp v$,则 $\langle u, v\rangle = 0$,上面公式简化为

$u \perp v \;\Rightarrow\; \|u + v\|^2 = \|u\|^2 + \|v\|^2$

这是整个 Ch 6 几何直觉的基石。正交投影、Gram-Schmidt、最小距离——一切都反复用它。

平行四边形恒等式(Axler 6.22):$\|u + v\|^2 + \|u - v\|^2 = 2(\|u\|^2 + \|v\|^2)$——内积空间独有的,用来判断"某个范数是否由内积诱导"。


Cauchy-Schwarz 不等式——线性代数里最万能的不等式

6.14 Cauchy-Schwarz. 对任意 $u, v \in V$: $$ |\langle u, v\rangle| \;\leq\; \|u\| \cdot \|v\| $$ 等号成立 $\iff$ $u, v$ 线性相关。

一行证明(Axler 最漂亮的技巧之一):若 $v = 0$ 两边都 $0$。若 $v \neq 0$,令 $c = \langle u, v\rangle / \|v\|^2$(这是 $u$ 在 $v$ 上的"投影系数")。则 $u - cv \perp v$(直接验证 $\langle u - cv, v\rangle = \langle u, v\rangle - c\|v\|^2 = 0$),由勾股定理:

$\|u\|^2 \;=\; \|u - cv\|^2 + \|cv\|^2 \;\geq\; \|cv\|^2 \;=\; |c|^2 \|v\|^2 \;=\; \dfrac{|\langle u, v\rangle|^2}{\|v\|^2}$

两边乘 $\|v\|^2$ 取平方根即 Cauchy-Schwarz。等号当且仅当 $u - cv = 0$,即 $u = cv$(共线)。∎

几何意义:把 $u$ 分解成"沿 $v$ 的分量"加"垂直于 $v$ 的残差","投影"长度 $\leq$ $u$ 原本长度。这让我们可以定义夹角:

$\cos\theta \;=\; \dfrac{\langle u, v\rangle}{\|u\|\|v\|} \in [-1, 1]$

右边的确在 $[-1, 1]$(由 Cauchy-Schwarz 保证),所以 $\theta \in [0, \pi]$ 有意义。

无穷维实例:把 Cauchy-Schwarz 用在 $\langle f, g\rangle = \int f g$ 上:

$\left|\int_a^b f(x) g(x) \, dx\right| \;\leq\; \sqrt{\int_a^b f^2 \, dx} \cdot \sqrt{\int_a^b g^2 \, dx}$

这就是分析里标准的 Cauchy-Schwarz 积分不等式——与有限维同一条定理,不同壳子。


2D 看一眼:内积、夹角、投影

拖滑杆改两个向量 $u = (u_1, u_2)$、$v = (v_1, v_2)$。画布上实时显示:

尝试:按"正交"预设,内积 $= 0$、夹角 $= 90°$、投影 $= 0$;按"共线"预设,投影 $= u$,残差 $= 0$;中间一般情况观察 Cauchy-Schwarz 不等式 $|\langle u, v\rangle| \leq \|u\|\|v\|$ 什么时候取等。

u v P_v(u) 投影 u − P_v(u) 残差

向量 $u = (u_1, u_2)$

2.00
1.00

向量 $v = (v_1, v_2)$

1.00
2.00

读数


正交规范基(ONB)——为什么它如此便利?

6.25 定义(ONB). $V$ 的基 $(e_1, \ldots, e_n)$ 称正交规范(orthonormal),当且仅当 $\langle e_i, e_j\rangle = \delta_{ij}$——两两正交且都是单位长度。

假设手里有 ONB,任意 $v \in V$ 的坐标直接用内积读出:

6.30 ONB 坐标公式. 若 $(e_1, \ldots, e_n)$ 是 ONB,则对任意 $v \in V$: $$ v \;=\; \langle v, e_1\rangle e_1 + \langle v, e_2\rangle e_2 + \cdots + \langle v, e_n\rangle e_n \;=\; \sum_{i=1}^n \langle v, e_i\rangle \, e_i $$ 且 $\|v\|^2 = \sum_{i=1}^n |\langle v, e_i\rangle|^2$(Parseval 等式)。

证明:设 $v = \sum c_j e_j$(用基展开)。取 $\langle v, e_i\rangle = \sum c_j \langle e_j, e_i\rangle = \sum c_j \delta_{ji} = c_i$——所以 $c_i = \langle v, e_i\rangle$。Parseval 由 $\|v\|^2 = \langle v, v\rangle = \sum c_i \overline{c_i} = \sum |c_i|^2$ 得到。∎

对比一般基的坐标:如果基 $(v_1, \ldots, v_n)$ 不正交,求坐标 $v = \sum c_i v_i$ 要解线性方程组 $G c = b$,$G_{ij} = \langle v_i, v_j\rangle$ 是 Gram 矩阵——需要求逆。ONB 把 $G$ 变成 $I$,求逆消失。这就是为什么数值计算永远优先 ONB。

三件大事 ONB 同时给你


Gram-Schmidt 过程:任何基都能正交规范化

既然 ONB 这么好,手头的任意基 $(v_1, \ldots, v_n)$ 能不能系统地改造成 ONB?答案是肯定的——Gram-Schmidt 算法

6.32 Gram-Schmidt. 对 $V$ 的任意线性无关序列 $(v_1, \ldots, v_n)$,递归定义 $$ e_1 = \dfrac{v_1}{\|v_1\|}, \quad e_k = \dfrac{v_k - \sum_{i=1}^{k-1} \langle v_k, e_i\rangle e_i}{\left\| v_k - \sum_{i=1}^{k-1} \langle v_k, e_i\rangle e_i \right\|} \quad (k = 2, \ldots, n) $$ 则 $(e_1, \ldots, e_n)$ 是正交规范的,且 $\operatorname{span}(e_1, \ldots, e_k) = \operatorname{span}(v_1, \ldots, v_k)$ 对所有 $k$。

几何解读:第 $k$ 步分两步——

几何上像"造新基时始终把新向量的投影部分扣除,只留下新的、正交的方向"。

推论 6.37:每个有限维内积空间都有 ONB——因为总能拿一组普通基做 Gram-Schmidt。

推论 6.38(扩张 ONB):子空间的 ONB 可扩成全空间的 ONB——即给定 $U$ 的 ONB $(e_1, \ldots, e_k)$,存在全空间的 ONB $(e_1, \ldots, e_k, e_{k+1}, \ldots, e_n)$,前 $k$ 个正好是 $U$ 的基。这是正交补 $U^\perp$ 构造的关键。

QR 分解:Gram-Schmidt 用矩阵表达就是 $A = Q R$——$A$ 的列经过 GS 得 $Q$(正交矩阵),$R$ 是上三角(记录"每步减了多少"的系数)。数值线代的基石。


3D 看 Gram-Schmidt 动画

下面 Three.js 场景里你可以调 3 个起始向量 $v_1, v_2, v_3$(可能不正交、也未归一化)。按钮"运行 GS"后,场景同时显示:

拖动鼠标旋转视角。Space 暂停,R 复位相机。按"共面"预设,$v_3$ 接近 $v_1, v_2$ 张成的平面,GS 会给出一个非常短的 $e_3$(说明几乎线性相关)。按"正交原始"预设,$v_i$ 本身就正交,GS 只做归一化。

原始 v₁, v₂, v₃ (任意基) e₁, e₂, e₃ (ONB) 投影分量

向量 $v_1, v_2, v_3$(每行一个)

ONB Gram 矩阵 $\langle e_i, e_j\rangle$


正交补 $U^\perp$:子空间的"垂直宇宙"

6.46 定义(正交补). 设 $U \subseteq V$ 是子空间。它的正交补: $$ U^\perp \;=\; \{ v \in V : \langle v, u\rangle = 0 \;\; \forall u \in U \} $$

基本性质

最重要的一条结构定理:

6.49 正交直和分解. 设 $V$ 有限维,$U \subseteq V$ 子空间。则 $$ V \;=\; U \oplus U^\perp $$ 即每个 $v \in V$ 有唯一分解 $v = u + w$,$u \in U$、$w \in U^\perp$。

证明思路:取 $U$ 的 ONB $(e_1, \ldots, e_k)$,扩成 $V$ 的 ONB $(e_1, \ldots, e_k, e_{k+1}, \ldots, e_n)$(Gram-Schmidt 推论 6.38)。设 $v = \sum_i \langle v, e_i\rangle e_i$。拆成

$v \;=\; \underbrace{\sum_{i=1}^k \langle v, e_i\rangle e_i}_{=: u \in U} \;+\; \underbrace{\sum_{i=k+1}^n \langle v, e_i\rangle e_i}_{=: w \in U^\perp}$

$w \perp e_j$ 对 $j \leq k$,所以 $w \perp U$;唯一性由 $U \cap U^\perp = \{0\}$ 保证。∎

维度公式:$\dim U + \dim U^\perp = \dim V$。这是"5 章 Rank-Nullity"的内积版本。

对比一般直和:5B 的直和 $V = U \oplus W$ 可能有很多选法(选不同的 $W$)。正交直和 $V = U \oplus U^\perp$ 在内积下唯一——$U^\perp$ 是"所有垂直于 $U$ 的向量",没得选。这种唯一性是正交投影存在且良好定义的基础。


正交投影 $P_U$:最小二乘的几何基础

有了正交直和 $V = U \oplus U^\perp$,就可以把"取 $U$-分量"这个操作定义成算子:

6.53 定义(正交投影). 到子空间 $U$ 的正交投影 $P_U : V \to V$ 定义为:对 $v = u + w$($u \in U$、$w \in U^\perp$,由 6.49 唯一), $$ P_U v \;=\; u $$

用 ONB 的显式公式:若 $(e_1, \ldots, e_k)$ 是 $U$ 的 ONB,则

$P_U v \;=\; \sum_{i=1}^k \langle v, e_i\rangle e_i$

关键性质

反向刻画:算子 $P$ 是到某子空间的正交投影 $\iff$ $P^2 = P$ 且 $P^* = P$。两条性质同时成立才叫正交投影——仅 $P^2 = P$ 是一般(非正交)投影,沿着非正交方向投。

:$U = \operatorname{span}(e_1, e_2) \subseteq \mathbf{R}^3$,$P_U(x, y, z) = (x, y, 0)$。矩阵 $\operatorname{diag}(1, 1, 0)$,显然 $P_U^2 = P_U$ 且对称。

最小化问题:为什么 $P_U v$ 是 $U$ 里"离 $v$ 最近"的点?

这条定理把 Ch 6 抽象几何和应用数学"最优化"连在一起——投影不仅是代数定义,还是距离最小化的解。

6.61 最小距离定理. 设 $U \subseteq V$ 子空间、$v \in V$。则对任意 $u \in U$: $$ \|v - P_U v\| \;\leq\; \|v - u\| $$ 等号成立 $\iff u = P_U v$。即 $P_U v$ 是 $U$ 里唯一的、使 $\|v - u\|$ 最小的点。

一行证明(纯勾股):对任意 $u \in U$,

$\|v - u\|^2 \;=\; \|(v - P_U v) + (P_U v - u)\|^2 \;=\; \|v - P_U v\|^2 + \|P_U v - u\|^2$

第二个等号用勾股:$v - P_U v \in U^\perp$(残差性质),$P_U v - u \in U$(两个 $U$ 里的点之差),两者正交。所以 $\|v - u\|^2 \geq \|v - P_U v\|^2$,等号当且仅当 $P_U v = u$。∎

应用 · 最小二乘回归:数据点 $(x_i, y_i)$,找最佳直线 $y = \beta_0 + \beta_1 x$。写成矩阵 $y = X\beta$,$X \in \mathbf{R}^{n \times 2}$ 的列是 $(1, 1, \ldots, 1)$ 和 $(x_1, \ldots, x_n)$。一般 $y \notin \operatorname{range} X$(数据有噪声),所以方程无解。但我们可以问:哪个 $\beta$ 使 $X\beta$ 离 $y$ 最近?由 6.61,最优 $X\beta^* = P_{\operatorname{range} X}(y)$,解为:

$\beta^* \;=\; (X^\top X)^{-1} X^\top y$

这就是最小二乘的正规方程——整个统计/机器学习/信号处理里最常引用的一条公式,本质就是"$P_U$ 给最近逼近"。

$\|v - P_U v\|$ 的显式:若 $(e_1, \ldots, e_k)$ 是 $U$ 的 ONB,

$\|v - P_U v\|^2 \;=\; \|v\|^2 - \sum_{i=1}^k |\langle v, e_i\rangle|^2$

(来自 Parseval + 勾股)。这是逼近误差的直接公式。


傅里叶系数视角:把 ONB 坐标看成"频谱"

公式 $v = \sum \langle v, e_i\rangle e_i$ 里的 $\langle v, e_i\rangle$ 被称为 $v$ 的傅里叶系数——无论 $V$ 是 $\mathbf{R}^n$ 还是连续函数空间,这个名字统一。

在 $L^2[-\pi, \pi]$ 里:取 $e_n(x) = \frac{1}{\sqrt{2\pi}} e^{inx}$($n \in \mathbf{Z}$),这是 ONB。任何平方可积函数 $f$:

$f(x) \;=\; \sum_{n=-\infty}^{\infty} \hat f_n \, e_n(x), \quad \hat f_n \;=\; \langle f, e_n\rangle \;=\; \dfrac{1}{\sqrt{2\pi}} \int_{-\pi}^{\pi} f(x) e^{-inx} \, dx$

这就是经典傅里叶级数——和 Ch 6 的 $v = \sum \langle v, e_i\rangle e_i$ 是同一条公式,只不过在无穷维函数空间里。

Parseval 等式的频域意义

$\|f\|^2 = \int |f(x)|^2 dx \;=\; \sum_n |\hat f_n|^2$

"时域能量 $=$ 频域能量"。信号处理里的能量守恒律。

Bessel 不等式(6.26):若 $(e_1, \ldots, e_k)$ 只是正交规范序列(不必是完整基),则

$\sum_{i=1}^k |\langle v, e_i\rangle|^2 \;\leq\; \|v\|^2$

等号 $\iff v \in \operatorname{span}(e_1, \ldots, e_k)$。解读:用有限个基做投影,能量永远不会超过原来的。逼近质量等于保留能量比。这是图像压缩(JPEG = 离散余弦基的 Bessel 近似)、语音编码(MFCC)、主成分(PCA = 协方差矩阵特征基的 Bessel 近似)的共同数学原理。

一句话连接:"Gram-Schmidt → ONB → 傅里叶系数 → Parseval/Bessel → 最优逼近"——这整条链条是一切现代信号分析(小波、短时傅里叶、子带编码、卷积神经网络的"频谱解释")的共同起点。


Ch 6 要记住哪些底子定理?

6.3 内积公理. 正定 + 第一位加法线性 + 共轭对称
6.9 范数性质. 正定 + 齐性 + 三角不等式,由内积诱导
6.13 勾股定理. $u \perp v \Rightarrow \|u + v\|^2 = \|u\|^2 + \|v\|^2$
6.14 Cauchy-Schwarz. $|\langle u, v\rangle| \leq \|u\|\|v\|$,等号 $\iff$ 共线
6.22 平行四边形恒等式. $\|u+v\|^2 + \|u-v\|^2 = 2(\|u\|^2 + \|v\|^2)$——内积空间的刻画
6.26 Bessel 不等式. 任何 ON 序列,$\sum|\langle v, e_i\rangle|^2 \leq \|v\|^2$
6.30 ONB 坐标公式. $v = \sum \langle v, e_i\rangle e_i$;Parseval $\|v\|^2 = \sum |\langle v, e_i\rangle|^2$
6.32 Gram-Schmidt. 任何线性无关序列可正交规范化,且保持前 $k$ 个张成
6.37 ONB 存在性. 每个有限维内积空间都有 ONB
6.49 正交直和. $V = U \oplus U^\perp$,维度 $\dim U + \dim U^\perp = \dim V$
6.53 $P_U$ 定义. $P_U(u + w) = u$;ONB 公式 $P_U v = \sum_{i\leq k} \langle v, e_i\rangle e_i$
6.55 $P_U$ 刻画. $P$ 是正交投影 $\iff P^2 = P$ 且 $P^* = P$
6.61 最小距离. $\min_{u \in U} \|v - u\| = \|v - P_U v\|$——投影 $=$ 最佳逼近

Axler 6A/6B/6C 重点习题


Ch 6 三个硬核应用

应用 1 · 最小二乘回归(统计/机器学习)

有 $n$ 个数据点 $(x_i, y_i)$,想拟合直线 $y = \beta_0 + \beta_1 x$。定义设计矩阵 $X \in \mathbf{R}^{n \times 2}$(第 $i$ 行 $(1, x_i)$),目标向量 $y \in \mathbf{R}^n$。问题:找 $\beta = (\beta_0, \beta_1)$ 最小化 $\|y - X\beta\|^2$。

几何解读:$U = \operatorname{range} X \subseteq \mathbf{R}^n$ 是 2 维子空间(所有可能的"直线值向量")。一般 $y \notin U$。最佳 $X\beta = P_U y$。由 $y - X\beta \perp U$(残差正交于列空间)得到正规方程:

$X^\top (y - X\beta) = 0 \;\Longleftrightarrow\; \beta = (X^\top X)^{-1} X^\top y$

推广到多元回归、广义线性模型、岭回归,基础全是"投影到列空间"这个几何图像。整个统计回归的数学都在 Ch 6

应用 2 · 傅里叶分解(信号处理)

对信号 $f(t)$(可以是声音、图像、股价),选一组正交基 $\{e_n\}$(傅里叶基、小波基、Gabor 基)。$f = \sum_n \hat f_n e_n$——任何信号都可以拆成基的线性组合,系数 $\hat f_n = \langle f, e_n\rangle$ 就是傅里叶系数。

Bessel 不等式告诉你只取最大的 $k$ 个 $|\hat f_n|^2$ 项得到最佳 $k$ 项近似——这就是 JPEG(DCT + 丢弃小系数)、MP3(滤波器组 + 感知编码)、HEVC 视频压缩的数学核。压缩 $=$ 在正交基下把小傅里叶系数置零

图像例:$8 \times 8$ 像素块 $\to$ 二维 DCT $\to$ 64 个系数 $\to$ 保留最大 10 个 $\to$ 解码(用 $P_U$ 逆变换)$\to$ 图像肉眼几乎无损,体积 $1/6$。

应用 3 · QR 分解(数值线性代数)

矩阵 $A \in \mathbf{R}^{m \times n}$ 列向量做 Gram-Schmidt,得到正交矩阵 $Q$ 和上三角 $R$:

$A \;=\; Q R, \quad Q^\top Q = I, \quad R \text{ 上三角}$

解最小二乘的高效方法:$\min \|A\beta - y\|^2$ 的正规方程 $A^\top A \beta = A^\top y$ 条件数是 $\kappa(A)^2$——数值不稳定。QR 把问题转成 $R\beta = Q^\top y$,条件数降到 $\kappa(A)$——稳定得多。LAPACK 的 dgels、MATLAB 的 \、NumPy 的 lstsq 都基于 QR 或其改进(Householder / Givens)。

一句话:内积 $\to$ 正交 $\to$ 投影 $\to$ 逼近——Ch 6 给你的是最佳近似 这个数学工具。从 18 世纪最小二乘、19 世纪傅里叶级数、20 世纪 PCA、21 世纪神经网络里的注意力机制(softmax + 内积),都是同一条血脉。

Ch 6 学完,下一步?

内积空间是 Ch 7 谱定理的直接地基:

用一条箭头看:

Ch 5 可对角化 $\xrightarrow{+\text{内积 (Ch 6)}}$ 正交对角化 $=$ Ch 7 谱定理

如果把 Ch 5(特征值 / 对角化)比作"代数骨架",Ch 6 就是"几何血肉"——Ch 7 是两者合体后的最漂亮成果。

强烈推荐额外读:Axler 6B 末尾的 Legendre 多项式例子(对 $(1, x, x^2, \ldots)$ 在 $[-1, 1]$ 做 GS)——亲手算一次会让你对"内积空间 = 带几何的向量空间"有肌肉记忆。


★ 轮到你了——自测 8 题

每题至少想 3 分钟再看答案。难度:★ 概念/简单计算 · ★★ 证明 · ★★★ 综合。

E1 ★基础内积计算

$\mathbf{R}^3$ 标准点积下,$u = (1, 2, 2)$、$v = (2, -1, 2)$。计算 $\langle u, v\rangle$、$\|u\|$、$\|v\|$、夹角 $\theta$。$u \perp v$ 吗?

提示

$\langle u, v\rangle = \sum u_i v_i$;$\|u\| = \sqrt{\langle u, u\rangle}$;$\cos\theta = \langle u, v\rangle / (\|u\|\|v\|)$。正交 $\iff \langle u, v\rangle = 0$。

答案

$\langle u, v\rangle = 1 \cdot 2 + 2 \cdot (-1) + 2 \cdot 2 = 2 - 2 + 4 = 4$

$\|u\| = \sqrt{1 + 4 + 4} = 3$,$\|v\| = \sqrt{4 + 1 + 4} = 3$

$\cos\theta = 4 / 9$,$\theta = \arccos(4/9) \approx 63.6°$

$u \perp v$? 不正交($\langle u, v\rangle = 4 \neq 0$)。

E2 ★验证 Cauchy-Schwarz

在 $\mathbf{R}^2$ 里取 $u = (3, 4)$、$v = (1, 2)$。手算验证 Cauchy-Schwarz $|\langle u, v\rangle| \leq \|u\|\|v\|$,并说明等号为什么没取到。

提示

算出两边数值,比较大小。等号条件 $\iff u, v$ 共线。

答案

$\langle u, v\rangle = 3 + 8 = 11$;$\|u\| = 5$、$\|v\| = \sqrt 5$;$\|u\|\|v\| = 5\sqrt 5 \approx 11.18$

$11 \leq 11.18$ ✓(Cauchy-Schwarz 成立)

等号未取到:$u = (3, 4)$、$v = (1, 2)$ 不共线($4/3 \neq 2/1$)。

E3 ★★手动 Gram-Schmidt

在 $\mathbf{R}^3$ 里对 $v_1 = (1, 1, 0)$、$v_2 = (1, 0, 1)$、$v_3 = (0, 1, 1)$ 做 Gram-Schmidt,得 ONB $(e_1, e_2, e_3)$。

提示

$e_1 = v_1 / \|v_1\|$;$u_2 = v_2 - \langle v_2, e_1\rangle e_1$,$e_2 = u_2 / \|u_2\|$;$u_3 = v_3 - \langle v_3, e_1\rangle e_1 - \langle v_3, e_2\rangle e_2$,$e_3 = u_3 / \|u_3\|$。

答案

$\|v_1\| = \sqrt 2$,$e_1 = \frac{1}{\sqrt 2}(1, 1, 0)$

$\langle v_2, e_1\rangle = \frac{1}{\sqrt 2}$,$u_2 = v_2 - \frac{1}{\sqrt 2} \cdot \frac{1}{\sqrt 2}(1, 1, 0) = (1, 0, 1) - (\frac{1}{2}, \frac{1}{2}, 0) = (\frac{1}{2}, -\frac{1}{2}, 1)$

$\|u_2\| = \sqrt{\frac{1}{4} + \frac{1}{4} + 1} = \sqrt{\frac{3}{2}}$,$e_2 = \sqrt{\frac{2}{3}}(\frac{1}{2}, -\frac{1}{2}, 1) = \frac{1}{\sqrt 6}(1, -1, 2)$

$\langle v_3, e_1\rangle = \frac{1}{\sqrt 2}$;$\langle v_3, e_2\rangle = \frac{1}{\sqrt 6}(0 - 1 + 2) = \frac{1}{\sqrt 6}$

$u_3 = (0, 1, 1) - \frac{1}{\sqrt 2} \cdot \frac{1}{\sqrt 2}(1, 1, 0) - \frac{1}{\sqrt 6} \cdot \frac{1}{\sqrt 6}(1, -1, 2) = (0,1,1) - (\frac{1}{2},\frac{1}{2},0) - (\frac{1}{6},-\frac{1}{6},\frac{1}{3})$

$= (-\frac{2}{3}, \frac{2}{3}, \frac{2}{3})$;$\|u_3\| = \frac{2}{\sqrt 3}$,$e_3 = \frac{1}{\sqrt 3}(-1, 1, 1)$

验证 $\langle e_1, e_2\rangle = 0$、$\langle e_1, e_3\rangle = 0$、$\langle e_2, e_3\rangle = 0$ 全成立 ✓

E4 ★★证明平行四边形恒等式

对任意内积空间 $V$、任意 $u, v \in V$,证 $\|u + v\|^2 + \|u - v\|^2 = 2(\|u\|^2 + \|v\|^2)$。

提示

展开两个 $\|\cdot\|^2$ 成内积,合并交叉项。

答案

$\|u + v\|^2 = \langle u+v, u+v\rangle = \|u\|^2 + \langle u, v\rangle + \langle v, u\rangle + \|v\|^2 = \|u\|^2 + \|v\|^2 + 2\operatorname{Re}\langle u, v\rangle$

$\|u - v\|^2 = \|u\|^2 + \|v\|^2 - 2\operatorname{Re}\langle u, v\rangle$

相加:交叉项抵消,得 $2\|u\|^2 + 2\|v\|^2$。∎

几何:四边形对角线平方和 $=$ 四边平方和——是欧氏几何里平行四边形的经典定理。这条恒等式反过来可以刻画"某个赋范空间是否由内积诱导":Jordan-von Neumann 定理说此恒等式成立 $\iff$ 范数由内积诱导。

E5 ★★正交投影计算

设 $U = \operatorname{span}\{(1, 1, 0), (1, 0, 1)\} \subseteq \mathbf{R}^3$。求 $v = (1, 2, 3)$ 到 $U$ 的正交投影 $P_U v$、$\|v - P_U v\|$ 以及 $v - P_U v$ 是否在 $U^\perp$ 里。

提示

先对 $U$ 的两个生成元做 Gram-Schmidt 得 ONB $(e_1, e_2)$,再用 $P_U v = \langle v, e_1\rangle e_1 + \langle v, e_2\rangle e_2$。

答案

GS:$e_1 = \frac{1}{\sqrt 2}(1, 1, 0)$(同 E3);$e_2 = \frac{1}{\sqrt 6}(1, -1, 2)$(同 E3)

$\langle v, e_1\rangle = \frac{1 + 2}{\sqrt 2} = \frac{3}{\sqrt 2}$

$\langle v, e_2\rangle = \frac{1 - 2 + 6}{\sqrt 6} = \frac{5}{\sqrt 6}$

$P_U v = \frac{3}{\sqrt 2} \cdot \frac{1}{\sqrt 2}(1,1,0) + \frac{5}{\sqrt 6} \cdot \frac{1}{\sqrt 6}(1,-1,2) = (\frac{3}{2},\frac{3}{2},0) + (\frac{5}{6},-\frac{5}{6},\frac{5}{3}) = (\frac{14}{6},\frac{4}{6},\frac{10}{6}) = (\frac{7}{3},\frac{2}{3},\frac{5}{3})$

残差 $v - P_U v = (1 - \frac{7}{3}, 2 - \frac{2}{3}, 3 - \frac{5}{3}) = (-\frac{4}{3}, \frac{4}{3}, \frac{4}{3})$

$\|v - P_U v\| = \frac{4}{3}\sqrt 3 = \frac{4}{\sqrt 3}$

验证正交:$\langle v - P_U v, (1,1,0)\rangle = -\frac{4}{3} + \frac{4}{3} = 0$ ✓;$\langle v - P_U v, (1,0,1)\rangle = -\frac{4}{3} + \frac{4}{3} = 0$ ✓。在 $U^\perp$ 里。

E6 ★★证:$P^2 = P$ 且 $P^* = P$ $\Rightarrow$ $P$ 是到某子空间的正交投影

设 $P \in \mathcal{L}(V)$ 满足 $P^2 = P$ 且 $P^* = P$。令 $U = \operatorname{range} P$。证 $P = P_U$。

提示

要证两件:(1) 对 $u \in U$,$P u = u$;(2) 对 $w \in U^\perp$,$P w = 0$。第二条用 $P^* = P$。

答案

(1):$u \in U = \operatorname{range} P$,存在 $x$ 使 $u = Px$。则 $Pu = P(Px) = P^2 x = Px = u$。✓

(2):$w \in U^\perp$ 即 $\langle w, u\rangle = 0$ 对所有 $u \in \operatorname{range} P$。要证 $Pw = 0$。考察 $\|Pw\|^2 = \langle Pw, Pw\rangle = \langle w, P^* P w\rangle = \langle w, P^2 w\rangle = \langle w, Pw\rangle$。而 $Pw \in \operatorname{range} P = U$,所以 $\langle w, Pw\rangle = 0$(由 $w \in U^\perp$)。故 $\|Pw\|^2 = 0 \Rightarrow Pw = 0$。✓

结论:对任意 $v = u + w$($u \in U$、$w \in U^\perp$),$Pv = Pu + Pw = u + 0 = u = P_U v$。所以 $P = P_U$。∎

E7 ★★★最小二乘回归的几何推导

设 $X \in \mathbf{R}^{n \times p}$($n > p$,列线性无关),$y \in \mathbf{R}^n$。目标:找 $\beta \in \mathbf{R}^p$ 最小化 $\|X\beta - y\|^2$。用 Ch 6 的正交投影语言推出正规方程 $\beta^* = (X^\top X)^{-1} X^\top y$。

提示

令 $U = \operatorname{range} X$。最优 $X\beta^* = P_U y$。用 "残差 $y - X\beta^* \in U^\perp$" 导出 $X^\top(y - X\beta^*) = 0$。

答案

$U = \operatorname{range} X = \{X\beta : \beta \in \mathbf{R}^p\}$ 是 $\mathbf{R}^n$ 的 $p$ 维子空间(列无关)。

由 6.61 最小距离定理:$\min_{\beta} \|X\beta - y\|^2 = \|y - P_U y\|^2$,且 $X\beta^* = P_U y$ 是唯一最优解。

$U^\perp$ 刻画:$w \in U^\perp \iff \langle w, X\beta\rangle = 0 \; \forall \beta \iff \beta^\top X^\top w = 0 \; \forall \beta \iff X^\top w = 0$。所以 $U^\perp = \operatorname{null}(X^\top)$。

残差 $r = y - X\beta^* \in U^\perp$,即 $X^\top r = 0$:

$X^\top (y - X\beta^*) = 0 \;\Longrightarrow\; X^\top X \beta^* = X^\top y$

$X$ 列无关 $\Rightarrow X^\top X$ 可逆,所以 $\beta^* = (X^\top X)^{-1} X^\top y$。∎

残差自动与 $X$ 所有列正交——这就是线性回归"残差与预测变量无关"的几何本质。

E8 ★★★Legendre 多项式:GS 在函数空间

$V = $ 次数 $\leq 2$ 的实系数多项式,内积 $\langle f, g\rangle = \int_{-1}^{1} f(x) g(x) \, dx$。对基 $(1, x, x^2)$ 做 Gram-Schmidt,得 ONB $(p_0, p_1, p_2)$(这是 Legendre 多项式的正交规范版本)。

提示

需要积分:$\int_{-1}^{1} 1 \, dx = 2$,$\int_{-1}^{1} x^2 \, dx = 2/3$,$\int_{-1}^{1} x^4 \, dx = 2/5$;$\int_{-1}^{1} x \, dx = \int_{-1}^{1} x^3 \, dx = 0$。

答案

$p_0$:$\|1\|^2 = \int_{-1}^{1} 1 \, dx = 2$,$p_0 = 1/\sqrt 2$

$p_1$:$\langle x, p_0\rangle = \frac{1}{\sqrt 2}\int_{-1}^{1} x \, dx = 0$($x$ 是奇函数)。所以 $u_1 = x$,$\|x\|^2 = 2/3$,$p_1 = \sqrt{3/2} \cdot x = \sqrt{\frac{3}{2}} x$

$p_2$:$\langle x^2, p_0\rangle = \frac{1}{\sqrt 2}\int x^2 dx = \frac{1}{\sqrt 2} \cdot \frac{2}{3} = \frac{\sqrt 2}{3}$;$\langle x^2, p_1\rangle = \sqrt{3/2}\int_{-1}^{1} x^3 dx = 0$

$u_2 = x^2 - \frac{\sqrt 2}{3} \cdot \frac{1}{\sqrt 2} = x^2 - \frac{1}{3}$

$\|u_2\|^2 = \int_{-1}^{1} (x^2 - \frac{1}{3})^2 dx = \int (x^4 - \frac{2}{3}x^2 + \frac{1}{9}) dx = \frac{2}{5} - \frac{2}{3}\cdot\frac{2}{3} + \frac{2}{9} = \frac{2}{5} - \frac{4}{9} + \frac{2}{9} = \frac{2}{5} - \frac{2}{9} = \frac{8}{45}$

$p_2 = \sqrt{\frac{45}{8}}(x^2 - \frac{1}{3}) = \frac{3\sqrt 5}{2\sqrt 2}(x^2 - \frac{1}{3}) = \frac{3}{2}\sqrt{\frac{5}{2}}(x^2 - \frac{1}{3})$

这些正是 Legendre 多项式 $P_0, P_1, P_2$ 的标准化版本——在偏微分方程(Legendre 方程)、球谐函数、电磁学多极展开里无处不在,本质就是"把 $[-1, 1]$ 上连续函数空间里的单项式做 GS"。

完成度自检:E1-E2 通 = 基本内积计算 + Cauchy-Schwarz;E3-E5 通 = 会手动 GS + 正交投影;E6-E7 证明通 = 理解投影算子的代数刻画 + 最小二乘本质;E8 通 = 看懂内积空间在函数空间里的应用,已可直接开 Ch 7。