Axler 6 · Inner Product Spaces

符号	念作	含义	类型
$V$	V	有限维内积空间（$\mathbf{R}$ 或 $\mathbf{C}$ 上），即向量空间 + 一个内积	空间 + 内积
$\langle u, v\rangle$	u, v 的内积	$V \times V \to \mathbf{F}$ 的函数，满足正定 + 加法线性 + 对称（$\mathbf{R}$）或共轭对称（$\mathbf{C}$）	$\mathbf{F}$ 中的数
$\\|v\\|$	v 的范数	$\sqrt{\langle v, v\rangle}$——向量的"长度"	$\geq 0$ 的实数
$u \perp v$	u 与 v 正交	$\langle u, v\rangle = 0$	关系
$\theta$	theta	非零向量夹角，由 $\cos\theta = \langle u, v\rangle / (\\|u\\|\\|v\\|)$ 定义	$[0, \pi]$ 的实数
$e_i$	e i	正交规范基（ONB）里的第 $i$ 个向量：$\\|e_i\\| = 1$、$e_i \perp e_j \; (i \neq j)$	单位向量
$\delta_{ij}$	delta i j	Kronecker：$i = j$ 时 $= 1$，否则 $= 0$。ONB 即 $\langle e_i, e_j\rangle = \delta_{ij}$	0 或 1
Gram-Schmidt	格拉姆-施密特	把任何基 $(v_1, \ldots, v_n)$ 正交化成 ONB $(e_1, \ldots, e_n)$ 的算法	算法
$U$	U	$V$ 的子空间	子空间
$U^\perp$	U 的正交补	$\{v \in V : \langle v, u\rangle = 0 \; \forall u \in U\}$——与 $U$ 中所有向量都正交的向量集合	$V$ 的子空间
$V = U \oplus U^\perp$	V 是 U 与 U⊥ 的直和	任何 $v \in V$ 有唯一分解 $v = u + w$，$u \in U$、$w \in U^\perp$	分解
$P_U$	到 U 的正交投影	算子 $V \to V$，把 $v$ 映到直和分解中的 $U$-分量 $u$。$P_U^2 = P_U$、$P_U^* = P_U$	算子
$\hat v$	v-hat（傅里叶系数）	$\langle v, e_i\rangle$——$v$ 在 ONB 第 $i$ 根轴上的坐标	$\mathbf{F}$ 中的数

什么是"内积"？三条公理一次看完

内积是把向量空间 $V$ 里任意两个向量 $u, v$ 送到 $\mathbf{F}$（$\mathbf{R}$ 或 $\mathbf{C}$）里一个数 $\langle u, v\rangle$ 的函数，必须满足三条公理：

6.3 定义（内积）. 设 $V$ 是 $\mathbf{F}$ 上的向量空间。一个内积是映射 $\langle \cdot, \cdot\rangle : V \times V \to \mathbf{F}$，满足：

(1) 正定性：$\langle v, v\rangle \geq 0$ 对所有 $v$；且 $\langle v, v\rangle = 0 \iff v = 0$
(2) 第一位加法线性：$\langle u + u', v\rangle = \langle u, v\rangle + \langle u', v\rangle$；$\langle \lambda u, v\rangle = \lambda \langle u, v\rangle$
(3) 共轭对称：$\langle u, v\rangle = \overline{\langle v, u\rangle}$（$\mathbf{R}$ 上退化为 $\langle u, v\rangle = \langle v, u\rangle$ 对称）

三条公理合起来自动推出"第二位共轭线性"：$\langle u, v + v'\rangle = \langle u, v\rangle + \langle u, v'\rangle$、$\langle u, \lambda v\rangle = \overline{\lambda} \langle u, v\rangle$。

标准例子（记住这些——其他都是变种）：

$\mathbf{R}^n$ 上的点积：$\langle u, v\rangle = u \cdot v = \sum_i u_i v_i = u_1 v_1 + \cdots + u_n v_n$
$\mathbf{C}^n$ 上的厄米点积：$\langle u, v\rangle = \sum_i u_i \overline{v_i}$（注意复数的共轭——保证正定）
连续函数空间 $C[a, b]$：$\langle f, g\rangle = \int_a^b f(x) \overline{g(x)} \, dx$
加权点积 $\langle u, v\rangle_W = u^\top W v$（$W$ 正定对称）——金融/统计里的马氏距离

有限维 $\Rightarrow$ 任选 ONB 后，内积必然是（标准）点积。所以 Ch 6 本质上研究"$\mathbf{R}^n$ 点积"的一切推论。

为什么要引入内积？前面 5 章难道还不够用？

前面 5 章（向量空间、线性映射、特征值、对角化）里你能做的事情："加法、标量乘、算线性组合、找特征值、判断是否可对角化"。但你不能做：

"这两个向量夹角多少？"——没有内积就没有角度概念
"这个向量有多长？"——没有范数
"哪个向量离给定子空间最近？"——没有距离就没有"最近"
"这两个向量垂直吗？"——正交性来自内积
"这组基两两垂直吗？"——正交规范基的基础

加上内积，瞬间解锁几何——距离、角度、正交、投影、最小二乘、傅里叶分析，全都是内积的直接产物。

一句话：内积 $=$ 把欧氏几何（毕达哥拉斯定理、余弦定理、投影）装进线性代数里的接口。一旦装上，从 $\mathbf{R}^n$ 到无穷维 Hilbert 空间（量子态、信号、函数空间）用的都是同一套语言。

为什么 Ch 7 要先讲 Ch 6：谱定理的结论是"自伴算子有一组正交规范特征基"——正交性只在有内积的空间里才有意义。Ch 6 把内积这个工具造出来，Ch 7 才能做手术。

范数 $\|v\| = \sqrt{\langle v, v\rangle}$ 有哪些性质？

从内积诱导出范数（长度），它自动满足三条：

6.9 范数性质. 对任意 $v \in V$、$\lambda \in \mathbf{F}$：

(N1) $\|v\| \geq 0$；$\|v\| = 0 \iff v = 0$ （正定）
(N2) $\|\lambda v\| = |\lambda| \cdot \|v\|$ （齐性）
(N3) $\|u + v\| \leq \|u\| + \|v\|$ （三角不等式）

(N1)(N2) 都是一步展开 $\|v\|^2 = \langle v, v\rangle$ 用公理得到；(N3) 三角不等式需要 Cauchy-Schwarz（见 Q4）——因为

$\|u + v\|^2 = \|u\|^2 + 2 \operatorname{Re}\langle u, v\rangle + \|v\|^2 \leq \|u\|^2 + 2 \|u\|\|v\| + \|v\|^2 = (\|u\| + \|v\|)^2$

其中 $\operatorname{Re}\langle u, v\rangle \leq |\langle u, v\rangle| \leq \|u\|\|v\|$（最后一步就是 Cauchy-Schwarz）。

勾股定理（6.13）：若 $u \perp v$，则 $\langle u, v\rangle = 0$，上面公式简化为

$u \perp v \;\Rightarrow\; \|u + v\|^2 = \|u\|^2 + \|v\|^2$

这是整个 Ch 6 几何直觉的基石。正交投影、Gram-Schmidt、最小距离——一切都反复用它。

平行四边形恒等式（Axler 6.22）：$\|u + v\|^2 + \|u - v\|^2 = 2(\|u\|^2 + \|v\|^2)$——内积空间独有的，用来判断"某个范数是否由内积诱导"。

Cauchy-Schwarz 不等式——线性代数里最万能的不等式

6.14 Cauchy-Schwarz. 对任意 $u, v \in V$： $$ |\langle u, v\rangle| \;\leq\; \|u\| \cdot \|v\| $$ 等号成立 $\iff$ $u, v$ 线性相关。

一行证明（Axler 最漂亮的技巧之一）：若 $v = 0$ 两边都 $0$。若 $v \neq 0$，令 $c = \langle u, v\rangle / \|v\|^2$（这是 $u$ 在 $v$ 上的"投影系数"）。则 $u - cv \perp v$（直接验证 $\langle u - cv, v\rangle = \langle u, v\rangle - c\|v\|^2 = 0$），由勾股定理：

$\|u\|^2 \;=\; \|u - cv\|^2 + \|cv\|^2 \;\geq\; \|cv\|^2 \;=\; |c|^2 \|v\|^2 \;=\; \dfrac{|\langle u, v\rangle|^2}{\|v\|^2}$

两边乘 $\|v\|^2$ 取平方根即 Cauchy-Schwarz。等号当且仅当 $u - cv = 0$，即 $u = cv$（共线）。∎

几何意义：把 $u$ 分解成"沿 $v$ 的分量"加"垂直于 $v$ 的残差"，"投影"长度 $\leq$ $u$ 原本长度。这让我们可以定义夹角：

$\cos\theta \;=\; \dfrac{\langle u, v\rangle}{\|u\|\|v\|} \in [-1, 1]$

右边的确在 $[-1, 1]$（由 Cauchy-Schwarz 保证），所以 $\theta \in [0, \pi]$ 有意义。

无穷维实例：把 Cauchy-Schwarz 用在 $\langle f, g\rangle = \int f g$ 上：

$\left|\int_a^b f(x) g(x) \, dx\right| \;\leq\; \sqrt{\int_a^b f^2 \, dx} \cdot \sqrt{\int_a^b g^2 \, dx}$

这就是分析里标准的 Cauchy-Schwarz 积分不等式——与有限维同一条定理，不同壳子。

2D 看一眼：内积、夹角、投影

拖滑杆改两个向量 $u = (u_1, u_2)$、$v = (v_1, v_2)$。画布上实时显示：

蓝色 $u$、紫色 $v$
金色是 $u$ 在 $v$ 上的正交投影 $P_v(u) = \frac{\langle u, v\rangle}{\|v\|^2} v$
青色虚线是残差 $u - P_v(u)$，必然 $\perp v$（勾股定理构件）
右侧读出：$\langle u, v\rangle$、$\|u\|$、$\|v\|$、夹角 $\theta$、Cauchy-Schwarz 验证、投影系数

尝试：按"正交"预设，内积 $= 0$、夹角 $= 90°$、投影 $= 0$；按"共线"预设，投影 $= u$，残差 $= 0$；中间一般情况观察 Cauchy-Schwarz 不等式 $|\langle u, v\rangle| \leq \|u\|\|v\|$ 什么时候取等。

投影向量残差（垂直分量）夹角弧

u v P_v(u) 投影 u − P_v(u) 残差

向量 $u = (u_1, u_2)$

u₁2.00

u₂1.00

向量 $v = (v_1, v_2)$

v₁1.00

v₂2.00

读数

正交规范基（ONB）——为什么它如此便利？

6.25 定义（ONB）. $V$ 的基 $(e_1, \ldots, e_n)$ 称正交规范（orthonormal），当且仅当 $\langle e_i, e_j\rangle = \delta_{ij}$——两两正交且都是单位长度。

假设手里有 ONB，任意 $v \in V$ 的坐标直接用内积读出：

6.30 ONB 坐标公式. 若 $(e_1, \ldots, e_n)$ 是 ONB，则对任意 $v \in V$： $$ v \;=\; \langle v, e_1\rangle e_1 + \langle v, e_2\rangle e_2 + \cdots + \langle v, e_n\rangle e_n \;=\; \sum_{i=1}^n \langle v, e_i\rangle \, e_i $$ 且 $\|v\|^2 = \sum_{i=1}^n |\langle v, e_i\rangle|^2$（Parseval 等式）。

证明：设 $v = \sum c_j e_j$（用基展开）。取 $\langle v, e_i\rangle = \sum c_j \langle e_j, e_i\rangle = \sum c_j \delta_{ji} = c_i$——所以 $c_i = \langle v, e_i\rangle$。Parseval 由 $\|v\|^2 = \langle v, v\rangle = \sum c_i \overline{c_i} = \sum |c_i|^2$ 得到。∎

对比一般基的坐标：如果基 $(v_1, \ldots, v_n)$ 不正交，求坐标 $v = \sum c_i v_i$ 要解线性方程组 $G c = b$，$G_{ij} = \langle v_i, v_j\rangle$ 是 Gram 矩阵——需要求逆。ONB 把 $G$ 变成 $I$，求逆消失。这就是为什么数值计算永远优先 ONB。

三件大事 ONB 同时给你：

坐标 $=$ 内积（一步读出）
长度 $=$ 坐标平方和的平方根（Parseval）
内积 $=$ 坐标内积（$\langle u, v\rangle = \sum \hat u_i \overline{\hat v_i}$）——内积的计算规约到"普通点积"

Gram-Schmidt 过程：任何基都能正交规范化

既然 ONB 这么好，手头的任意基 $(v_1, \ldots, v_n)$ 能不能系统地改造成 ONB？答案是肯定的——Gram-Schmidt 算法。

6.32 Gram-Schmidt. 对 $V$ 的任意线性无关序列 $(v_1, \ldots, v_n)$，递归定义 $$ e_1 = \dfrac{v_1}{\|v_1\|}, \quad e_k = \dfrac{v_k - \sum_{i=1}^{k-1} \langle v_k, e_i\rangle e_i}{\left\| v_k - \sum_{i=1}^{k-1} \langle v_k, e_i\rangle e_i \right\|} \quad (k = 2, \ldots, n) $$ 则 $(e_1, \ldots, e_n)$ 是正交规范的，且 $\operatorname{span}(e_1, \ldots, e_k) = \operatorname{span}(v_1, \ldots, v_k)$ 对所有 $k$。

几何解读：第 $k$ 步分两步——

减去已知子空间的投影：$u_k = v_k - \sum_{i < k} \langle v_k, e_i\rangle e_i$——把 $v_k$ 中"沿 $e_1, \ldots, e_{k-1}$ 方向"的部分全减掉，剩下的 $u_k$ 一定垂直于所有 $e_i \; (i < k)$
归一化：$e_k = u_k / \|u_k\|$——把长度调到 $1$

几何上像"造新基时始终把新向量的投影部分扣除，只留下新的、正交的方向"。

推论 6.37：每个有限维内积空间都有 ONB——因为总能拿一组普通基做 Gram-Schmidt。

推论 6.38（扩张 ONB）：子空间的 ONB 可扩成全空间的 ONB——即给定 $U$ 的 ONB $(e_1, \ldots, e_k)$，存在全空间的 ONB $(e_1, \ldots, e_k, e_{k+1}, \ldots, e_n)$，前 $k$ 个正好是 $U$ 的基。这是正交补 $U^\perp$ 构造的关键。

QR 分解：Gram-Schmidt 用矩阵表达就是 $A = Q R$——$A$ 的列经过 GS 得 $Q$（正交矩阵），$R$ 是上三角（记录"每步减了多少"的系数）。数值线代的基石。

3D 看 Gram-Schmidt 动画

下面 Three.js 场景里你可以调 3 个起始向量 $v_1, v_2, v_3$（可能不正交、也未归一化）。按钮"运行 GS"后，场景同时显示：

红色/橙色/青色虚线：原始 $v_1, v_2, v_3$
紫色粗实线：正交规范化后的 $e_1, e_2, e_3$（长度严格 $= 1$，两两互相垂直）
右侧读出：Gram 矩阵 $G_{ij} = \langle e_i, e_j\rangle$，应该是 $I$ 矩阵（对角 $1$，其余 $0$）

拖动鼠标旋转视角。Space 暂停，R 复位相机。按"共面"预设，$v_3$ 接近 $v_1, v_2$ 张成的平面，GS 会给出一个非常短的 $e_3$（说明几乎线性相关）。按"正交原始"预设，$v_i$ 本身就正交，GS 只做归一化。

原始 v₁, v₂, v₃ (任意基) e₁, e₂, e₃ (ONB) 投影分量

向量 $v_1, v_2, v_3$（每行一个）

ONB Gram 矩阵 $\langle e_i, e_j\rangle$

正交补 $U^\perp$：子空间的"垂直宇宙"

6.46 定义（正交补）. 设 $U \subseteq V$ 是子空间。它的正交补： $$ U^\perp \;=\; \{ v \in V : \langle v, u\rangle = 0 \;\; \forall u \in U \} $$

基本性质：

$U^\perp$ 本身是 $V$ 的子空间（可验证 $0 \in U^\perp$，加法、标量乘封闭）
$U \cap U^\perp = \{0\}$（因为若 $v \in U \cap U^\perp$，则 $\langle v, v\rangle = 0 \Rightarrow v = 0$）
$(U^\perp)^\perp = U$
$U \subseteq W \Rightarrow W^\perp \subseteq U^\perp$（大空间的垂直补是小的）

最重要的一条结构定理：

6.49 正交直和分解. 设 $V$ 有限维，$U \subseteq V$ 子空间。则 $$ V \;=\; U \oplus U^\perp $$ 即每个 $v \in V$ 有唯一分解 $v = u + w$，$u \in U$、$w \in U^\perp$。

证明思路：取 $U$ 的 ONB $(e_1, \ldots, e_k)$，扩成 $V$ 的 ONB $(e_1, \ldots, e_k, e_{k+1}, \ldots, e_n)$（Gram-Schmidt 推论 6.38）。设 $v = \sum_i \langle v, e_i\rangle e_i$。拆成

$v \;=\; \underbrace{\sum_{i=1}^k \langle v, e_i\rangle e_i}_{=: u \in U} \;+\; \underbrace{\sum_{i=k+1}^n \langle v, e_i\rangle e_i}_{=: w \in U^\perp}$

$w \perp e_j$ 对 $j \leq k$，所以 $w \perp U$；唯一性由 $U \cap U^\perp = \{0\}$ 保证。∎

维度公式：$\dim U + \dim U^\perp = \dim V$。这是"5 章 Rank-Nullity"的内积版本。

对比一般直和：5B 的直和 $V = U \oplus W$ 可能有很多选法（选不同的 $W$）。正交直和 $V = U \oplus U^\perp$ 在内积下唯一——$U^\perp$ 是"所有垂直于 $U$ 的向量"，没得选。这种唯一性是正交投影存在且良好定义的基础。

正交投影 $P_U$：最小二乘的几何基础

有了正交直和 $V = U \oplus U^\perp$，就可以把"取 $U$-分量"这个操作定义成算子：

6.53 定义（正交投影）. 到子空间 $U$ 的正交投影 $P_U : V \to V$ 定义为：对 $v = u + w$（$u \in U$、$w \in U^\perp$，由 6.49 唯一）， $$ P_U v \;=\; u $$

用 ONB 的显式公式：若 $(e_1, \ldots, e_k)$ 是 $U$ 的 ONB，则

$P_U v \;=\; \sum_{i=1}^k \langle v, e_i\rangle e_i$

关键性质：

幂等：$P_U^2 = P_U$（投影过再投影还是一样）
自伴：$P_U^* = P_U$（$\mathbf{R}$ 上矩阵对称）
像 + 零空间：$\operatorname{range} P_U = U$，$\operatorname{null} P_U = U^\perp$
范数 $\leq 1$：$\|P_U v\| \leq \|v\|$（投影不会变长，勾股 $\|v\|^2 = \|P_U v\|^2 + \|v - P_U v\|^2$）
$v - P_U v \in U^\perp$：残差必定垂直于 $U$

反向刻画：算子 $P$ 是到某子空间的正交投影 $\iff$ $P^2 = P$ 且 $P^* = P$。两条性质同时成立才叫正交投影——仅 $P^2 = P$ 是一般（非正交）投影，沿着非正交方向投。

例：$U = \operatorname{span}(e_1, e_2) \subseteq \mathbf{R}^3$，$P_U(x, y, z) = (x, y, 0)$。矩阵 $\operatorname{diag}(1, 1, 0)$，显然 $P_U^2 = P_U$ 且对称。

最小化问题：为什么 $P_U v$ 是 $U$ 里"离 $v$ 最近"的点？

这条定理把 Ch 6 抽象几何和应用数学"最优化"连在一起——投影不仅是代数定义，还是距离最小化的解。

6.61 最小距离定理. 设 $U \subseteq V$ 子空间、$v \in V$。则对任意 $u \in U$： $$ \|v - P_U v\| \;\leq\; \|v - u\| $$ 等号成立 $\iff u = P_U v$。即 $P_U v$ 是 $U$ 里唯一的、使 $\|v - u\|$ 最小的点。

一行证明（纯勾股）：对任意 $u \in U$，

$\|v - u\|^2 \;=\; \|(v - P_U v) + (P_U v - u)\|^2 \;=\; \|v - P_U v\|^2 + \|P_U v - u\|^2$

第二个等号用勾股：$v - P_U v \in U^\perp$（残差性质），$P_U v - u \in U$（两个 $U$ 里的点之差），两者正交。所以 $\|v - u\|^2 \geq \|v - P_U v\|^2$，等号当且仅当 $P_U v = u$。∎

应用 · 最小二乘回归：数据点 $(x_i, y_i)$，找最佳直线 $y = \beta_0 + \beta_1 x$。写成矩阵 $y = X\beta$，$X \in \mathbf{R}^{n \times 2}$ 的列是 $(1, 1, \ldots, 1)$ 和 $(x_1, \ldots, x_n)$。一般 $y \notin \operatorname{range} X$（数据有噪声），所以方程无解。但我们可以问：哪个 $\beta$ 使 $X\beta$ 离 $y$ 最近？由 6.61，最优 $X\beta^* = P_{\operatorname{range} X}(y)$，解为：

$\beta^* \;=\; (X^\top X)^{-1} X^\top y$

这就是最小二乘的正规方程——整个统计/机器学习/信号处理里最常引用的一条公式，本质就是"$P_U$ 给最近逼近"。

$\|v - P_U v\|$ 的显式：若 $(e_1, \ldots, e_k)$ 是 $U$ 的 ONB，

$\|v - P_U v\|^2 \;=\; \|v\|^2 - \sum_{i=1}^k |\langle v, e_i\rangle|^2$

（来自 Parseval + 勾股）。这是逼近误差的直接公式。

傅里叶系数视角：把 ONB 坐标看成"频谱"

公式 $v = \sum \langle v, e_i\rangle e_i$ 里的 $\langle v, e_i\rangle$ 被称为 $v$ 的傅里叶系数——无论 $V$ 是 $\mathbf{R}^n$ 还是连续函数空间，这个名字统一。

在 $L^2[-\pi, \pi]$ 里：取 $e_n(x) = \frac{1}{\sqrt{2\pi}} e^{inx}$（$n \in \mathbf{Z}$），这是 ONB。任何平方可积函数 $f$：

$f(x) \;=\; \sum_{n=-\infty}^{\infty} \hat f_n \, e_n(x), \quad \hat f_n \;=\; \langle f, e_n\rangle \;=\; \dfrac{1}{\sqrt{2\pi}} \int_{-\pi}^{\pi} f(x) e^{-inx} \, dx$

这就是经典傅里叶级数——和 Ch 6 的 $v = \sum \langle v, e_i\rangle e_i$ 是同一条公式，只不过在无穷维函数空间里。

Parseval 等式的频域意义：

$\|f\|^2 = \int |f(x)|^2 dx \;=\; \sum_n |\hat f_n|^2$

"时域能量 $=$ 频域能量"。信号处理里的能量守恒律。

Bessel 不等式（6.26）：若 $(e_1, \ldots, e_k)$ 只是正交规范序列（不必是完整基），则

$\sum_{i=1}^k |\langle v, e_i\rangle|^2 \;\leq\; \|v\|^2$

等号 $\iff v \in \operatorname{span}(e_1, \ldots, e_k)$。解读：用有限个基做投影，能量永远不会超过原来的。逼近质量等于保留能量比。这是图像压缩（JPEG = 离散余弦基的 Bessel 近似）、语音编码（MFCC）、主成分（PCA = 协方差矩阵特征基的 Bessel 近似）的共同数学原理。

一句话连接："Gram-Schmidt → ONB → 傅里叶系数 → Parseval/Bessel → 最优逼近"——这整条链条是一切现代信号分析（小波、短时傅里叶、子带编码、卷积神经网络的"频谱解释"）的共同起点。

Ch 6 要记住哪些底子定理？

6.3 内积公理. 正定 + 第一位加法线性 + 共轭对称

6.9 范数性质. 正定 + 齐性 + 三角不等式，由内积诱导

6.13 勾股定理. $u \perp v \Rightarrow \|u + v\|^2 = \|u\|^2 + \|v\|^2$

6.14 Cauchy-Schwarz. $|\langle u, v\rangle| \leq \|u\|\|v\|$，等号 $\iff$ 共线

6.22 平行四边形恒等式. $\|u+v\|^2 + \|u-v\|^2 = 2(\|u\|^2 + \|v\|^2)$——内积空间的刻画

6.26 Bessel 不等式. 任何 ON 序列，$\sum|\langle v, e_i\rangle|^2 \leq \|v\|^2$

6.30 ONB 坐标公式. $v = \sum \langle v, e_i\rangle e_i$；Parseval $\|v\|^2 = \sum |\langle v, e_i\rangle|^2$

6.32 Gram-Schmidt. 任何线性无关序列可正交规范化，且保持前 $k$ 个张成

6.37 ONB 存在性. 每个有限维内积空间都有 ONB

6.49 正交直和. $V = U \oplus U^\perp$，维度 $\dim U + \dim U^\perp = \dim V$

6.53 $P_U$ 定义. $P_U(u + w) = u$；ONB 公式 $P_U v = \sum_{i\leq k} \langle v, e_i\rangle e_i$

6.55 $P_U$ 刻画. $P$ 是正交投影 $\iff P^2 = P$ 且 $P^* = P$

6.61 最小距离. $\min_{u \in U} \|v - u\| = \|v - P_U v\|$——投影 $=$ 最佳逼近

Axler 6A/6B/6C 重点习题

Ex 6A-3：证明平行四边形恒等式
Ex 6A-12：Cauchy-Schwarz 等号条件
Ex 6B-7：Gram-Schmidt 手动化 $(1, x, x^2)$ 在 $L^2[-1, 1]$ 上（Legendre 多项式）
Ex 6C-2：正交投影的矩阵表示
Ex 6C-11：最小二乘拟合多项式

Ch 6 三个硬核应用

应用 1 · 最小二乘回归（统计/机器学习）

有 $n$ 个数据点 $(x_i, y_i)$，想拟合直线 $y = \beta_0 + \beta_1 x$。定义设计矩阵 $X \in \mathbf{R}^{n \times 2}$（第 $i$ 行 $(1, x_i)$），目标向量 $y \in \mathbf{R}^n$。问题：找 $\beta = (\beta_0, \beta_1)$ 最小化 $\|y - X\beta\|^2$。

几何解读：$U = \operatorname{range} X \subseteq \mathbf{R}^n$ 是 2 维子空间（所有可能的"直线值向量"）。一般 $y \notin U$。最佳 $X\beta = P_U y$。由 $y - X\beta \perp U$（残差正交于列空间）得到正规方程：

$X^\top (y - X\beta) = 0 \;\Longleftrightarrow\; \beta = (X^\top X)^{-1} X^\top y$

推广到多元回归、广义线性模型、岭回归，基础全是"投影到列空间"这个几何图像。整个统计回归的数学都在 Ch 6。

应用 2 · 傅里叶分解（信号处理）

对信号 $f(t)$（可以是声音、图像、股价），选一组正交基 $\{e_n\}$（傅里叶基、小波基、Gabor 基）。$f = \sum_n \hat f_n e_n$——任何信号都可以拆成基的线性组合，系数 $\hat f_n = \langle f, e_n\rangle$ 就是傅里叶系数。

Bessel 不等式告诉你只取最大的 $k$ 个 $|\hat f_n|^2$ 项得到最佳 $k$ 项近似——这就是 JPEG（DCT + 丢弃小系数）、MP3（滤波器组 + 感知编码）、HEVC 视频压缩的数学核。压缩 $=$ 在正交基下把小傅里叶系数置零。

图像例：$8 \times 8$ 像素块 $\to$ 二维 DCT $\to$ 64 个系数 $\to$ 保留最大 10 个 $\to$ 解码（用 $P_U$ 逆变换）$\to$ 图像肉眼几乎无损，体积 $1/6$。

应用 3 · QR 分解（数值线性代数）

矩阵 $A \in \mathbf{R}^{m \times n}$ 列向量做 Gram-Schmidt，得到正交矩阵 $Q$ 和上三角 $R$：

$A \;=\; Q R, \quad Q^\top Q = I, \quad R \text{ 上三角}$

解最小二乘的高效方法：$\min \|A\beta - y\|^2$ 的正规方程 $A^\top A \beta = A^\top y$ 条件数是 $\kappa(A)^2$——数值不稳定。QR 把问题转成 $R\beta = Q^\top y$，条件数降到 $\kappa(A)$——稳定得多。LAPACK 的 dgels、MATLAB 的 \、NumPy 的 lstsq 都基于 QR 或其改进（Householder / Givens）。

一句话：内积 $\to$ 正交 $\to$ 投影 $\to$ 逼近——Ch 6 给你的是最佳近似 这个数学工具。从 18 世纪最小二乘、19 世纪傅里叶级数、20 世纪 PCA、21 世纪神经网络里的注意力机制（softmax + 内积），都是同一条血脉。

Ch 6 学完，下一步？

内积空间是 Ch 7 谱定理的直接地基：

7A 伴随算子：内积结构诱导出每个 $T$ 的伴随 $T^*$，满足 $\langle Tu, v\rangle = \langle u, T^*v\rangle$
7B 谱定理：自伴/正规算子在正交规范特征基下就是对角矩阵——正交性的来源正是 Ch 6
7C 正算子：自伴 + 特征值 $\geq 0$ 的算子（协方差矩阵、Gram 矩阵的共同抽象）
7E SVD：把谱定理推广到任意矩阵——数据科学家的日常工具

用一条箭头看：

Ch 5 可对角化 $\xrightarrow{+\text{内积 (Ch 6)}}$ 正交对角化 $=$ Ch 7 谱定理

如果把 Ch 5（特征值 / 对角化）比作"代数骨架"，Ch 6 就是"几何血肉"——Ch 7 是两者合体后的最漂亮成果。

强烈推荐额外读：Axler 6B 末尾的 Legendre 多项式例子（对 $(1, x, x^2, \ldots)$ 在 $[-1, 1]$ 做 GS）——亲手算一次会让你对"内积空间 = 带几何的向量空间"有肌肉记忆。

★ 轮到你了——自测 8 题

每题至少想 3 分钟再看答案。难度：★ 概念/简单计算 · ★★ 证明 · ★★★ 综合。

E1 ★基础内积计算

$\mathbf{R}^3$ 标准点积下，$u = (1, 2, 2)$、$v = (2, -1, 2)$。计算 $\langle u, v\rangle$、$\|u\|$、$\|v\|$、夹角 $\theta$。$u \perp v$ 吗？

提示

$\langle u, v\rangle = \sum u_i v_i$；$\|u\| = \sqrt{\langle u, u\rangle}$；$\cos\theta = \langle u, v\rangle / (\|u\|\|v\|)$。正交 $\iff \langle u, v\rangle = 0$。

答案

$\langle u, v\rangle = 1 \cdot 2 + 2 \cdot (-1) + 2 \cdot 2 = 2 - 2 + 4 = 4$

$\|u\| = \sqrt{1 + 4 + 4} = 3$，$\|v\| = \sqrt{4 + 1 + 4} = 3$

$\cos\theta = 4 / 9$，$\theta = \arccos(4/9) \approx 63.6°$

$u \perp v$? 不正交（$\langle u, v\rangle = 4 \neq 0$）。

E2 ★验证 Cauchy-Schwarz

在 $\mathbf{R}^2$ 里取 $u = (3, 4)$、$v = (1, 2)$。手算验证 Cauchy-Schwarz $|\langle u, v\rangle| \leq \|u\|\|v\|$，并说明等号为什么没取到。

提示

算出两边数值，比较大小。等号条件 $\iff u, v$ 共线。

答案

$\langle u, v\rangle = 3 + 8 = 11$；$\|u\| = 5$、$\|v\| = \sqrt 5$；$\|u\|\|v\| = 5\sqrt 5 \approx 11.18$

$11 \leq 11.18$ ✓（Cauchy-Schwarz 成立）

等号未取到：$u = (3, 4)$、$v = (1, 2)$ 不共线（$4/3 \neq 2/1$）。

E3 ★★手动 Gram-Schmidt

在 $\mathbf{R}^3$ 里对 $v_1 = (1, 1, 0)$、$v_2 = (1, 0, 1)$、$v_3 = (0, 1, 1)$ 做 Gram-Schmidt，得 ONB $(e_1, e_2, e_3)$。

提示

$e_1 = v_1 / \|v_1\|$；$u_2 = v_2 - \langle v_2, e_1\rangle e_1$，$e_2 = u_2 / \|u_2\|$；$u_3 = v_3 - \langle v_3, e_1\rangle e_1 - \langle v_3, e_2\rangle e_2$，$e_3 = u_3 / \|u_3\|$。

答案

$\|v_1\| = \sqrt 2$，$e_1 = \frac{1}{\sqrt 2}(1, 1, 0)$

$\langle v_2, e_1\rangle = \frac{1}{\sqrt 2}$，$u_2 = v_2 - \frac{1}{\sqrt 2} \cdot \frac{1}{\sqrt 2}(1, 1, 0) = (1, 0, 1) - (\frac{1}{2}, \frac{1}{2}, 0) = (\frac{1}{2}, -\frac{1}{2}, 1)$

$\|u_2\| = \sqrt{\frac{1}{4} + \frac{1}{4} + 1} = \sqrt{\frac{3}{2}}$，$e_2 = \sqrt{\frac{2}{3}}(\frac{1}{2}, -\frac{1}{2}, 1) = \frac{1}{\sqrt 6}(1, -1, 2)$

$\langle v_3, e_1\rangle = \frac{1}{\sqrt 2}$；$\langle v_3, e_2\rangle = \frac{1}{\sqrt 6}(0 - 1 + 2) = \frac{1}{\sqrt 6}$

$u_3 = (0, 1, 1) - \frac{1}{\sqrt 2} \cdot \frac{1}{\sqrt 2}(1, 1, 0) - \frac{1}{\sqrt 6} \cdot \frac{1}{\sqrt 6}(1, -1, 2) = (0,1,1) - (\frac{1}{2},\frac{1}{2},0) - (\frac{1}{6},-\frac{1}{6},\frac{1}{3})$

$= (-\frac{2}{3}, \frac{2}{3}, \frac{2}{3})$；$\|u_3\| = \frac{2}{\sqrt 3}$，$e_3 = \frac{1}{\sqrt 3}(-1, 1, 1)$

验证 $\langle e_1, e_2\rangle = 0$、$\langle e_1, e_3\rangle = 0$、$\langle e_2, e_3\rangle = 0$ 全成立 ✓

E4 ★★证明平行四边形恒等式

对任意内积空间 $V$、任意 $u, v \in V$，证 $\|u + v\|^2 + \|u - v\|^2 = 2(\|u\|^2 + \|v\|^2)$。

提示

展开两个 $\|\cdot\|^2$ 成内积，合并交叉项。

答案

$\|u + v\|^2 = \langle u+v, u+v\rangle = \|u\|^2 + \langle u, v\rangle + \langle v, u\rangle + \|v\|^2 = \|u\|^2 + \|v\|^2 + 2\operatorname{Re}\langle u, v\rangle$

$\|u - v\|^2 = \|u\|^2 + \|v\|^2 - 2\operatorname{Re}\langle u, v\rangle$

相加：交叉项抵消，得 $2\|u\|^2 + 2\|v\|^2$。∎

几何：四边形对角线平方和 $=$ 四边平方和——是欧氏几何里平行四边形的经典定理。这条恒等式反过来可以刻画"某个赋范空间是否由内积诱导"：Jordan-von Neumann 定理说此恒等式成立 $\iff$ 范数由内积诱导。

E5 ★★正交投影计算

设 $U = \operatorname{span}\{(1, 1, 0), (1, 0, 1)\} \subseteq \mathbf{R}^3$。求 $v = (1, 2, 3)$ 到 $U$ 的正交投影 $P_U v$、$\|v - P_U v\|$ 以及 $v - P_U v$ 是否在 $U^\perp$ 里。

提示

先对 $U$ 的两个生成元做 Gram-Schmidt 得 ONB $(e_1, e_2)$，再用 $P_U v = \langle v, e_1\rangle e_1 + \langle v, e_2\rangle e_2$。

答案

GS：$e_1 = \frac{1}{\sqrt 2}(1, 1, 0)$（同 E3）；$e_2 = \frac{1}{\sqrt 6}(1, -1, 2)$（同 E3）

$\langle v, e_1\rangle = \frac{1 + 2}{\sqrt 2} = \frac{3}{\sqrt 2}$

$\langle v, e_2\rangle = \frac{1 - 2 + 6}{\sqrt 6} = \frac{5}{\sqrt 6}$

$P_U v = \frac{3}{\sqrt 2} \cdot \frac{1}{\sqrt 2}(1,1,0) + \frac{5}{\sqrt 6} \cdot \frac{1}{\sqrt 6}(1,-1,2) = (\frac{3}{2},\frac{3}{2},0) + (\frac{5}{6},-\frac{5}{6},\frac{5}{3}) = (\frac{14}{6},\frac{4}{6},\frac{10}{6}) = (\frac{7}{3},\frac{2}{3},\frac{5}{3})$

残差 $v - P_U v = (1 - \frac{7}{3}, 2 - \frac{2}{3}, 3 - \frac{5}{3}) = (-\frac{4}{3}, \frac{4}{3}, \frac{4}{3})$

$\|v - P_U v\| = \frac{4}{3}\sqrt 3 = \frac{4}{\sqrt 3}$

验证正交：$\langle v - P_U v, (1,1,0)\rangle = -\frac{4}{3} + \frac{4}{3} = 0$ ✓；$\langle v - P_U v, (1,0,1)\rangle = -\frac{4}{3} + \frac{4}{3} = 0$ ✓。在 $U^\perp$ 里。

E6 ★★证：$P^2 = P$ 且 $P^* = P$ $\Rightarrow$ $P$ 是到某子空间的正交投影

设 $P \in \mathcal{L}(V)$ 满足 $P^2 = P$ 且 $P^* = P$。令 $U = \operatorname{range} P$。证 $P = P_U$。

提示

要证两件：(1) 对 $u \in U$，$P u = u$；(2) 对 $w \in U^\perp$，$P w = 0$。第二条用 $P^* = P$。

答案

(1)：$u \in U = \operatorname{range} P$，存在 $x$ 使 $u = Px$。则 $Pu = P(Px) = P^2 x = Px = u$。✓

(2)：$w \in U^\perp$ 即 $\langle w, u\rangle = 0$ 对所有 $u \in \operatorname{range} P$。要证 $Pw = 0$。考察 $\|Pw\|^2 = \langle Pw, Pw\rangle = \langle w, P^* P w\rangle = \langle w, P^2 w\rangle = \langle w, Pw\rangle$。而 $Pw \in \operatorname{range} P = U$，所以 $\langle w, Pw\rangle = 0$（由 $w \in U^\perp$）。故 $\|Pw\|^2 = 0 \Rightarrow Pw = 0$。✓

结论：对任意 $v = u + w$（$u \in U$、$w \in U^\perp$），$Pv = Pu + Pw = u + 0 = u = P_U v$。所以 $P = P_U$。∎

E7 ★★★最小二乘回归的几何推导

设 $X \in \mathbf{R}^{n \times p}$（$n > p$，列线性无关），$y \in \mathbf{R}^n$。目标：找 $\beta \in \mathbf{R}^p$ 最小化 $\|X\beta - y\|^2$。用 Ch 6 的正交投影语言推出正规方程 $\beta^* = (X^\top X)^{-1} X^\top y$。

提示

令 $U = \operatorname{range} X$。最优 $X\beta^* = P_U y$。用 "残差 $y - X\beta^* \in U^\perp$" 导出 $X^\top(y - X\beta^*) = 0$。

答案

$U = \operatorname{range} X = \{X\beta : \beta \in \mathbf{R}^p\}$ 是 $\mathbf{R}^n$ 的 $p$ 维子空间（列无关）。

由 6.61 最小距离定理：$\min_{\beta} \|X\beta - y\|^2 = \|y - P_U y\|^2$，且 $X\beta^* = P_U y$ 是唯一最优解。

$U^\perp$ 刻画：$w \in U^\perp \iff \langle w, X\beta\rangle = 0 \; \forall \beta \iff \beta^\top X^\top w = 0 \; \forall \beta \iff X^\top w = 0$。所以 $U^\perp = \operatorname{null}(X^\top)$。

残差 $r = y - X\beta^* \in U^\perp$，即 $X^\top r = 0$：

$X^\top (y - X\beta^*) = 0 \;\Longrightarrow\; X^\top X \beta^* = X^\top y$

$X$ 列无关 $\Rightarrow X^\top X$ 可逆，所以 $\beta^* = (X^\top X)^{-1} X^\top y$。∎

残差自动与 $X$ 所有列正交——这就是线性回归"残差与预测变量无关"的几何本质。

E8 ★★★Legendre 多项式：GS 在函数空间

$V = $ 次数 $\leq 2$ 的实系数多项式，内积 $\langle f, g\rangle = \int_{-1}^{1} f(x) g(x) \, dx$。对基 $(1, x, x^2)$ 做 Gram-Schmidt，得 ONB $(p_0, p_1, p_2)$（这是 Legendre 多项式的正交规范版本）。

提示

需要积分：$\int_{-1}^{1} 1 \, dx = 2$，$\int_{-1}^{1} x^2 \, dx = 2/3$，$\int_{-1}^{1} x^4 \, dx = 2/5$；$\int_{-1}^{1} x \, dx = \int_{-1}^{1} x^3 \, dx = 0$。

答案

$p_0$：$\|1\|^2 = \int_{-1}^{1} 1 \, dx = 2$，$p_0 = 1/\sqrt 2$

$p_1$：$\langle x, p_0\rangle = \frac{1}{\sqrt 2}\int_{-1}^{1} x \, dx = 0$（$x$ 是奇函数）。所以 $u_1 = x$，$\|x\|^2 = 2/3$，$p_1 = \sqrt{3/2} \cdot x = \sqrt{\frac{3}{2}} x$

$p_2$：$\langle x^2, p_0\rangle = \frac{1}{\sqrt 2}\int x^2 dx = \frac{1}{\sqrt 2} \cdot \frac{2}{3} = \frac{\sqrt 2}{3}$；$\langle x^2, p_1\rangle = \sqrt{3/2}\int_{-1}^{1} x^3 dx = 0$

$u_2 = x^2 - \frac{\sqrt 2}{3} \cdot \frac{1}{\sqrt 2} = x^2 - \frac{1}{3}$

$\|u_2\|^2 = \int_{-1}^{1} (x^2 - \frac{1}{3})^2 dx = \int (x^4 - \frac{2}{3}x^2 + \frac{1}{9}) dx = \frac{2}{5} - \frac{2}{3}\cdot\frac{2}{3} + \frac{2}{9} = \frac{2}{5} - \frac{4}{9} + \frac{2}{9} = \frac{2}{5} - \frac{2}{9} = \frac{8}{45}$

$p_2 = \sqrt{\frac{45}{8}}(x^2 - \frac{1}{3}) = \frac{3\sqrt 5}{2\sqrt 2}(x^2 - \frac{1}{3}) = \frac{3}{2}\sqrt{\frac{5}{2}}(x^2 - \frac{1}{3})$

这些正是 Legendre 多项式 $P_0, P_1, P_2$ 的标准化版本——在偏微分方程（Legendre 方程）、球谐函数、电磁学多极展开里无处不在，本质就是"把 $[-1, 1]$ 上连续函数空间里的单项式做 GS"。

完成度自检：E1-E2 通 = 基本内积计算 + Cauchy-Schwarz；E3-E5 通 = 会手动 GS + 正交投影；E6-E7 证明通 = 理解投影算子的代数刻画 + 最小二乘本质；E8 通 = 看懂内积空间在函数空间里的应用，已可直接开 Ch 7。

Ch 6 Inner Product Spaces · Axler 4e · §6A–6C · pp.177–203

0 · 符号对照