内积空间是把"距离、角度、正交"加到普通向量空间里。前 5 章只有"加法 + 标量乘法"——你不能问"这两个向量夹角多少",也不能问"哪个向量离我最近"。加上内积后,整张几何地图才被还原。Ch 7 谱定理的前置:没有正交性,就没有谱分解。
| 符号 | 念作 | 含义 | 类型 |
|---|---|---|---|
| $V$ | V | 有限维内积空间($\mathbf{R}$ 或 $\mathbf{C}$ 上),即向量空间 + 一个内积 | 空间 + 内积 |
| $\langle u, v\rangle$ | u, v 的内积 | $V \times V \to \mathbf{F}$ 的函数,满足正定 + 加法线性 + 对称($\mathbf{R}$)或共轭对称($\mathbf{C}$) | $\mathbf{F}$ 中的数 |
| $\|v\|$ | v 的范数 | $\sqrt{\langle v, v\rangle}$——向量的"长度" | $\geq 0$ 的实数 |
| $u \perp v$ | u 与 v 正交 | $\langle u, v\rangle = 0$ | 关系 |
| $\theta$ | theta | 非零向量夹角,由 $\cos\theta = \langle u, v\rangle / (\|u\|\|v\|)$ 定义 | $[0, \pi]$ 的实数 |
| $e_i$ | e i | 正交规范基(ONB)里的第 $i$ 个向量:$\|e_i\| = 1$、$e_i \perp e_j \; (i \neq j)$ | 单位向量 |
| $\delta_{ij}$ | delta i j | Kronecker:$i = j$ 时 $= 1$,否则 $= 0$。ONB 即 $\langle e_i, e_j\rangle = \delta_{ij}$ | 0 或 1 |
| Gram-Schmidt | 格拉姆-施密特 | 把任何基 $(v_1, \ldots, v_n)$ 正交化成 ONB $(e_1, \ldots, e_n)$ 的算法 | 算法 |
| $U$ | U | $V$ 的子空间 | 子空间 |
| $U^\perp$ | U 的正交补 | $\{v \in V : \langle v, u\rangle = 0 \; \forall u \in U\}$——与 $U$ 中所有向量都正交的向量集合 | $V$ 的子空间 |
| $V = U \oplus U^\perp$ | V 是 U 与 U⊥ 的直和 | 任何 $v \in V$ 有唯一分解 $v = u + w$,$u \in U$、$w \in U^\perp$ | 分解 |
| $P_U$ | 到 U 的正交投影 | 算子 $V \to V$,把 $v$ 映到直和分解中的 $U$-分量 $u$。$P_U^2 = P_U$、$P_U^* = P_U$ | 算子 |
| $\hat v$ | v-hat(傅里叶系数) | $\langle v, e_i\rangle$——$v$ 在 ONB 第 $i$ 根轴上的坐标 | $\mathbf{F}$ 中的数 |
内积是把向量空间 $V$ 里任意两个向量 $u, v$ 送到 $\mathbf{F}$($\mathbf{R}$ 或 $\mathbf{C}$)里一个数 $\langle u, v\rangle$ 的函数,必须满足三条公理:
三条公理合起来自动推出"第二位共轭线性":$\langle u, v + v'\rangle = \langle u, v\rangle + \langle u, v'\rangle$、$\langle u, \lambda v\rangle = \overline{\lambda} \langle u, v\rangle$。
标准例子(记住这些——其他都是变种):
有限维 $\Rightarrow$ 任选 ONB 后,内积必然是(标准)点积。所以 Ch 6 本质上研究"$\mathbf{R}^n$ 点积"的一切推论。
前面 5 章(向量空间、线性映射、特征值、对角化)里你能做的事情:"加法、标量乘、算线性组合、找特征值、判断是否可对角化"。但你不能做:
加上内积,瞬间解锁几何——距离、角度、正交、投影、最小二乘、傅里叶分析,全都是内积的直接产物。
为什么 Ch 7 要先讲 Ch 6:谱定理的结论是"自伴算子有一组正交规范特征基"——正交性只在有内积的空间里才有意义。Ch 6 把内积这个工具造出来,Ch 7 才能做手术。
从内积诱导出范数(长度),它自动满足三条:
(N1)(N2) 都是一步展开 $\|v\|^2 = \langle v, v\rangle$ 用公理得到;(N3) 三角不等式需要 Cauchy-Schwarz(见 Q4)——因为
其中 $\operatorname{Re}\langle u, v\rangle \leq |\langle u, v\rangle| \leq \|u\|\|v\|$(最后一步就是 Cauchy-Schwarz)。
勾股定理(6.13):若 $u \perp v$,则 $\langle u, v\rangle = 0$,上面公式简化为
这是整个 Ch 6 几何直觉的基石。正交投影、Gram-Schmidt、最小距离——一切都反复用它。
平行四边形恒等式(Axler 6.22):$\|u + v\|^2 + \|u - v\|^2 = 2(\|u\|^2 + \|v\|^2)$——内积空间独有的,用来判断"某个范数是否由内积诱导"。
一行证明(Axler 最漂亮的技巧之一):若 $v = 0$ 两边都 $0$。若 $v \neq 0$,令 $c = \langle u, v\rangle / \|v\|^2$(这是 $u$ 在 $v$ 上的"投影系数")。则 $u - cv \perp v$(直接验证 $\langle u - cv, v\rangle = \langle u, v\rangle - c\|v\|^2 = 0$),由勾股定理:
两边乘 $\|v\|^2$ 取平方根即 Cauchy-Schwarz。等号当且仅当 $u - cv = 0$,即 $u = cv$(共线)。∎
几何意义:把 $u$ 分解成"沿 $v$ 的分量"加"垂直于 $v$ 的残差","投影"长度 $\leq$ $u$ 原本长度。这让我们可以定义夹角:
右边的确在 $[-1, 1]$(由 Cauchy-Schwarz 保证),所以 $\theta \in [0, \pi]$ 有意义。
无穷维实例:把 Cauchy-Schwarz 用在 $\langle f, g\rangle = \int f g$ 上:
这就是分析里标准的 Cauchy-Schwarz 积分不等式——与有限维同一条定理,不同壳子。
拖滑杆改两个向量 $u = (u_1, u_2)$、$v = (v_1, v_2)$。画布上实时显示:
尝试:按"正交"预设,内积 $= 0$、夹角 $= 90°$、投影 $= 0$;按"共线"预设,投影 $= u$,残差 $= 0$;中间一般情况观察 Cauchy-Schwarz 不等式 $|\langle u, v\rangle| \leq \|u\|\|v\|$ 什么时候取等。
假设手里有 ONB,任意 $v \in V$ 的坐标直接用内积读出:
证明:设 $v = \sum c_j e_j$(用基展开)。取 $\langle v, e_i\rangle = \sum c_j \langle e_j, e_i\rangle = \sum c_j \delta_{ji} = c_i$——所以 $c_i = \langle v, e_i\rangle$。Parseval 由 $\|v\|^2 = \langle v, v\rangle = \sum c_i \overline{c_i} = \sum |c_i|^2$ 得到。∎
对比一般基的坐标:如果基 $(v_1, \ldots, v_n)$ 不正交,求坐标 $v = \sum c_i v_i$ 要解线性方程组 $G c = b$,$G_{ij} = \langle v_i, v_j\rangle$ 是 Gram 矩阵——需要求逆。ONB 把 $G$ 变成 $I$,求逆消失。这就是为什么数值计算永远优先 ONB。
三件大事 ONB 同时给你:
既然 ONB 这么好,手头的任意基 $(v_1, \ldots, v_n)$ 能不能系统地改造成 ONB?答案是肯定的——Gram-Schmidt 算法。
几何解读:第 $k$ 步分两步——
几何上像"造新基时始终把新向量的投影部分扣除,只留下新的、正交的方向"。
推论 6.37:每个有限维内积空间都有 ONB——因为总能拿一组普通基做 Gram-Schmidt。
推论 6.38(扩张 ONB):子空间的 ONB 可扩成全空间的 ONB——即给定 $U$ 的 ONB $(e_1, \ldots, e_k)$,存在全空间的 ONB $(e_1, \ldots, e_k, e_{k+1}, \ldots, e_n)$,前 $k$ 个正好是 $U$ 的基。这是正交补 $U^\perp$ 构造的关键。
QR 分解:Gram-Schmidt 用矩阵表达就是 $A = Q R$——$A$ 的列经过 GS 得 $Q$(正交矩阵),$R$ 是上三角(记录"每步减了多少"的系数)。数值线代的基石。
下面 Three.js 场景里你可以调 3 个起始向量 $v_1, v_2, v_3$(可能不正交、也未归一化)。按钮"运行 GS"后,场景同时显示:
拖动鼠标旋转视角。Space 暂停,R 复位相机。按"共面"预设,$v_3$ 接近 $v_1, v_2$ 张成的平面,GS 会给出一个非常短的 $e_3$(说明几乎线性相关)。按"正交原始"预设,$v_i$ 本身就正交,GS 只做归一化。
基本性质:
最重要的一条结构定理:
证明思路:取 $U$ 的 ONB $(e_1, \ldots, e_k)$,扩成 $V$ 的 ONB $(e_1, \ldots, e_k, e_{k+1}, \ldots, e_n)$(Gram-Schmidt 推论 6.38)。设 $v = \sum_i \langle v, e_i\rangle e_i$。拆成
$w \perp e_j$ 对 $j \leq k$,所以 $w \perp U$;唯一性由 $U \cap U^\perp = \{0\}$ 保证。∎
维度公式:$\dim U + \dim U^\perp = \dim V$。这是"5 章 Rank-Nullity"的内积版本。
对比一般直和:5B 的直和 $V = U \oplus W$ 可能有很多选法(选不同的 $W$)。正交直和 $V = U \oplus U^\perp$ 在内积下唯一——$U^\perp$ 是"所有垂直于 $U$ 的向量",没得选。这种唯一性是正交投影存在且良好定义的基础。
有了正交直和 $V = U \oplus U^\perp$,就可以把"取 $U$-分量"这个操作定义成算子:
用 ONB 的显式公式:若 $(e_1, \ldots, e_k)$ 是 $U$ 的 ONB,则
关键性质:
反向刻画:算子 $P$ 是到某子空间的正交投影 $\iff$ $P^2 = P$ 且 $P^* = P$。两条性质同时成立才叫正交投影——仅 $P^2 = P$ 是一般(非正交)投影,沿着非正交方向投。
这条定理把 Ch 6 抽象几何和应用数学"最优化"连在一起——投影不仅是代数定义,还是距离最小化的解。
一行证明(纯勾股):对任意 $u \in U$,
第二个等号用勾股:$v - P_U v \in U^\perp$(残差性质),$P_U v - u \in U$(两个 $U$ 里的点之差),两者正交。所以 $\|v - u\|^2 \geq \|v - P_U v\|^2$,等号当且仅当 $P_U v = u$。∎
应用 · 最小二乘回归:数据点 $(x_i, y_i)$,找最佳直线 $y = \beta_0 + \beta_1 x$。写成矩阵 $y = X\beta$,$X \in \mathbf{R}^{n \times 2}$ 的列是 $(1, 1, \ldots, 1)$ 和 $(x_1, \ldots, x_n)$。一般 $y \notin \operatorname{range} X$(数据有噪声),所以方程无解。但我们可以问:哪个 $\beta$ 使 $X\beta$ 离 $y$ 最近?由 6.61,最优 $X\beta^* = P_{\operatorname{range} X}(y)$,解为:
这就是最小二乘的正规方程——整个统计/机器学习/信号处理里最常引用的一条公式,本质就是"$P_U$ 给最近逼近"。
$\|v - P_U v\|$ 的显式:若 $(e_1, \ldots, e_k)$ 是 $U$ 的 ONB,
(来自 Parseval + 勾股)。这是逼近误差的直接公式。
公式 $v = \sum \langle v, e_i\rangle e_i$ 里的 $\langle v, e_i\rangle$ 被称为 $v$ 的傅里叶系数——无论 $V$ 是 $\mathbf{R}^n$ 还是连续函数空间,这个名字统一。
在 $L^2[-\pi, \pi]$ 里:取 $e_n(x) = \frac{1}{\sqrt{2\pi}} e^{inx}$($n \in \mathbf{Z}$),这是 ONB。任何平方可积函数 $f$:
这就是经典傅里叶级数——和 Ch 6 的 $v = \sum \langle v, e_i\rangle e_i$ 是同一条公式,只不过在无穷维函数空间里。
Parseval 等式的频域意义:
"时域能量 $=$ 频域能量"。信号处理里的能量守恒律。
Bessel 不等式(6.26):若 $(e_1, \ldots, e_k)$ 只是正交规范序列(不必是完整基),则
等号 $\iff v \in \operatorname{span}(e_1, \ldots, e_k)$。解读:用有限个基做投影,能量永远不会超过原来的。逼近质量等于保留能量比。这是图像压缩(JPEG = 离散余弦基的 Bessel 近似)、语音编码(MFCC)、主成分(PCA = 协方差矩阵特征基的 Bessel 近似)的共同数学原理。
一句话连接:"Gram-Schmidt → ONB → 傅里叶系数 → Parseval/Bessel → 最优逼近"——这整条链条是一切现代信号分析(小波、短时傅里叶、子带编码、卷积神经网络的"频谱解释")的共同起点。
有 $n$ 个数据点 $(x_i, y_i)$,想拟合直线 $y = \beta_0 + \beta_1 x$。定义设计矩阵 $X \in \mathbf{R}^{n \times 2}$(第 $i$ 行 $(1, x_i)$),目标向量 $y \in \mathbf{R}^n$。问题:找 $\beta = (\beta_0, \beta_1)$ 最小化 $\|y - X\beta\|^2$。
几何解读:$U = \operatorname{range} X \subseteq \mathbf{R}^n$ 是 2 维子空间(所有可能的"直线值向量")。一般 $y \notin U$。最佳 $X\beta = P_U y$。由 $y - X\beta \perp U$(残差正交于列空间)得到正规方程:
推广到多元回归、广义线性模型、岭回归,基础全是"投影到列空间"这个几何图像。整个统计回归的数学都在 Ch 6。
对信号 $f(t)$(可以是声音、图像、股价),选一组正交基 $\{e_n\}$(傅里叶基、小波基、Gabor 基)。$f = \sum_n \hat f_n e_n$——任何信号都可以拆成基的线性组合,系数 $\hat f_n = \langle f, e_n\rangle$ 就是傅里叶系数。
Bessel 不等式告诉你只取最大的 $k$ 个 $|\hat f_n|^2$ 项得到最佳 $k$ 项近似——这就是 JPEG(DCT + 丢弃小系数)、MP3(滤波器组 + 感知编码)、HEVC 视频压缩的数学核。压缩 $=$ 在正交基下把小傅里叶系数置零。
图像例:$8 \times 8$ 像素块 $\to$ 二维 DCT $\to$ 64 个系数 $\to$ 保留最大 10 个 $\to$ 解码(用 $P_U$ 逆变换)$\to$ 图像肉眼几乎无损,体积 $1/6$。
矩阵 $A \in \mathbf{R}^{m \times n}$ 列向量做 Gram-Schmidt,得到正交矩阵 $Q$ 和上三角 $R$:
解最小二乘的高效方法:$\min \|A\beta - y\|^2$ 的正规方程 $A^\top A \beta = A^\top y$ 条件数是 $\kappa(A)^2$——数值不稳定。QR 把问题转成 $R\beta = Q^\top y$,条件数降到 $\kappa(A)$——稳定得多。LAPACK 的 dgels、MATLAB 的 \、NumPy 的 lstsq 都基于 QR 或其改进(Householder / Givens)。
内积空间是 Ch 7 谱定理的直接地基:
用一条箭头看:
如果把 Ch 5(特征值 / 对角化)比作"代数骨架",Ch 6 就是"几何血肉"——Ch 7 是两者合体后的最漂亮成果。
强烈推荐额外读:Axler 6B 末尾的 Legendre 多项式例子(对 $(1, x, x^2, \ldots)$ 在 $[-1, 1]$ 做 GS)——亲手算一次会让你对"内积空间 = 带几何的向量空间"有肌肉记忆。
每题至少想 3 分钟再看答案。难度:★ 概念/简单计算 · ★★ 证明 · ★★★ 综合。
$\mathbf{R}^3$ 标准点积下,$u = (1, 2, 2)$、$v = (2, -1, 2)$。计算 $\langle u, v\rangle$、$\|u\|$、$\|v\|$、夹角 $\theta$。$u \perp v$ 吗?
$\langle u, v\rangle = \sum u_i v_i$;$\|u\| = \sqrt{\langle u, u\rangle}$;$\cos\theta = \langle u, v\rangle / (\|u\|\|v\|)$。正交 $\iff \langle u, v\rangle = 0$。
$\langle u, v\rangle = 1 \cdot 2 + 2 \cdot (-1) + 2 \cdot 2 = 2 - 2 + 4 = 4$
$\|u\| = \sqrt{1 + 4 + 4} = 3$,$\|v\| = \sqrt{4 + 1 + 4} = 3$
$\cos\theta = 4 / 9$,$\theta = \arccos(4/9) \approx 63.6°$
$u \perp v$? 不正交($\langle u, v\rangle = 4 \neq 0$)。
在 $\mathbf{R}^2$ 里取 $u = (3, 4)$、$v = (1, 2)$。手算验证 Cauchy-Schwarz $|\langle u, v\rangle| \leq \|u\|\|v\|$,并说明等号为什么没取到。
算出两边数值,比较大小。等号条件 $\iff u, v$ 共线。
$\langle u, v\rangle = 3 + 8 = 11$;$\|u\| = 5$、$\|v\| = \sqrt 5$;$\|u\|\|v\| = 5\sqrt 5 \approx 11.18$
$11 \leq 11.18$ ✓(Cauchy-Schwarz 成立)
等号未取到:$u = (3, 4)$、$v = (1, 2)$ 不共线($4/3 \neq 2/1$)。
在 $\mathbf{R}^3$ 里对 $v_1 = (1, 1, 0)$、$v_2 = (1, 0, 1)$、$v_3 = (0, 1, 1)$ 做 Gram-Schmidt,得 ONB $(e_1, e_2, e_3)$。
$e_1 = v_1 / \|v_1\|$;$u_2 = v_2 - \langle v_2, e_1\rangle e_1$,$e_2 = u_2 / \|u_2\|$;$u_3 = v_3 - \langle v_3, e_1\rangle e_1 - \langle v_3, e_2\rangle e_2$,$e_3 = u_3 / \|u_3\|$。
$\|v_1\| = \sqrt 2$,$e_1 = \frac{1}{\sqrt 2}(1, 1, 0)$
$\langle v_2, e_1\rangle = \frac{1}{\sqrt 2}$,$u_2 = v_2 - \frac{1}{\sqrt 2} \cdot \frac{1}{\sqrt 2}(1, 1, 0) = (1, 0, 1) - (\frac{1}{2}, \frac{1}{2}, 0) = (\frac{1}{2}, -\frac{1}{2}, 1)$
$\|u_2\| = \sqrt{\frac{1}{4} + \frac{1}{4} + 1} = \sqrt{\frac{3}{2}}$,$e_2 = \sqrt{\frac{2}{3}}(\frac{1}{2}, -\frac{1}{2}, 1) = \frac{1}{\sqrt 6}(1, -1, 2)$
$\langle v_3, e_1\rangle = \frac{1}{\sqrt 2}$;$\langle v_3, e_2\rangle = \frac{1}{\sqrt 6}(0 - 1 + 2) = \frac{1}{\sqrt 6}$
$u_3 = (0, 1, 1) - \frac{1}{\sqrt 2} \cdot \frac{1}{\sqrt 2}(1, 1, 0) - \frac{1}{\sqrt 6} \cdot \frac{1}{\sqrt 6}(1, -1, 2) = (0,1,1) - (\frac{1}{2},\frac{1}{2},0) - (\frac{1}{6},-\frac{1}{6},\frac{1}{3})$
$= (-\frac{2}{3}, \frac{2}{3}, \frac{2}{3})$;$\|u_3\| = \frac{2}{\sqrt 3}$,$e_3 = \frac{1}{\sqrt 3}(-1, 1, 1)$
验证 $\langle e_1, e_2\rangle = 0$、$\langle e_1, e_3\rangle = 0$、$\langle e_2, e_3\rangle = 0$ 全成立 ✓
对任意内积空间 $V$、任意 $u, v \in V$,证 $\|u + v\|^2 + \|u - v\|^2 = 2(\|u\|^2 + \|v\|^2)$。
展开两个 $\|\cdot\|^2$ 成内积,合并交叉项。
$\|u + v\|^2 = \langle u+v, u+v\rangle = \|u\|^2 + \langle u, v\rangle + \langle v, u\rangle + \|v\|^2 = \|u\|^2 + \|v\|^2 + 2\operatorname{Re}\langle u, v\rangle$
$\|u - v\|^2 = \|u\|^2 + \|v\|^2 - 2\operatorname{Re}\langle u, v\rangle$
相加:交叉项抵消,得 $2\|u\|^2 + 2\|v\|^2$。∎
几何:四边形对角线平方和 $=$ 四边平方和——是欧氏几何里平行四边形的经典定理。这条恒等式反过来可以刻画"某个赋范空间是否由内积诱导":Jordan-von Neumann 定理说此恒等式成立 $\iff$ 范数由内积诱导。
设 $U = \operatorname{span}\{(1, 1, 0), (1, 0, 1)\} \subseteq \mathbf{R}^3$。求 $v = (1, 2, 3)$ 到 $U$ 的正交投影 $P_U v$、$\|v - P_U v\|$ 以及 $v - P_U v$ 是否在 $U^\perp$ 里。
先对 $U$ 的两个生成元做 Gram-Schmidt 得 ONB $(e_1, e_2)$,再用 $P_U v = \langle v, e_1\rangle e_1 + \langle v, e_2\rangle e_2$。
GS:$e_1 = \frac{1}{\sqrt 2}(1, 1, 0)$(同 E3);$e_2 = \frac{1}{\sqrt 6}(1, -1, 2)$(同 E3)
$\langle v, e_1\rangle = \frac{1 + 2}{\sqrt 2} = \frac{3}{\sqrt 2}$
$\langle v, e_2\rangle = \frac{1 - 2 + 6}{\sqrt 6} = \frac{5}{\sqrt 6}$
$P_U v = \frac{3}{\sqrt 2} \cdot \frac{1}{\sqrt 2}(1,1,0) + \frac{5}{\sqrt 6} \cdot \frac{1}{\sqrt 6}(1,-1,2) = (\frac{3}{2},\frac{3}{2},0) + (\frac{5}{6},-\frac{5}{6},\frac{5}{3}) = (\frac{14}{6},\frac{4}{6},\frac{10}{6}) = (\frac{7}{3},\frac{2}{3},\frac{5}{3})$
残差 $v - P_U v = (1 - \frac{7}{3}, 2 - \frac{2}{3}, 3 - \frac{5}{3}) = (-\frac{4}{3}, \frac{4}{3}, \frac{4}{3})$
$\|v - P_U v\| = \frac{4}{3}\sqrt 3 = \frac{4}{\sqrt 3}$
验证正交:$\langle v - P_U v, (1,1,0)\rangle = -\frac{4}{3} + \frac{4}{3} = 0$ ✓;$\langle v - P_U v, (1,0,1)\rangle = -\frac{4}{3} + \frac{4}{3} = 0$ ✓。在 $U^\perp$ 里。
设 $P \in \mathcal{L}(V)$ 满足 $P^2 = P$ 且 $P^* = P$。令 $U = \operatorname{range} P$。证 $P = P_U$。
要证两件:(1) 对 $u \in U$,$P u = u$;(2) 对 $w \in U^\perp$,$P w = 0$。第二条用 $P^* = P$。
(1):$u \in U = \operatorname{range} P$,存在 $x$ 使 $u = Px$。则 $Pu = P(Px) = P^2 x = Px = u$。✓
(2):$w \in U^\perp$ 即 $\langle w, u\rangle = 0$ 对所有 $u \in \operatorname{range} P$。要证 $Pw = 0$。考察 $\|Pw\|^2 = \langle Pw, Pw\rangle = \langle w, P^* P w\rangle = \langle w, P^2 w\rangle = \langle w, Pw\rangle$。而 $Pw \in \operatorname{range} P = U$,所以 $\langle w, Pw\rangle = 0$(由 $w \in U^\perp$)。故 $\|Pw\|^2 = 0 \Rightarrow Pw = 0$。✓
结论:对任意 $v = u + w$($u \in U$、$w \in U^\perp$),$Pv = Pu + Pw = u + 0 = u = P_U v$。所以 $P = P_U$。∎
设 $X \in \mathbf{R}^{n \times p}$($n > p$,列线性无关),$y \in \mathbf{R}^n$。目标:找 $\beta \in \mathbf{R}^p$ 最小化 $\|X\beta - y\|^2$。用 Ch 6 的正交投影语言推出正规方程 $\beta^* = (X^\top X)^{-1} X^\top y$。
令 $U = \operatorname{range} X$。最优 $X\beta^* = P_U y$。用 "残差 $y - X\beta^* \in U^\perp$" 导出 $X^\top(y - X\beta^*) = 0$。
$U = \operatorname{range} X = \{X\beta : \beta \in \mathbf{R}^p\}$ 是 $\mathbf{R}^n$ 的 $p$ 维子空间(列无关)。
由 6.61 最小距离定理:$\min_{\beta} \|X\beta - y\|^2 = \|y - P_U y\|^2$,且 $X\beta^* = P_U y$ 是唯一最优解。
$U^\perp$ 刻画:$w \in U^\perp \iff \langle w, X\beta\rangle = 0 \; \forall \beta \iff \beta^\top X^\top w = 0 \; \forall \beta \iff X^\top w = 0$。所以 $U^\perp = \operatorname{null}(X^\top)$。
残差 $r = y - X\beta^* \in U^\perp$,即 $X^\top r = 0$:
$X^\top (y - X\beta^*) = 0 \;\Longrightarrow\; X^\top X \beta^* = X^\top y$
$X$ 列无关 $\Rightarrow X^\top X$ 可逆,所以 $\beta^* = (X^\top X)^{-1} X^\top y$。∎
残差自动与 $X$ 所有列正交——这就是线性回归"残差与预测变量无关"的几何本质。
$V = $ 次数 $\leq 2$ 的实系数多项式,内积 $\langle f, g\rangle = \int_{-1}^{1} f(x) g(x) \, dx$。对基 $(1, x, x^2)$ 做 Gram-Schmidt,得 ONB $(p_0, p_1, p_2)$(这是 Legendre 多项式的正交规范版本)。
需要积分:$\int_{-1}^{1} 1 \, dx = 2$,$\int_{-1}^{1} x^2 \, dx = 2/3$,$\int_{-1}^{1} x^4 \, dx = 2/5$;$\int_{-1}^{1} x \, dx = \int_{-1}^{1} x^3 \, dx = 0$。
$p_0$:$\|1\|^2 = \int_{-1}^{1} 1 \, dx = 2$,$p_0 = 1/\sqrt 2$
$p_1$:$\langle x, p_0\rangle = \frac{1}{\sqrt 2}\int_{-1}^{1} x \, dx = 0$($x$ 是奇函数)。所以 $u_1 = x$,$\|x\|^2 = 2/3$,$p_1 = \sqrt{3/2} \cdot x = \sqrt{\frac{3}{2}} x$
$p_2$:$\langle x^2, p_0\rangle = \frac{1}{\sqrt 2}\int x^2 dx = \frac{1}{\sqrt 2} \cdot \frac{2}{3} = \frac{\sqrt 2}{3}$;$\langle x^2, p_1\rangle = \sqrt{3/2}\int_{-1}^{1} x^3 dx = 0$
$u_2 = x^2 - \frac{\sqrt 2}{3} \cdot \frac{1}{\sqrt 2} = x^2 - \frac{1}{3}$
$\|u_2\|^2 = \int_{-1}^{1} (x^2 - \frac{1}{3})^2 dx = \int (x^4 - \frac{2}{3}x^2 + \frac{1}{9}) dx = \frac{2}{5} - \frac{2}{3}\cdot\frac{2}{3} + \frac{2}{9} = \frac{2}{5} - \frac{4}{9} + \frac{2}{9} = \frac{2}{5} - \frac{2}{9} = \frac{8}{45}$
$p_2 = \sqrt{\frac{45}{8}}(x^2 - \frac{1}{3}) = \frac{3\sqrt 5}{2\sqrt 2}(x^2 - \frac{1}{3}) = \frac{3}{2}\sqrt{\frac{5}{2}}(x^2 - \frac{1}{3})$
这些正是 Legendre 多项式 $P_0, P_1, P_2$ 的标准化版本——在偏微分方程(Legendre 方程)、球谐函数、电磁学多极展开里无处不在,本质就是"把 $[-1, 1]$ 上连续函数空间里的单项式做 GS"。