Axler 故意把行列式放到整本书的最后。前面 8 章用算子-特征值视角把线性代数讲通后,行列式终于可以不靠"公式"而靠"几何"登场——它就是 $n$ 个向量张成的平行多面体的有符号 $n$ 维体积。Jacobian 换元公式、定向、有向面积、体积变换率——所有"变了多少"的问题都由它回答。
| 符号 | 念作 | 含义 | 类型 |
|---|---|---|---|
| $A$ / $T$ | A / T | $n \times n$ 方阵 / 线性算子 | 方阵 |
| $\det A$ | determinant of A | $A$ 的 行列式:列向量张成的平行 $n$-体的有符号 $n$ 维体积 | $\mathbf{F}$ 中的数 |
| $|\det A|$ | det 的绝对值 | 体积缩放倍数:$A$ 把单位立方体体积放大 $|\det A|$ 倍 | $\geq 0$ 实数 |
| $\operatorname{sign}(\det A)$ | det 的符号 | $+1$:$A$ 保持定向;$-1$:反转定向;$0$:塌成低维 | $\{+1, 0, -1\}$ |
| $a \times b$ | 叉乘(2D 退化) | $a_1 b_2 - a_2 b_1$(2D)——有符号面积的标量版本 | $\mathbf{R}$ 中的数 |
| $A^\top$ | A 转置 | $\det A^\top = \det A$(行列式对行/列对称) | 矩阵 |
| $\det(AB)$ | 乘积的行列式 | $= \det A \cdot \det B$(乘性定理,Q9) | $\mathbf{F}$ 中的数 |
| $\epsilon_{i_1 \cdots i_n}$ | epsilon(置换符号) | 偶置换为 $+1$,奇置换为 $-1$,其他 $0$——出现在行列式的展开公式 | $\{+1, 0, -1\}$ |
| $\det(A - \lambda I)$ | 特征多项式 | 根是特征值;系数携带 trace、det 等信息 | $\lambda$ 的多项式 |
| $\mathrm{Vol}(U)$ | U 的体积 | 平行多面体的 $n$ 维体积(= 基边向量行列式的绝对值) | $\geq 0$ 实数 |
| $J_f$ | Jacobian 矩阵 | 光滑映射 $f: \mathbf{R}^n \to \mathbf{R}^n$ 的偏导数矩阵 $(\partial f_i / \partial x_j)$ | 矩阵 |
| $|\det J_f|$ | Jacobian 行列式 | 换元积分公式里体积元的局部缩放因子 $dy = |\det J_f| \, dx$ | $\geq 0$ 函数 |
抛开任何求和公式,最核心的定义只有一句:
视觉例子(2×2):
正好等于公式 $ad - bc$。但这个公式只是一个计算工具——几何含义(有符号面积)才是行列式的灵魂。
下一问先聊 Axler 为什么把行列式放在全书最后,这是理解这个概念"该怎么想"的关键。
大多数线性代数教材第 1 章就教行列式的求和公式 $\det A = \sum_\sigma \operatorname{sign}(\sigma) \prod a_{i, \sigma(i)}$,然后依赖它定义特征值、证明可逆性……
Axler 反过来做:前 8 章完全避开行列式,用算子-特征值视角建立所有核心结构(存在性 5.19、谱定理 7B、可对角化 5D、Jordan 8)。到第 9 章才引入行列式——这时候学生已经通过算子理解了线性代数,行列式可以当成一个"衍生结果"而不是"基础公理"。
Axler 自己的原话(序言):
这样做的好处:
所以读到 Ch 9 时,行列式不再是"一个没人解释为什么要用的求和公式",而是"有符号体积的代数化",自然而然。
设 $A = \begin{pmatrix}a & b \\ c & d\end{pmatrix}$,两列是 $v_1 = (a, c)^\top$ 和 $v_2 = (b, d)^\top$。
初等几何推导:$v_1, v_2$ 张成的平行四边形面积 $= \|v_1\| \cdot \|v_2\| \cdot |\sin\theta|$,其中 $\theta$ 是两向量夹角。
用叉乘的标量形式:$v_1 \times v_2 = a d - c b$,它的绝对值正好等于 $\|v_1\| \cdot \|v_2\| \cdot |\sin\theta|$。
有符号:
另一个视角(算子的作用):$A$ 把单位正方形 $[0,1]^2$ 映成以 $v_1, v_2$ 为邻边的平行四边形。新图形的面积 $= |\det A| \times$ 原面积 $(= 1)$。所以
下一节亲手拖滑杆看这个。
滑杆改 $A$。画布里:
试试:"对角 $(2, 3)$" 预设 det = 6——平行四边形是 $2 \times 3$ 的矩形。"剪切" det = 1——形状变了但面积不变(剪切保面积!)。"反射"和"任意 det < 0"你会看到颜色变红——定向被翻转了。拖到"退化"你会看到图形塌成一条线段——面积归零。
$\det$ 的符号记录的是"$A$ 有没有翻转空间的定向"。这是个比面积/体积更深刻的几何性质。
2D 的定向:
3D 的定向(更典型的"定向即物理"案例):
现实意义:DNA 双螺旋有固定的"手性"(chirality),左手对映异构体和右手对映异构体是不同分子;胺基酸都是 L-型(左手)。一个纯旋转$\det = +1$ 不能把一个手性分子翻成另一个;必须有反射($\det = -1$)才能。
$\det = 0$ 的几何:向量共线/共面,平行多面体塌成更低维——没有定向,因为"没空间可以定向"。这等价于 $A$ 不可逆(Q10)。
设 $A \in \mathbf{R}^{3 \times 3}$,三列是 $v_1, v_2, v_3$。$\det A$ 等于这三个向量张成的平行六面体(parallelepiped)的有符号体积。
公式(用混合积):
展开来是:
这 6 项对应 3 个 +1 置换 $(123), (231), (312)$ 和 3 个 -1 置换 $(132), (213), (321)$——Q8 会讲。
有符号体积:
单位立方体被 $A$ 放大的倍数:
3×3 矩阵 $A$ 把单位立方体 $[0,1]^3$ 映成平行六面体。三根边是 $A$ 的三列。读数显示实时 $\det A$(体积 $\times$ 定向符号)。
Space 暂停相机 · R 复位
试"剪切"——平行六面体歪斜但体积 $= 1$(底面积和高都没变)。试"共面"——立方体塌成一个 2D 平面,体积 $= 0$,矩阵不可逆。试"x 反射"——体积 1 但内外翻面(无法通过纯旋转把左手戳变右手)。
Axler 9B 给出的抽象定义——不从公式、从性质出发:
最关键的定理:
这个函数就是行列式:
从这个定义推出所有性质:
和"有符号体积"是同一件事:体积本来就是 $n$-线性(沿任一边拉长 2 倍体积翻倍)+ 交替(两边重合则坍缩成零)+ 标准化(单位立方体体积 1)。这三条在 $n$-线性空间里唯一确定一个函数——不管从代数路径还是几何路径,结果必然一致。
最重要的代数性质。几何证明 一句话完事:
一堆直接后果:
这条是最常被引用、但在 Axler 里其实是定理而非定义的性质。
几何上的理由:$A$ 可逆 $\iff$ $A$ 把基映到基(不损失维度)$\iff$ 平行多面体不塌成低维 $\iff$ 体积 $\neq 0 \iff \det A \neq 0$。
反过来的故事:$\det A = 0$ 时的直觉:
六个说法在有限维下全部等价。
"特征多项式 $p(\lambda) = \det(\lambda I - T)$ 的根是特征值"也由此来:$\lambda$ 是特征值 $\iff T - \lambda I$ 不可逆 $\iff \det(T - \lambda I) = 0$ $\iff \det(\lambda I - T) = 0$(差一个符号)。这就把 5A 的"用 $T - \lambda I$ 不可逆找特征值" 和行列式法连起来了。
证明(代入 $\lambda = 0$):$p(0) = \det(0 \cdot I - A) = \det(-A) = (-1)^n \det A$。另一方面 $p(0) = \prod (0 - \lambda_i) = (-1)^n \prod \lambda_i$。两式相等给出 $\det A = \prod \lambda_i$。∎
迹是一阶系数:展开 $p(\lambda) = \lambda^n - (\operatorname{tr} A) \lambda^{n-1} + \cdots + (-1)^n \det A$,同时 $\prod(\lambda - \lambda_i) = \lambda^n - (\sum \lambda_i)\lambda^{n-1} + \cdots$。比较 $\lambda^{n-1}$ 系数即得。
推论:
行列式最深刻的"非线性推广":光滑映射 $f: \mathbf{R}^n \to \mathbf{R}^n$ 虽然不是线性的,但在每一点附近它"看起来像"线性的——局部线性化就是 Jacobian 矩阵:
$f$ 在 $x$ 附近把无穷小体元 $dx$ 映成 $dy = J_f(x) \cdot dx$(近似)。所以无穷小体积缩放因子 $= |\det J_f(x)|$。
经典例子:极坐标 $f(r, \theta) = (r\cos\theta, r\sin\theta)$。
所以 $dx\,dy = r\,dr\,d\theta$——大家都熟的"极坐标面元"。之所以要乘 $r$,因为离原点越远,同样的 $(dr, d\theta)$ 角度扇形面积越大,$J_f$ 的行列式精确量化这件事。
球坐标、圆柱坐标、椭圆坐标——所有换元公式里的"那个神秘因子"都是 Jacobian 行列式。
游戏引擎、CAD、CG 渲染里,每个三角面片都有"正面"和"反面"。GPU 只渲染"朝向摄像机的正面"以省算力(back-face culling)。
怎么判断一个三角形 $(v_1, v_2, v_3)$ 的朝向?—— 算 $\det[v_2 - v_1, v_3 - v_1, n]$ 的符号,$n$ 是摄像机方向。$+$ = 正面、$-$ = 反面。整个游戏每秒要判几百万次——纯行列式计算。
同样的技巧:网格布尔运算(两个实体求交/并/差)、碰撞检测("点在多面体内?")、凸包算法——全都靠行列式判定位关系。
物理、工程里不断遇到 "积分一个函数在曲面/曲体上":
投资者的链接:期权定价里 Black-Scholes 方程从 $(S, t)$ 变到 $(x, \tau)$ 做变量替换时,用的就是 Jacobian 行列式(把 PDE 化成热方程)。任何"多维随机模型换变量" 操作底下都是行列式。
Ch 9 剩余内容(对一般学生不算核心):
Ch 10 多线性代数是 Axler 的高阶延伸——张量、外代数、Hodge 对偶。对物理、微分几何、某些 ML 领域(等变神经网络、Geometric Deep Learning)是进阶基础。
如果你的目标是"看懂数据科学/ML 论文的线代":Ch 1-7 + Ch 9 已经够用。Ch 8(Jordan)是"完美主义"章节——实际用不多,但理解"非对角化"的完整面貌需要它。
下一层能力(不在 Axler 里):数值线性代数(Trefethen & Bau)、矩阵分析(Horn & Johnson)、随机矩阵理论(Tao)——分别对应工程实现、高级理论、大数据渐近行为。
每题先独立想 3 分钟。难度:★ 概念 · ★★ 证明 · ★★★ 综合。
对下列矩阵一眼说出 $\det$:
(a) $\begin{pmatrix}2 & 0 & 0 \\ 0 & 3 & 0 \\ 0 & 0 & 5\end{pmatrix}$ (b) $\begin{pmatrix}1 & 2 & 3 \\ 0 & 1 & 4 \\ 0 & 0 & 1\end{pmatrix}$ (c) $\begin{pmatrix}1 & 2 \\ 2 & 4\end{pmatrix}$ (d) 任意 3×3 旋转矩阵
对角 = 对角元积;三角 = 对角元积;秩亏 = 0;正交 $\det = \pm 1$。
(a) $\det = 2 \cdot 3 \cdot 5 = 30$
(b) 上三角,$\det = 1 \cdot 1 \cdot 1 = 1$
(c) 第二列 $= 2 \times$ 第一列,秩 1,$\det = 0$
(d) 3D 旋转保距离保定向,$\det = +1$
向量 $v_1 = (3, 1)$ 和 $v_2 = (1, 4)$ 张成的平行四边形面积是多少?是正定向还是反定向?
$\det\begin{pmatrix}3 & 1 \\ 1 & 4\end{pmatrix} = 12 - 1 = 11$。面积 $= 11$,正定向($v_1 \to v_2$ 逆时针)。
用 Axler 9B 的交替多线性定义证明(不用求和公式硬算)。
关键:按列计算 $\det A$ = 按行计算 $\det A^\top$。证这两件事算的是同一个函数,用 9.28 唯一性。
定义两个函数:$f(A) = \det A$(按列解释)、$g(A) = \det A^\top$(按行解释等价于 $A^\top$ 的按列)。两者都是 $A$ 的列的交替 $n$-线性函数(需要验证;$g$ 作为 $A^\top$ 列的交替多线性对应到 $A$ 行的交替多线性,用 Cauchy-Binet 类论证)。
在标准基上:$f(I) = g(I) = 1$($I^\top = I$)。由 9.28 的唯一性,$f = g$,即 $\det A = \det A^\top$。∎
本题可以走更初等的"求和公式对称"路径——用 $\det A = \sum_\sigma \operatorname{sign}(\sigma) \prod a_{i, \sigma(i)} = \sum_\sigma \operatorname{sign}(\sigma^{-1}) \prod a_{\sigma^{-1}(i), i} = \det A^\top$。
方法(不走求和公式硬算):固定 $B$,看 $f(A) = \det(AB) / \det B$ 作为 $A$ 的列的函数。
证 $f$ 也是交替多线性 + 在单位阵上取 1,由 9.28 $f(A) = \det A$。分 $\det B = 0$ 和 $\det B \neq 0$ 讨论。
情况 1: $\det B \neq 0$。定义 $f(A) = \det(AB)$,看 $A$ 的列。$(AB)_{:, j} = A(B_{:, j})$ 是 $A$ 各列的线性组合。因此 $f$ 是 $A$ 列的交替 $n$-线性(多线性继承自 $A$,交替因为两列相同时 $AB$ 的对应列也相同——对 $A$ 列交替)。
$f(I) = \det(B) \neq 0$。按 9.28,$f$ 和 $A \mapsto (\det B) \det A$ 都是 $A$ 的列的交替多线性且在 $I$ 上都取 $\det B$,所以 $f(A) = \det B \cdot \det A$。
情况 2: $\det B = 0$。$B$ 不可逆,$B$ 的列线性相关,$AB$ 的列也线性相关($AB$ 的列是 $A$ 乘 $B$ 的列),所以 $AB$ 不可逆,$\det(AB) = 0 = \det A \cdot 0$。∎
$A = \begin{pmatrix}1 & k \\ 0 & 1\end{pmatrix}$ 是剪切矩阵。$\det A = 1$ 对任何 $k$ 都成立——面积不变。从几何上解释为什么。
底 × 高 = 面积。剪切改变了什么、没改变什么?
剪切把单位正方形 $\{(x, y): 0 \leq x, y \leq 1\}$ 映成以 $(1, 0)$ 和 $(k, 1)$ 为邻边的平行四边形。
几何上:底边长度仍是 1(底边 $(0,0) \to (1,0)$ 不动),垂直于底边的高也仍是 1(因为第二列 $y$-分量是 1)。
"底 × 高 = 面积"是小学几何——所以面积不变。
直观:剪切相当于把一叠牌水平推偏,每张牌还是一张、总厚度不变、总面积不变。
从乘性定理(E4)推出。
$A A^{-1} = I$。两边取 $\det$:$\det(A A^{-1}) = \det A \cdot \det(A^{-1}) = \det I = 1$。
所以 $\det(A^{-1}) = 1 / \det A$(前提 $\det A \neq 0$,即 $A$ 可逆)。∎
证明 Vandermonde 行列式公式:
看这是 $x_1, \ldots, x_n$ 的多项式。两个 $x_i = x_j$ 时两列相同,det = 0,所以 $(x_j - x_i)$ 一定整除。然后数次数。
记 $D_n(x_1, \ldots, x_n)$ 为所证行列式。
消零:对每对 $i < j$,若 $x_i = x_j$,对应两列相同,$D_n = 0$。所以 $(x_j - x_i) | D_n$ 对所有 $i < j$。它们互素(作为 $x$ 的多项式),所以 $\prod_{i 次数对比:$D_n$ 作为 $(x_1, \ldots, x_n)$ 的多项式,总次数 $\leq 0 + 1 + 2 + \cdots + (n-1) = n(n-1)/2$(第 $k$ 行是 $x_i^{k-1}$)。 $\prod_{i 所以 $D_n = c \cdot \prod_{i 求 $c$:比较 $x_n^{n-1} x_{n-1}^{n-2} \cdots x_2^1$ 项。在 $D_n$ 的对角线展开里,这一项系数是 $+1$(恒等置换、选对角元)。在 $\prod$ 里,这一项系数也是 $+1$(每个 $(x_j - x_i)$ 里都取 $+x_j$)。所以 $c = 1$。∎ 为什么重要:Vandermonde 行列式在多项式插值(Lagrange/Newton)里出现——插值问题有唯一解当且仅当节点 $x_1, \ldots, x_n$ 两两不同,正是 Vandermonde 行列式非零的条件。
设 $A$ 是 $n \times n$ 实对称正定矩阵(对所有非零 $v$ 有 $v^\top A v > 0$)。证 $\det A > 0$。
用谱定理(Ch 7):$A$ 有实特征值,全正。
$A$ 对称 $\Rightarrow$ 由实谱定理(7.29),$A$ 可正交对角化:$A = Q \Lambda Q^\top$,$\Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)$ 全实。
所有 $\lambda_i > 0$:设 $A v = \lambda v$ 且 $v \neq 0$。$v^\top A v = \lambda v^\top v = \lambda \|v\|^2 > 0$(正定)。$\|v\|^2 > 0$,所以 $\lambda > 0$。
由 Q11:$\det A = \prod \lambda_i > 0$(正数的积)。∎
反向:$\det A > 0$ 不能推出正定(比如 $-I$ 的 $\det = +1$ 当 $n$ 偶时,但它是负定)。完整判定要"所有前 $k$ 阶主子式 $> 0$"(Sylvester 判据)。