矩阵特征值的实际应用

1、高斯消元（初等行变换）解方程

原方程如下:

${- x_{1} + x_{2} = 0 x_{1} - x_{2} = 0$

写成矩阵形式 $A x = 0$ ： $(- 1 1 1 - 1) x = 0$

写成增广矩阵（右边是 0）： $[- 1 1 1 - 1 00]$

第一步，交换两行（方便一点）： $R_{1} \leftrightarrow R_{2} \Rightarrow [1 - 1 - 1 1 00]$

第二步，用第一行消去第二行： $R_{2} \leftarrow R_{2} + R_{1}$

得到： $[10 - 1 0 00]$

现在已经是行阶梯形矩阵了，对应的方程是： $x_{1} - x_{2} = 0$

令自由变量： $x_{2} = t (t \in R)$ 则： $x_{1} = t$ ，所以解集为： $x = (t t) = t (11), t \in R$

2、特征值和特征向量

一句话版的直觉：特征向量是在线性变换作用下，方向不变（只被拉伸或压缩）的向量。

先从代数角度来看。

给定一个方阵 $A$ ，如果存在一个 非零向量 $v$ 和一个数 $λ$ ，满足 $A v = λ v$ 那么：

$λ$ 叫做 特征值
$v$ 叫做 对应的特征向量

这句话的代数含义是：矩阵 $A$ 作用在 $v$ 上，结果并没有“换方向”，只是变成了原来的 $λ$ 倍。

把式子挪一下： $(A - λ I) v = 0$

这说明一件关键的事： 特征向量就是齐次线性方程组的非零解。

所以代数上的流程是：

解方程 $det (A - λ I) = 0$ ，得到特征值 (TODO:这里介绍下行列式)
对每个特征值 $λ$ ，解 $(A - λ I) v = 0$
解空间（零空间）里所有非零向量，都是对应的特征向量(TODO:这里介绍下子空间，零空间)

从代数结构上看，特征向量形成的是一个线性子空间，称为特征子空间。

接着从几何角度来看，这里是理解的关键。

矩阵可以看成一个线性变换：

在二维里：平面 → 平面
在三维里：空间 → 空间

一般情况下，一个向量经过变换后：

长度变了
方向也变了（被“旋转 + 拉伸”）

但特征向量很特殊。

如果 $v$ 是特征向量，那么： $A v = λ v$

几何上意味着：

向量仍然落在原来的那条直线上
只发生了缩放：
- $λ > 1$ ：拉长
- $0 < λ < 1$ ：压缩
- $λ < 0$ ：反向再缩放
- $λ = 0$ ：被压到原点

所以你可以这样理解： 特征向量指出了这个线性变换“最稳定的方向”。

在二维平面里：

特征向量对应的是不被扭转的直线
整个平面被“压扁 / 拉伸 / 翻折”，但这些直线方向保持不变

把代数和几何连起来看，会非常清晰。

代数上： $(A - λ I) v = 0$ 有非零解
几何上：线性变换在某些方向上，只做伸缩，不做旋转

这也是为什么对角矩阵那么简单： $(λ_{1} 0 0 λ_{2})$

它的特征向量就是坐标轴方向，因为：

x 轴方向只被 $λ_{1}$ 缩放
y 轴方向只被 $λ_{2}$ 缩放完全没有“混合方向”

而一般矩阵能否对角化，本质上就在问一句话： 能不能找到一组方向，使得变换在这些方向上只是缩放？

总结:

代数定义：特征向量是满足 $A v = λ v$ 的非零向量
几何意义：特征向量是线性变换下方向不变、只发生伸缩的向量方向
本质作用：它们揭示了矩阵最“本征”的变换方向，是对角化和很多应用的基础

3、一个 n 维方阵，最多有几个特征值和特征向量，最少有几个？

这是一个线性代数里的经典问题，可以从“代数重数”和“几何重数”两个层面来理解。

先说特征值的个数。

对一个 $n \times n$ 的方阵，特征值来自它的特征多项式，而特征多项式是一个 n 次多项式。

在复数域 $C$ 上：

最多有 $n$ 个特征值（都不相同的情况）。
最少也有 1 个特征值（比如全部重合，只有一个不同的特征值）。

在实数域 $R$ 上：

最多仍然是 $n$ 个实特征值。
最少可以是 0 个实特征值（例如二维旋转矩阵，特征值是共轭复数对）。

接下来说特征向量的个数。这里要特别注意：

“特征向量的个数”如果按严格意义来讲，其实是无穷多个（因为一个特征向量乘以任意非零标量还是特征向量）。
所以通常我们讨论的是 线性无关的特征向量个数，也就是特征子空间的维数。

对于每一个特征值：

至少有 1 个线性无关的特征向量。
至多有 该特征值的代数重数 个线性无关特征向量。

对整个矩阵来说：

线性无关特征向量的最多个数是 (n)，此时矩阵可对角化。
线性无关特征向量的最少个数是 1（所有特征值都一样，而且只有一个方向的特征向量，比如一个 Jordan 块）。

可以简单总结成一句话，方便记忆：

特征值（复数域）：最多 $n$ ，最少 1
线性无关特征向量：最多 $n$ ，最少 1

总结一下行变换视角：

有一行化成了全 0 → 方程不独立
主元只有 1 个 → 秩为 1
一个自由变量 → 解空间是一条直线

4、特征分解（对角化）

先看一个 2×2 的矩阵：

$A = (2112)$

这是一个很典型、而且一定可以对角化的矩阵。

第一步：求特征值解特征方程 $det (A - λ I) = 0$

$I$ 是单位矩阵，指其主对角线上的元素都为 1，其余所有元素都为 0 的正方矩阵。2 维单位矩阵就是 $(1001)$
$λ I$ 就是用标量乘单位矩阵，最终得 $(λ 0 0 λ)$
$A - λ I$ 是两个相同形状矩阵的各对应元素相减

$(2112) - (λ 0 0 λ)$ $= (2 - λ 1 - 0 1 - 0 2 - λ)$ $= (2 - λ 1 1 2 - λ)$
$∣ ∣$ 这两个竖线是行列式操作，2 维方阵 $(a c b d)$ 的行列式计算就是主对角线乘积减去副对角线乘积 $a d - b c$

列方程得：

$2 - λ 1 1 2 - λ = (2 - λ)^{2} - 1 = 0$

整理： $(2 - λ)^{2} - 1 = 0 2^{2} - 2 * 2 * λ + λ^{2} - 1 = 0 λ^{2} - 4 λ - 3 = 0$

解这个二次方程：

十字相乘法：因为二次项系数是 1
- 直接找两个数乘积等于常数项 3，和等于一次项系数 -4
- −1 和 −3 满足条件
- 得 $(λ - 3) (λ - 1) = 0$
- 得 $λ_{1} = 3, λ_{2} = 1$
配方： $λ^{2} - 4 λ + 3 = 0 (λ^{2} - 4 λ + 4) - 4 + 3 = 0 (λ - 2)^{2} - 1 = 0 (λ - 2 - 1) (λ - 2 + 1) = 0 (λ - 3) (λ - 1) = 0$
- 得 $λ_{1} = 3, λ_{2} = 1$

这一步告诉我们：矩阵 (A) 在两个“特殊方向”上，只做拉伸（不发生旋转或剪切）。

第二步：求特征向量

由特征值的定义 $A v = λ v$ ，得 $A v - λ v = 0$ ，简化得 $(A - λ I) v = 0$

对 $λ_{1} = 3$ ，解 $(A - 3 I) x = 0$

$[(2112) - 3 (1001)] x = 0$

$[(2112) - (3003)] x = 0$

$(2 - 3 1 - 0 1 - 0 2 - 3) x = 0$

$(- 1 1 1 - 1) x = 0$

解特征向量 x：

设 $x = (x_{1} x_{2})$

那么

$(- 1 1 1 - 1) (x_{1} x_{2}) = (- x_{1} + x_{2} x_{1} - x_{2}) = (00)$

得到方程组： ${- x_{1} + x_{2} = 0 x_{1} - x_{2} = 0$

用高斯消元得 $x = v_{1} = (11)$

对 $λ_{2} = 1$ ，解

$(A - I) x = 0$

$(1111) x = 0$

解特征向量： $v_{2} = (1 - 1)$

第三步：写出特征分解（对角化）

把特征向量按列放在一起，组成矩阵 $P = (11 1 - 1)$

把对应的特征值放在对角线上： $D = (3001)$

这时就可以写出： $A = P D P^{- 1}$

这一步就是特征分解 / 对角化。

直观理解一下

在标准坐标系里，矩阵 $A$ 做的是“混合的拉伸 + 旋转”。
但如果我们换到由特征向量 $(1, 1)$ 、 $(1, - 1)$ 组成的新坐标系里：

在第一个方向上，所有向量都被放大 3 倍
在第二个方向上，所有向量都被放大 1 倍

所以在这个坐标系下，矩阵的作用就变成了一个纯粹的对角矩阵 (D)。

为什么对角化很重要？比如计算 $A^{10}$ ：

$A^{10} = P D^{10} P^{- 1}$

而 $D^{10} = (3^{10} 0 0 1^{10})$

这比直接算 $A^{10}$ 要简单得多。这也是特征分解在微分方程、PCA、图算法、物理系统里特别常见的原因。

5. 找到了一个矩阵的所有特征值与其对应的特征向量后，空间中的其它向量的变换都可以通过它们的线性组合表示吗？

这是一个非常关键、也非常容易混淆的问题。结论先给出来，然后再解释“什么时候可以、什么时候不可以”。

结论一句话版： 只有在“特征向量能够张成整个空间”的情况下，空间中任意向量的变换，才能完全通过特征向量的线性组合来表示。也就是说，矩阵必须是可对角化的。

下面分层次把这个问题讲清楚。

先从理想情况说起：可以做到的情况。

假设 $A$ 是一个 $n \times n$ 矩阵，你找到了 $n$ 个线性无关的特征向量 $v_{1}, v_{2}, \dots, v_{n}$ 它们构成一组基。

那么对任意向量 $x$ ，都可以唯一表示为 $x = c_{1} v_{1} + \dots + c_{n} v_{n}$

利用线性性， $A x = c_{1} A v_{1} + \dots + c_{n} A v_{n} = c_{1} λ_{1} v_{1} + \dots + c_{n} λ_{n} v_{n}$

几何上可以理解为： 在特征向量坐标系中，矩阵作用只是分别缩放各个坐标轴。

这正是对角化： $A = P D P^{- 1}$ 其中 $P$ 的列是特征向量， $D$ 是特征值对角阵。

在这种情况下，你的问题的答案是： 是的，空间中其它任意向量的变换，都可以通过特征向量的线性组合完全描述。

接下来是关键的反例情况：做不到的时候。

问题出在一句话上：

“找到了一个矩阵的所有特征值与其对应的特征向量”

这并不自动保证特征向量够用。

可能出现两种问题。

第一种：特征值个数够，但特征向量不够多。

例如矩阵 $A = (1011)$

它只有一个特征值 $λ = 1$ ，对应的特征向量只有一条方向： $v = (10)$

整个二维空间显然不能只靠这一条方向张成。

此时：

你仍然可以分解出一部分向量
但不是所有向量都能写成特征向量的线性组合
更谈不上用它们来描述全部变换

这种矩阵称为不可对角化矩阵。

第二种：代数重数大于几何重数。

从线性代数角度说：

特征值的重数（代数重数）可能大
但对应的特征向量维数（几何重数）不够

当所有特征值的几何重数之和 < n 时，特征向量不能构成一组基。

这正是“找到了所有特征值和特征向量，但还不够用”的精确定义。

那做不到时怎么办？

这时需要引入广义特征向量，把矩阵化成 Jordan 标准形： $A = P J P^{- 1}$

几何意义是：

除了“纯缩放方向”
还存在“被拉伸 + 平移到另一方向”的耦合结构

此时，空间中任意向量的变换：

不能只靠特征向量描述
但可以靠特征向量 + 广义特征向量来完整表示

最后给你一个非常清晰的判断标准。

对于一个 $n \times n$ 矩阵 $A$ ：

如果存在 $n$ 个线性无关的特征向量 → 可以，所有向量的变换都能用它们的线性组合表示
如果特征向量不够 $n$ 个 → 不可以，只能描述部分方向
若想完全描述 → 必须引入广义特征向量（Jordan 分解）

一句话收尾： 特征向量能否“解释整个空间”，本质不在于你找没找到特征值，而在于它们能不能构成一组基。

6、如何快速判断一个矩阵有几个特征值和特征向量？如何判断它能否对角化？

这是线性代数里非常实用的一组“快速判断规则”。我按你真正做题、做推导时的思路来讲，而不是按教科书顺序。

先说特征值有几个，怎么快速判断。

对一个 $n \times n$ 矩阵：

1️⃣ 特征值的总数（含重数）一定是 $n$ 这是由特征多项式 $det (A - λ I)$ 是一个 $n$ 次多项式决定的。

所以：

至多 $n$ 个特征值
若按“不同的特征值”数，则是 $\leq n$

接着说特征向量有几个，核心看什么。 特征向量不是数，是空间的维数问题。

对每一个特征值 $λ$ ：

解 $(A - λ I) v = 0$
得到一个零空间
这个零空间的维数，叫 几何重数

快速判断规则是： $1 \leq 几何重数 \leq 代数重数$

也就是说：

每个特征值至少有一个方向
但可能不够多

然后是你真正关心的：如何快速判断能不能对角化。

一句话判据先给出来：

一个 $n \times n$ 矩阵 可以对角化 ⇔ 它有 $n$ 个线性无关的特征向量 ⇔ 所有特征值的几何重数之和等于 $n$

下面是“实战级”的判断顺序。

第一步：看特征值是否全都不同（最快）

如果矩阵有 (n) 个互不相同的特征值：

👉 一定可以对角化

这是最快、最省事、几乎不需要算特征向量的判断。

例如：

实对称矩阵（特征值全实）
一般有不同特征值的矩阵

第二步：有重特征值时，检查对应的零空间维数

当某个特征值 $λ$ 的代数重数是 $k$ ：

解 $(A - λ I) v = 0$
看零空间维数是否也是 (k)

如果：

对每个特征值都满足几何重数 = 代数重数 👉 可对角化

只要有一个不满足，就不行。

第三步：一个非常实用的“坏信号”

在算行变换时，如果你发现：

某个 $(A - λ I)$ 的秩太大
零空间维数偏小
明显“缺方向”

那这个矩阵大概率不可对角化

典型代表：上三角 + 主对角线全相同。

再给你几个常见矩阵的秒判结论。

实对称矩阵：一定可以正交对角化
不同特征值的矩阵：一定可以对角化
Jordan 块（剪切矩阵）：不可对角化
单位矩阵 (I)：特征值全是 1，但特征向量空间是整个空间 → 可对角化

判断流程:

写出特征多项式，确定代数重数
若特征值全不同 → 结束（可对角化）
若有重根 → 解对应齐次方程
检查每个特征值的几何重数之和是否等于 $n$

一句话收尾： 特征值决定“缩放因子”，特征向量决定“方向够不够”，对角化本质上就是在问：方向够不够多。

好，这里我直接给你最常见、最有代表性的例子，每一类一个，而且顺手点出它们在“特征值 / 特征向量 / 是否可对角化”上的典型特征，方便你对照记忆。

** 1、上三角矩阵（最常见的“看对角线”例子）**

$A = 200110 34 - 1$

特点：

特征值就是对角线元素： $2, 1, - 1$
不一定对称
是否可对角化要看对应的特征向量是否够多（仅“上三角”本身不能保证可对角化）

2️⃣ 实对称矩阵（最友好的一类）

$B = (2113)$

特点：

主对角线随便（对称性不约束它）只检查主对角线两侧是否镜像相等
一定有实特征值
不同特征值对应的特征向量正交
一定可以正交对角化 $B = Q D Q^{T}$

这是线性代数里“性质最好”的矩阵类型之一。

3️⃣ 剪切矩阵（典型的不可对角化）

$C = (1011)$

特点：

只有一个特征值 $λ = 1$ （代数重数 2）
只有一条特征向量方向
不可对角化
几何上：把正方形剪成平行四边形

这是理解 Jordan 形最经典的例子。

4️⃣ 单位矩阵（“什么都不做”）

$I = (1001)$

特点：

唯一特征值： $λ = 1$ ，代数重数 2
任意非零向量都是特征向量
特征向量空间是整个平面
不仅可对角化，而且已经是对角的

这是“特征值重复但完全没问题”的代表。

5️⃣ 旋转矩阵（看清“实数域 vs 复数域”）

$R = (cos θ sin θ - sin θ cos θ), θ \neq = kπ$

特点：

在 实数域：
- 没有实特征值
- 没有实特征向量
- 不可对角化
在 复数域：
- 特征值是 $e^{\pm i θ}$
- 可以对角化

几何意义非常直观： 纯旋转不存在“方向不变”的实向量。

给你一个速记对照总结：

上三角：特征值看对角线，对角化不一定
实对称：性质最好，一定可正交对角化
剪切矩阵：特征值重复 + 向量不够 → 不可对角化
单位矩阵：特征值重复但方向无限 → 完全没问题
旋转矩阵：实数域下“没有稳定方向”

有没有一个n维方阵它的去除重复后的特征值数量小于n，但线性无关的特征向量数量等于n的情况？

有，而且这是完全可能的、而且很典型的情况。这类矩阵正是“有重特征值但仍然可对角化”的矩阵。

关键在于三个概念的区别：

特征值的“去重数量”
特征值的代数重数
特征向量的个数（即几何重数之和）

线性无关的特征向量总数 = 各特征值对应的几何重数之和。

只要每个特征值的 $几何重数 = 代数重数$ 那么即使有重特征值，特征向量也“够用”，总数仍然是 (n)。

一个非常直观的例子（非单位阵）：

$A = 200020003$

去重后的特征值： $2, 3$ ，数量 2 < 3
代数重数： $λ = 2$ 是 2， $λ = 3$ 是 1
特征向量：
- 对应 $λ = 2$ 有 2 个线性无关特征向量
- 对应 $λ = 3$ 有 1 个线性无关特征向量

总共正好 3 个线性无关特征向量。

一个矩阵可以有几个零空间？它和矩阵的特征向量的特殊有什么关系？

这是一个非常好的问题，而且正好把“零空间”和“特征向量”这两条线彻底连在一起。

先给结论，再解释关系。

1️⃣ 一个矩阵有几个零空间？

严格来说：

一个给定的矩阵 (A)，只有一个零空间。

这个零空间指的是 $N (A) = x ∣ A x = 0$

它是一个固定的线性子空间，不会有多个。

但你前面看到的 $N (A - 2 I), N (A - 3 I)$ 并不是“ $A$ 的零空间”，而是不同矩阵的零空间。

2️⃣ 那为什么感觉“好像有很多零空间”？

因为我们在研究同一个矩阵 $A$ 时，会不断看： $N (A - λ I)$ 对不同的 $λ$ 。

这些是不同矩阵的零空间，不是同一个。

3️⃣ 零空间和特征向量的关系（关键点）

这是核心联系：

$(A - λ I) x = 0 ⟺ A x = λ x$

所以：

$N (A - λ I)$ 正好就是特征值 $λ$ 的特征子空间。

也就是说：

零空间 ≈ “特征向量的集合”（加上零向量）
只不过是针对 $A - λ I$ ，而不是 $A$ 本身

4️⃣ 从这个角度重新看特征向量

可以这样理解：

特征向量不是“额外的东西”
它们只是某些特殊矩阵 $A - λ I$ 的零空间中的向量

而这些“特殊的 $λ$ ”就是使零空间不再只有零向量的数。

5️⃣ 一句话把关系说透

$A$ 的零空间：描述被 $A$ 压到 0 的方向
$λ$ 的特征向量：描述被 $A$ 压缩/拉伸但方向不变的方向
数学上，它们统一为： $特征子空间 = N (A - λ I)$

如何快速判断一个矩阵的零空间的维度？

这是一个非常实用的问题。判断零空间维度，其实有一条几乎“秒杀”的通用思路。

先给最核心的结论，再说怎么用。

核心结论（必须记住）

对一个 $m \times n$ 矩阵 $A$ ： $dim N (A) = n - rank (A)$

这就是秩–零度定理。

所以真正的问题就变成一句话：

矩阵有多少个“独立的列”（或行）？

最快的判断方法（分情况）

第一种：矩阵已经是对角形 / 上三角形 / 下三角形

这是最快的。

非零对角元的个数 = 秩
零对角元的个数 = 零空间维度（对方阵）

例如： $A - 2 I = 000000001$

秩 = 1
列数 = 3
零空间维度 = (3-1=2)

几乎一眼就能看出来。

第二种：一般矩阵（最通用）

行化简到行最简阶梯形（RREF）：

主元个数 = 秩
自由变量个数 = 零空间维度

不必真的写出通解，只数“没有主元的列”。

第三种：方阵的“快速特判”

如果 $A$ 是 $n \times n$ 方阵：

$det (A) \neq = 0$ → 可逆 → 秩 = $n$ → 零空间维度 = 0
$det (A) = 0$ → 至少 1 维零空间 → 但具体维数还要看秩掉了多少

第四种：利用特征值（对方阵很快）

对方阵 (A)：

0 是特征值 ⇔ 零空间非平凡
0 的几何重数 = $dim N (A)$

所以如果你已经知道特征结构，零空间维度可以直接读出来。

一行总结

想快：看秩
更快（对角/三角）：数非零对角元
已知特征值：看 0 的几何重数

Keyboard shortcuts

The Little Book of Linear Algebra