奇异值分解定理-奇异值分解定理

作者：佚名

1人看过

发布时间：2026-06-09 17:25:54

在计算机图形学要么信号处理领域，那些处理大量矩阵运算的算法往往让人望而生畏。就比如做图像压缩，要么训练那个著名的深度神经网络，核心都绕不开一个东西：奇异值分解。本来这名字听着就挺“硬”，仿佛就是要把一

在计算机图形学要么信号处理领域，那些处理大量矩阵运算的算法往往让人望而生畏。就比如做图像压缩，要么训练那个著名的深度神经网络，核心都绕不开一个东西：奇异值分解。
本来这名字听着就挺“硬”，仿佛就是要把一个复杂的矩阵硬生生拆成一堆杆子似的分量。
实际上没那么复杂，它更像是在房间里找一根根最响亮的棍子。你手里拿着一张复杂的图片，要么一串乱糟糟的声音数据，本质上它就是一个庞大的矩阵。
这个矩阵里全是数字，并且大多是凌乱无章的。奇异值分解（SVD）的核心思想只有一个字：找。它就是要从这个庞杂的数据里，挑出那些最“关键”的数据。想象一下，你有一桶水，里面混着无数泥沙和气泡。
要是你想知道这桶水到底能装多满，要么能不能倒出来，你不可能去数每一粒沙子，那样忒慢了。便你可能会先抓一把，看能不能倒出来，剩下的再抓一把。奇异值分解就是如此个操作。它把那个庞大的矩阵看作一个高矮胖瘦不一的柱子集合，把那些“高”的柱子挑出来，剩下的那些“矮”的柱子全扔进垃圾桶。为啥如此干？出于那堆“矮”的柱子根本装不下这桶水。它们的总和可能只有原来的一小局部。把它扔掉，你不用再管它了，反正反正都是废料。剩下的那些“高”柱子，别看形状各异，但它们加起来，分量惊人地接近原来的矩阵总量。
这时候，你就有了“低秩近似”。
也就是说，你用一堆好办的柱子，来代表原来的东西。
这就像是把一张复杂的网，剪成几只绳子，再斜着挂起来，这整个图案还在，但结构好办了。
这在数学上说是保留了主成分信息，而在工程上，这就是变轻、变快的关键。实际操作起来，大量人认定这玩意儿难，实际上没那么玄学。最经典的算法叫歌里特算法，要么咱们俗称的 Gram-Schmidt 迭代，听起来像是一堆枯燥的公式。但这玩意儿只要跑一点点，就能把你那个复杂的矩阵变成两个好办的局部：一个是纯数值构成的矩阵 $V$，一个是三角形矩阵 $U$。
一般我们还会算出那个关键参数 $Sigma$，这就是那根根“高”柱子对应的奇异值。举个例子，假设你在处理一张只有 200 万像素的扫描图。每张像素点用整数表示，数据量是 $M times N$。而这个数据本身是个整个的矩阵。
要是你直接用它做深度学习，这内存根本吃不过来。
这时候你能够试着降维，比如只保留前 100 个奇异值对应的向量。
这时候，你只需求存 100 个更稀疏的向量，数据量瞬间就小了 10 倍。
这就好比把一张满印的报纸，只剪下那些有字的大标题，剩下的那些小字广告纸直接扔了。剩下的折叠在一起，刚好能塞进你的背包，并且你还能看清上面的字。别看你丢了一点信息，但那是你本来就不该有、要么根本不懂的信息。这里有个挺妙的地方，就是变形的缘由。为了让你手里的模型能跑起来，你不能原封不动地照搬原来的矩阵。你得给矩阵划个框，把那些长高的柱子砍短，宽大的柱子压扁，要么把短的柱子拉长。
这就好比你要把一根金灿灿的大粗柱子，切成几段细细的小棍子。每一根小棍子都符合要求，并且长度差不多，这样你拿起来才顺手。代价是，原来这根柱子上的所有信息，目前分散到这几十根小棍子上了。为了不让小棍子上的信息丢失，你务必保证每根小棍子上的“平均”信息量接近原来的那个柱子。
这就是奇异值分解的等价性。还有一个细节，就是为啥有时候你会发现，就算数据确实挺高维，奇异值分解出来的结局，有时候只有几十个非零项？这实际上是出于数据本身不够“壮”。
要是你有一盒鸡蛋，里面全是蛋黄，结构贼紧密，那么这盒鸡蛋的体积挺小，但要是你把它压扁，它可能就没法变成圆柱体了。奇异值分解会尽力去保持等价性，也就是尽量让每一根柱子在投影上去的时候，都能还原出一点点原始的样子。有时候，你就连能够把 $U$ 和 $V$ 拼起来，拿到一个近似正交的矩阵。
这个矩阵能够代表原矩阵，并且体积更小。
这在工业界特别香，比如做推荐系统，要么做人脸识别。你能够把成千上万张脸，压缩成这种高维向量，然后再通过这堆向量去匹配。别看这有个前提，就是你得先对这堆脸做标准化处理，让它们的“身高”差不多，否则比较就没意义了。
这就是说，SVD 不只是是个数学工具，它是个挺智慧的“适配器”，能把不同维度、不同大小的东西，强行拉到同一个标准轨道上。实际上，SVD 在机器学习的推广上，确实是一步登天。当你发现一个模型跑不过一个更强的模型时，可能是参数不够了，但更可能是输入数据不够。你能够直接优化输入数据的维度，用 SVD 降维，要么用 PCA。你试着把模型放得“更低”，看看能不能泛化效果提升。
这在大量论文里都能见到，作者都会说：“我们尝试了 SVD 降维，发现特征数量削减了 80%，但收敛速度加快了。” 最终，你可能会认定这玩意儿有点“凑数”，反正算出来一堆数，没用。
实际上不用。
这东西的用处忒大了，从早期的 JPEG 图片压缩，到目前的推荐算法和推荐系统，再到自动驾驶的感知模块，都离不开它。它不用你懂复杂的物理意义，它就是那个最忠诚的奸商，默默地给你省事儿。它不告诉你数据形成了啥，它只告诉你哪些是富余的，剩下的哪些才是命门。
故此，下次当你面对一个庞大的矩阵，让你做点啥时，不妨先试着问问它：“嘿，这堆数据还能装多少？”

热门标签：

上一篇 : 估值定理怎么证明-定理证明估值方法

下一篇 : 动能定理的应用公开课-动能定理应用公开课