香农信息论三个定理-香农信息三定理

作者：佚名

1人看过

发布时间：2026-06-21 19:25:04

香农那篇 1948 年的论文里，他压根没教人如何把数据打包，也没谈过加密算法的具体实现。但他把信息论的门路铺得比任何教科书都宽。你想想，要是要把整个信号处理、通信、就连机器学习里的概率模型都扔进他那个

香农那篇 1948 年的论文里，他压根没教人如何把数据打包，也没谈过加密算法的具体实现。但他把信息论的门路铺得比任何教科书都宽。
你想想，要是要把整个信号处理、通信、就连机器学习里的概率模型都扔进他那个公式，你会发现他实际上是在说，一切关于不确定性的度量，本质上都是信息熵在跳舞。早期的通信工程师们急于求成，鼓吹“香农极限”像神谕一样，说只要信道充足好，速率就一辈子有上限。他们急着去算带宽，急着去算纠错码，急着去为了那个“极限”去堆砌比特数。香农自己就笑他们在玩文字游戏。
你看那公式，$C = B log_2(1 + S/N)$，把 $S$ 和 $N$ 当成好办的电压要么功率，显得多像物理定律啊。
实际上，香农最早定义的信息，是区分两个类别的难易程度。
比方说，你让我猜这杯奶茶是草莓味还是珍珠味，猜对了不算多信息，猜错了也不算多信息。
要是我要你猜这是红海产的还是蓝海产的，那就能给出一大堆信息。信息论的核心不是比特，是“不确定性”的削减。在通信系统里，我们拼命做的，就是把发送端发送信号的不确定性，通过信道，通过接收端，全体压缩进一个码字里。这就引出了那三个定理，但它们都不是独立存有的规则，而是信息论世界观的三种不同切面。第一个定理说，信息的物理传输速率有个天花板。别跟我提光纤、别跟我提无线，别跟我提 5G 基站，只要信道变了，这个上限就一辈子在那里。
要是信道容量是 $C$ 比特/秒，那你用的任何编码、任何调制、任何扩频技术，都要在这个 $C$ 以内才能跑通。超过它，信号就会凭空消亡。
这里的物理意义是：能量守恒。你不能把信息无中生有地塞进一个没有容量的空间里。
你看卫星通信，带宽被吃了，速率就是零。
这不是技术不中，是物理规律拍板了不可能。第二个定理是“互信息”。它说，接收方能多确定地推测发送方说了啥，就是互信息增添了。
这听起来像是在聊聊天，实际上是在算账。当你发送一个信号给接收机，接收机内部有一个概率分布。
要是这个分布彻底不准，那互信息就是零。香农后来把互信息推广成了误差概率和先验概率的通用函数。在机器学习中，这简直就是正则化的灵魂。你当作随机森林如此强是出于它能组合好多随机树？实际上是出于每棵树学到的都是互信息最大的那个特征。
要是每棵树都只学了一个特征，那么最终模型学到的互信息就挺小，泛化本事也就差。香农告诉我们，好的模型，本质上就是在最大化信息的传递效率。第三个定理是“冗余”。
这是最反直觉的，也是最实用的一个。它说，你能够把信息压缩，也能够把误差容限放得挺大。但有一件事一辈子做不了：把冗余变成信息。
要是你把两个彻底一样的信号叠加起来，接收端收到的互信息没有变，带宽也没变，但你花的比特数增添了。
这多出来的比特，就是“没有使用”的比特。
这就是著名的香农公式：$C = W log_2(1 + S/N)$，中间那个 $W$ 实际上就是信道容量。甭管你如何压缩，你传的数据量一辈子不超过 $W$。多出来的带宽，只能用于加噪声、加保护、加纠错。
这听起来像是在浪费资源，但在香农眼里，这是信息的“保险费”。大量人一听到“冗余”，第一反应是“没用”。但在香农看来，冗余是信息论的基石。
没有冗余，你连累自己都不能讲话。想象一下，要是两个人讲话，务必绝对准、一点差错都不准，那语言早就灭绝了。我们需求犯错，我们需求留有余地，我们需求把信号里的噪声当成信息的一局部来处理。在深空探测里，要是一颗行星的信号有 0.001% 的误差，而你的去噪算法只能容 0.000001% 的误差，那你的信号就淹没了雷声。
这时候，所有的“冗余”都变成了“确定性”，你拿到的是一个整个的行星，但整个信号都丢了。再回头看那个修表匠的故事。修表匠不能把两个彻底一样的表叠在一起，出于那样就把表叠起来了。他得把两个表拆开，把两个针脚上的锈迹氧化、把两个表壳里的灰尘挑出。
这两个被氧化掉的锈迹、被挑出的灰尘，就是冗余。它们看起来是浪费，但实际上，它们保证了那两个表一辈子不会再坏。香农的第三个定理告诉我们，任何现实中的通信系统，要是彻底去掉冗余，那连信号都传不出了。这实际上揭示了现代 AI 训练的一个铁律：过拟合就是没有处理好冗余。模型把数据里那些噪声当作了信号。在深度学习里，我们用了那么多层网络，用了那么多正则化项，有时候大家会认定模型忒智能了，把训练数据里的噪声也当成了规律。但香农早就说过了，要是噪声没有信息量，它就无法通过信道传递。真正的智能，不是记住训练数据里的每一个像素，而是记住那些在不同条件下依然能区分开的特征。
那些在训练时看起来像噪声的东西，往往是冗余的，它们保证了模型在面对新数据时的鲁棒性。故此，当你今天还在钻研那些复杂的 Transformer 架构，还在纠结 attention 权重如何算的时候，别忘了回到香农的起点。信息熵不是在算难解的方程，而是在算一个不清楚的直觉。你把信号的不清楚程度，通过一个数学公式把它变成了清楚的比特流。
这就好比把一团乱麻，剪成几段，然后扔进一个容积有限的信封里。信封有多大（带宽），剪得细不细（编码），里面装多少信息（互信息），都受限于那个物理极限。而把富余的几英寸纸折起来塞进去（冗余），并不是为了让信看起来多满，而是为了让手不疼，为了让信能多跑一次。在这个信息爆炸的时代，我们忒爱追求“零误差”了，忒迷信那个“香农极限”了，却忘了那个极限本身就是由噪声和冗余共同构建出来的。
要是我们没有冗余，我们连根本的通信本事都没有；要是我们没有适度的冗余，我们就连根本的信息传递都没有。香农的那个公式，写得越复杂，他讲的核心就越好办：世界充满了不确定性，而人类最伟大的智慧，就是学会在不确定性中，构建出最合理的、最耐用的、最富冗余的信息架构。
不要试图去突破这个极限，要不就你能在那之前，把冗余做得充足大，大到能容纳所有可能的毛病。你说，是不是挺好办？实际上做起来挺难，出于人类总想用最少的比特去表达顶多的信息，而香农告诉我们，能做到的只有一条路：接纳冗余，拥抱噪声，在不确定中寻找确定的秩序。

热门标签：

上一篇 : 勾股定理练习题和答案-勾股题答案下载

下一篇 : 三角形内角平分线定理-三角形角平分线定理