香农信息论三个定理-香农信息三定理
作者:佚名
|
1人看过
发布时间:2026-06-21 19:25:04
香农那篇 1948 年的论文里,他压根没教人如何把数据打包,也没谈过加密算法的具体实现。但他把信息论的门路铺得比任何教科书都宽。你想想,要是要把整个信号处理、通信、就连机器学习里的概率模型都扔进他那个
香农那篇 1948 年的论文里,他压根没教人如何把数据打包,也没谈过加密算法的具体实现。但他把信息论的门路铺得比任何教科书都宽。
你想想,要是要把整个信号处理、通信、就连机器学习里的概率模型都扔进他那个公式,你会发现他实际上是在说,一切关于不确定性的度量,本质上都是信息熵在跳舞。 早期的通信工程师们急于求成,鼓吹“香农极限”像神谕一样,说只要信道充足好,速率就一辈子有上限。他们急着去算带宽,急着去算纠错码,急着去为了那个“极限”去堆砌比特数。香农自己就笑他们在玩文字游戏。
你看那公式,$C = B log_2(1 + S/N)$,把 $S$ 和 $N$ 当成好办的电压要么功率,显得多像物理定律啊。
实际上,香农最早定义的信息,是区分两个类别的难易程度。
比方说,你让我猜这杯奶茶是草莓味还是珍珠味,猜对了不算多信息,猜错了也不算多信息。
要是我要你猜这是红海产的还是蓝海产的,那就能给出一大堆信息。信息论的核心不是比特,是“不确定性”的削减。在通信系统里,我们拼命做的,就是把发送端发送信号的不确定性,通过信道,通过接收端,全体压缩进一个码字里。 这就引出了那三个定理,但它们都不是独立存有的规则,而是信息论世界观的三种不同切面。 第一个定理说,信息的物理传输速率有个天花板。别跟我提光纤、别跟我提无线,别跟我提 5G 基站,只要信道变了,这个上限就一辈子在那里。
要是信道容量是 $C$ 比特/秒,那你用的任何编码、任何调制、任何扩频技术,都要在这个 $C$ 以内才能跑通。超过它,信号就会凭空消亡。
这里的物理意义是:能量守恒。你不能把信息无中生有地塞进一个没有容量的空间里。
你看卫星通信,带宽被吃了,速率就是零。
这不是技术不中,是物理规律拍板了不可能。 第二个定理是“互信息”。它说,接收方能多确定地推测发送方说了啥,就是互信息增添了。
这听起来像是在聊聊天,实际上是在算账。当你发送一个信号给接收机,接收机内部有一个概率分布。
要是这个分布彻底不准,那互信息就是零。香农后来把互信息推广成了误差概率和先验概率的通用函数。在机器学习中,这简直就是正则化的灵魂。你当作随机森林如此强是出于它能组合好多随机树?实际上是出于每棵树学到的都是互信息最大的那个特征。
要是每棵树都只学了一个特征,那么最终模型学到的互信息就挺小,泛化本事也就差。香农告诉我们,好的模型,本质上就是在最大化信息的传递效率。 第三个定理是“冗余”。
这是最反直觉的,也是最实用的一个。它说,你能够把信息压缩,也能够把误差容限放得挺大。但有一件事一辈子做不了:把冗余变成信息。
要是你把两个彻底一样的信号叠加起来,接收端收到的互信息没有变,带宽也没变,但你花的比特数增添了。
这多出来的比特,就是“没有使用”的比特。
这就是著名的香农公式:$C = W log_2(1 + S/N)$,中间那个 $W$ 实际上就是信道容量。甭管你如何压缩,你传的数据量一辈子不超过 $W$。多出来的带宽,只能用于加噪声、加保护、加纠错。
这听起来像是在浪费资源,但在香农眼里,这是信息的“保险费”。 大量人一听到“冗余”,第一反应是“没用”。但在香农看来,冗余是信息论的基石。
没有冗余,你连累自己都不能讲话。想象一下,要是两个人讲话,务必绝对准、一点差错都不准,那语言早就灭绝了。我们需求犯错,我们需求留有余地,我们需求把信号里的噪声当成信息的一局部来处理。在深空探测里,要是一颗行星的信号有 0.001% 的误差,而你的去噪算法只能容 0.000001% 的误差,那你的信号就淹没了雷声。
这时候,所有的“冗余”都变成了“确定性”,你拿到的是一个整个的行星,但整个信号都丢了。 再回头看那个修表匠的故事。修表匠不能把两个彻底一样的表叠在一起,出于那样就把表叠起来了。他得把两个表拆开,把两个针脚上的锈迹氧化、把两个表壳里的灰尘挑出。
这两个被氧化掉的锈迹、被挑出的灰尘,就是冗余。它们看起来是浪费,但实际上,它们保证了那两个表一辈子不会再坏。香农的第三个定理告诉我们,任何现实中的通信系统,要是彻底去掉冗余,那连信号都传不出了。 这实际上揭示了现代 AI 训练的一个铁律:过拟合就是没有处理好冗余。模型把数据里那些噪声当作了信号。在深度学习里,我们用了那么多层网络,用了那么多正则化项,有时候大家会认定模型忒智能了,把训练数据里的噪声也当成了规律。但香农早就说过了,要是噪声没有信息量,它就无法通过信道传递。真正的智能,不是记住训练数据里的每一个像素,而是记住那些在不同条件下依然能区分开的特征。
那些在训练时看起来像噪声的东西,往往是冗余的,它们保证了模型在面对新数据时的鲁棒性。 故此,当你今天还在钻研那些复杂的 Transformer 架构,还在纠结 attention 权重如何算的时候,别忘了回到香农的起点。信息熵不是在算难解的方程,而是在算一个不清楚的直觉。你把信号的不清楚程度,通过一个数学公式把它变成了清楚的比特流。
这就好比把一团乱麻,剪成几段,然后扔进一个容积有限的信封里。信封有多大(带宽),剪得细不细(编码),里面装多少信息(互信息),都受限于那个物理极限。而把富余的几英寸纸折起来塞进去(冗余),并不是为了让信看起来多满,而是为了让手不疼,为了让信能多跑一次。 在这个信息爆炸的时代,我们忒爱追求“零误差”了,忒迷信那个“香农极限”了,却忘了那个极限本身就是由噪声和冗余共同构建出来的。
要是我们没有冗余,我们连根本的通信本事都没有;要是我们没有适度的冗余,我们就连根本的信息传递都没有。香农的那个公式,写得越复杂,他讲的核心就越好办:世界充满了不确定性,而人类最伟大的智慧,就是学会在不确定性中,构建出最合理的、最耐用的、最富冗余的信息架构。
不要试图去突破这个极限,要不就你能在那之前,把冗余做得充足大,大到能容纳所有可能的毛病。 你说,是不是挺好办?实际上做起来挺难,出于人类总想用最少的比特去表达顶多的信息,而香农告诉我们,能做到的只有一条路:接纳冗余,拥抱噪声,在不确定中寻找确定的秩序。
你想想,要是要把整个信号处理、通信、就连机器学习里的概率模型都扔进他那个公式,你会发现他实际上是在说,一切关于不确定性的度量,本质上都是信息熵在跳舞。 早期的通信工程师们急于求成,鼓吹“香农极限”像神谕一样,说只要信道充足好,速率就一辈子有上限。他们急着去算带宽,急着去算纠错码,急着去为了那个“极限”去堆砌比特数。香农自己就笑他们在玩文字游戏。
你看那公式,$C = B log_2(1 + S/N)$,把 $S$ 和 $N$ 当成好办的电压要么功率,显得多像物理定律啊。
实际上,香农最早定义的信息,是区分两个类别的难易程度。
比方说,你让我猜这杯奶茶是草莓味还是珍珠味,猜对了不算多信息,猜错了也不算多信息。
要是我要你猜这是红海产的还是蓝海产的,那就能给出一大堆信息。信息论的核心不是比特,是“不确定性”的削减。在通信系统里,我们拼命做的,就是把发送端发送信号的不确定性,通过信道,通过接收端,全体压缩进一个码字里。 这就引出了那三个定理,但它们都不是独立存有的规则,而是信息论世界观的三种不同切面。 第一个定理说,信息的物理传输速率有个天花板。别跟我提光纤、别跟我提无线,别跟我提 5G 基站,只要信道变了,这个上限就一辈子在那里。
要是信道容量是 $C$ 比特/秒,那你用的任何编码、任何调制、任何扩频技术,都要在这个 $C$ 以内才能跑通。超过它,信号就会凭空消亡。
这里的物理意义是:能量守恒。你不能把信息无中生有地塞进一个没有容量的空间里。
你看卫星通信,带宽被吃了,速率就是零。
这不是技术不中,是物理规律拍板了不可能。 第二个定理是“互信息”。它说,接收方能多确定地推测发送方说了啥,就是互信息增添了。
这听起来像是在聊聊天,实际上是在算账。当你发送一个信号给接收机,接收机内部有一个概率分布。
要是这个分布彻底不准,那互信息就是零。香农后来把互信息推广成了误差概率和先验概率的通用函数。在机器学习中,这简直就是正则化的灵魂。你当作随机森林如此强是出于它能组合好多随机树?实际上是出于每棵树学到的都是互信息最大的那个特征。
要是每棵树都只学了一个特征,那么最终模型学到的互信息就挺小,泛化本事也就差。香农告诉我们,好的模型,本质上就是在最大化信息的传递效率。 第三个定理是“冗余”。
这是最反直觉的,也是最实用的一个。它说,你能够把信息压缩,也能够把误差容限放得挺大。但有一件事一辈子做不了:把冗余变成信息。
要是你把两个彻底一样的信号叠加起来,接收端收到的互信息没有变,带宽也没变,但你花的比特数增添了。
这多出来的比特,就是“没有使用”的比特。
这就是著名的香农公式:$C = W log_2(1 + S/N)$,中间那个 $W$ 实际上就是信道容量。甭管你如何压缩,你传的数据量一辈子不超过 $W$。多出来的带宽,只能用于加噪声、加保护、加纠错。
这听起来像是在浪费资源,但在香农眼里,这是信息的“保险费”。 大量人一听到“冗余”,第一反应是“没用”。但在香农看来,冗余是信息论的基石。
没有冗余,你连累自己都不能讲话。想象一下,要是两个人讲话,务必绝对准、一点差错都不准,那语言早就灭绝了。我们需求犯错,我们需求留有余地,我们需求把信号里的噪声当成信息的一局部来处理。在深空探测里,要是一颗行星的信号有 0.001% 的误差,而你的去噪算法只能容 0.000001% 的误差,那你的信号就淹没了雷声。
这时候,所有的“冗余”都变成了“确定性”,你拿到的是一个整个的行星,但整个信号都丢了。 再回头看那个修表匠的故事。修表匠不能把两个彻底一样的表叠在一起,出于那样就把表叠起来了。他得把两个表拆开,把两个针脚上的锈迹氧化、把两个表壳里的灰尘挑出。
这两个被氧化掉的锈迹、被挑出的灰尘,就是冗余。它们看起来是浪费,但实际上,它们保证了那两个表一辈子不会再坏。香农的第三个定理告诉我们,任何现实中的通信系统,要是彻底去掉冗余,那连信号都传不出了。 这实际上揭示了现代 AI 训练的一个铁律:过拟合就是没有处理好冗余。模型把数据里那些噪声当作了信号。在深度学习里,我们用了那么多层网络,用了那么多正则化项,有时候大家会认定模型忒智能了,把训练数据里的噪声也当成了规律。但香农早就说过了,要是噪声没有信息量,它就无法通过信道传递。真正的智能,不是记住训练数据里的每一个像素,而是记住那些在不同条件下依然能区分开的特征。
那些在训练时看起来像噪声的东西,往往是冗余的,它们保证了模型在面对新数据时的鲁棒性。 故此,当你今天还在钻研那些复杂的 Transformer 架构,还在纠结 attention 权重如何算的时候,别忘了回到香农的起点。信息熵不是在算难解的方程,而是在算一个不清楚的直觉。你把信号的不清楚程度,通过一个数学公式把它变成了清楚的比特流。
这就好比把一团乱麻,剪成几段,然后扔进一个容积有限的信封里。信封有多大(带宽),剪得细不细(编码),里面装多少信息(互信息),都受限于那个物理极限。而把富余的几英寸纸折起来塞进去(冗余),并不是为了让信看起来多满,而是为了让手不疼,为了让信能多跑一次。 在这个信息爆炸的时代,我们忒爱追求“零误差”了,忒迷信那个“香农极限”了,却忘了那个极限本身就是由噪声和冗余共同构建出来的。
要是我们没有冗余,我们连根本的通信本事都没有;要是我们没有适度的冗余,我们就连根本的信息传递都没有。香农的那个公式,写得越复杂,他讲的核心就越好办:世界充满了不确定性,而人类最伟大的智慧,就是学会在不确定性中,构建出最合理的、最耐用的、最富冗余的信息架构。
不要试图去突破这个极限,要不就你能在那之前,把冗余做得充足大,大到能容纳所有可能的毛病。 你说,是不是挺好办?实际上做起来挺难,出于人类总想用最少的比特去表达顶多的信息,而香农告诉我们,能做到的只有一条路:接纳冗余,拥抱噪声,在不确定中寻找确定的秩序。
上一篇 : 勾股定理练习题和答案-勾股题答案下载
下一篇 : 三角形内角平分线定理-三角形角平分线定理
推荐文章
Hahn 定理这东西,听着挺学术,实际上说白了就是个“只有坏才抓不到,好人全抓了”的判定器。在函数分析的这片泥潭里,它算是个活化石,别看年轻时候被拉去修修补补,目前又出于那个著名的正交多项式难题上了热
2026-06-05
61 人看过
勾股定理:看着像公式,实际上是人的一生 勾股定理,也就是那个 $a^2 + b^2 = c^2$ 的等式,听起来多么抽象又冷冰冰。但在咱们中国人的历史里,这事儿可不是哪位都能理解。在商朝,商高就算过
2026-06-06
9 人看过
我走不进去那个门了,要么说,我进了,但就是转不过弯。就像这大模型,它能把文书改得跟印刷厂传过来的稿子一模一样,就连还能把那种老旧的公文格式硬生生塞进现代网页里,但它就是没法真正“看懂”人心里那点没明说
2026-06-08
8 人看过
大家到了下午两点,坐在光脚丫上听我说,是不是总认定这日子过得忒快了?实际上,数学这东西,跟那种翻书能翻到地老天荒的瞎忙活不一样。华罗庚大师当年在“学大讲台”那会儿,坐在正中间的硬木椅子上,旁边坐着几个
2026-06-10
8 人看过



