文章总结: 本文从信息论角度解释了机器学习中交叉熵损失的数学来源。文章首先介绍香农信息论中信息量与熵的概念,然后通过KL散度解释用错误分布近似真实分布的代价,最终推导出交叉熵作为损失函数的合理性。文章指出交叉熵配合Softmax输出时梯度稳定,优于MSE损失函数,揭示了1948年信息论与当今深度学习之间的优雅联系。 综合评分: 76 文章分类: AI安全
信息论与交叉熵:机器学习损失的数学来源
原创
代码小铺 代码小铺
代码小铺
2026年4月29日 09:11 湖北
在小说阅读器读本章
去阅读
引言
每次训练神经网络时,我们都会看到一个叫做”loss”的数字在逐渐减小。但你是否想过:为什么偏偏是”交叉熵”?
这个问题听起来很深奥,但答案其实非常优雅——它源于一个诞生于1948年的理论:信息论。今天,我们就来聊聊信息论、熵、交叉熵,以及它们是如何一步步成为机器学习中最核心的损失函数的。
信息的本质:不确定性
1948年,香农发表了划时代的论文《通信的数学理论》,创立了信息论。他问了一个看似简单却极其深刻的问题:信息的本质是什么?
香农的回答是:信息是用来消除不确定性的东西。
想象一下天气预报:
- • 如果有人说”明天太阳会升起”——你几乎不会觉得这有什么信息量,因为这件事几乎必然发生。
- • 但如果有人说”明天会下冰雹”——这就很有信息量了,因为这件事不太常见。
香农用数学语言描述了这个直觉:一个事件的信息量,与它发生的概率成反比。
其中 P(x) 是事件发生的概率,I(x) 是这个事件带给你的信息量(单位:比特)。
熵:平均信息量
理解了单个事件的信息量,我们就可以问:整个系统的平均信息量是多少?
这就是熵(entropy)的概念:
熵衡量的是一个随机变量的不确定性大小。
举一个经典的例子:抛硬币。
- • 公平硬币(正反面各50%):
- • 不公平硬币(正面99%,反面1%):
公平硬币的熵更大,因为它的不确定性更大——你猜的时候更”拿不准”。而偏向硬币的熵很小,因为你几乎可以猜正面,不太会出错。
熵越大 = 不确定性越大 = 系统越”混乱”。
KL 散度:两个分布之间的距离
现在我们来回答一个关键问题:如果我用一个错误的分布 q 来近似真实分布 p,我会损失多少信息?
香农的同事库尔贝克(Kullback)和莱布勒(Leibler)给出了答案——KL 散度:
KL 散度衡量的是用分布 q 来编码真实分布 p 时,多出来的平均编码长度。它也叫”相对熵”。
KL 散度有一个重要性质:它永远非负,且当且仅当 p = q 时为零。 这意味着两个分布越接近,KL 散度越小。
交叉熵:从 KL 散度到损失函数
把 KL 散度的公式拆开看:
其中:
- • H(p) 是真实分布的熵(在训练过程中是固定不变的)
- • H(p, q) 就是交叉熵:
关键洞察来了: 因为我们最小化的是 ,而 H(p) 是常数,所以:
这就是为什么交叉熵能作为损失函数——它本质上是在让我们的预测分布 q 尽可能接近真实分布 p。
分类问题中的交叉熵
在图像分类中,假设我们有一张猫的图片:
- • 真实分布 p:猫 = 1,狗 = 0,鸟 = 0(one-hot 编码)
- • 预测分布 q:猫 = 0.7,狗 = 0.2,鸟 = 0.1(Softmax 输出)
交叉熵损失为:
如果模型更自信,预测猫 = 0.95,那么损失变为:
模型预测越准确,交叉熵损失越小。 通过梯度下降不断减小交叉熵,模型就学会了把正确的类别概率推高。
为什么不是其他损失函数?
你可能会问:为什么不用均方误差(MSE)?
关键在于梯度的性质。交叉熵配合 Softmax 输出时,梯度恰好等于 预测值 – 真实值,这使得学习信号始终清晰且稳定:
而 MSE 在预测严重错误时梯度会趋于饱和(sigmoid/softmax 的饱和区),导致学习速度急剧下降。
总结
回顾一下这条优美的逻辑链:
- 1. 信息量:事件越不可能发生,信息量越大
- 2. 熵:随机变量的平均不确定性
- 3. KL 散度:用错误分布近似真实分布的额外代价
- 4. 交叉熵:KL 散度去掉常数项,恰好可作为损失函数
从1948年香农创立信息论,到今天深度学习无处不在的交叉熵损失——数学的力量在于,最优雅的理论往往最终成为最实用的工具。
下次当你看到训练集上的 loss 在下降时,不妨想一想:你的模型正在一步步减少预测分布与真实分布之间的 KL 散度。这不只是数字的变化,而是信息论七十多年前种下的种子,在今天开出的花。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:代码小铺 代码小铺 代码小铺《信息论与交叉熵:机器学习损失的数学来源》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论