Plugins

分享推荐实用的WordPress插件

WordPress

记录分享WordPress使用经验和技巧

Web前端

分享Web前端设计理念及技术

设计资源

搜刮来的设计资源

信息论与交叉熵：机器学习损失的数学来源

2026-04-30 05:08:36 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文从信息论角度解释了机器学习中交叉熵损失的数学来源。文章首先介绍香农信息论中信息量与熵的概念，然后通过KL散度解释用错误分布近似真实分布的代价，最终推导出交叉熵作为损失函数的合理性。文章指出交叉熵配合Softmax输出时梯度稳定，优于MSE损失函数，揭示了1948年信息论与当今深度学习之间的优雅联系。 综合评分： 76 文章分类： AI安全

cover_image

信息论与交叉熵：机器学习损失的数学来源

原创

代码小铺代码小铺

代码小铺

2026年4月29日 09:11 湖北

在小说阅读器读本章

去阅读

引言

每次训练神经网络时，我们都会看到一个叫做”loss”的数字在逐渐减小。但你是否想过：为什么偏偏是”交叉熵”？

这个问题听起来很深奥，但答案其实非常优雅——它源于一个诞生于1948年的理论：信息论。今天，我们就来聊聊信息论、熵、交叉熵，以及它们是如何一步步成为机器学习中最核心的损失函数的。

信息的本质：不确定性

1948年，香农发表了划时代的论文《通信的数学理论》，创立了信息论。他问了一个看似简单却极其深刻的问题：信息的本质是什么？

香农的回答是：信息是用来消除不确定性的东西。

想象一下天气预报：

• 如果有人说”明天太阳会升起”——你几乎不会觉得这有什么信息量，因为这件事几乎必然发生。
• 但如果有人说”明天会下冰雹”——这就很有信息量了，因为这件事不太常见。

香农用数学语言描述了这个直觉：一个事件的信息量，与它发生的概率成反比。

其中 P(x) 是事件发生的概率，I(x) 是这个事件带给你的信息量（单位：比特）。

熵：平均信息量

理解了单个事件的信息量，我们就可以问：整个系统的平均信息量是多少？

这就是熵（entropy）的概念：

熵衡量的是一个随机变量的不确定性大小。

举一个经典的例子：抛硬币。

• 公平硬币（正反面各50%）：

• 不公平硬币（正面99%，反面1%）：

公平硬币的熵更大，因为它的不确定性更大——你猜的时候更”拿不准”。而偏向硬币的熵很小，因为你几乎可以猜正面，不太会出错。

熵越大 = 不确定性越大 = 系统越”混乱”。

KL 散度：两个分布之间的距离

现在我们来回答一个关键问题：如果我用一个错误的分布 q 来近似真实分布 p，我会损失多少信息？

香农的同事库尔贝克（Kullback）和莱布勒（Leibler）给出了答案——KL 散度：

KL 散度衡量的是用分布 q 来编码真实分布 p 时，多出来的平均编码长度。它也叫”相对熵”。

KL 散度有一个重要性质：它永远非负，且当且仅当 p = q 时为零。 这意味着两个分布越接近，KL 散度越小。

交叉熵：从 KL 散度到损失函数

把 KL 散度的公式拆开看：

其中：

• H(p) 是真实分布的熵（在训练过程中是固定不变的）
• H(p, q) 就是交叉熵：

关键洞察来了： 因为我们最小化的是，而 H(p) 是常数，所以：

这就是为什么交叉熵能作为损失函数——它本质上是在让我们的预测分布 q 尽可能接近真实分布 p。

分类问题中的交叉熵

在图像分类中，假设我们有一张猫的图片：

• 真实分布 p：猫 = 1，狗 = 0，鸟 = 0（one-hot 编码）
• 预测分布 q：猫 = 0.7，狗 = 0.2，鸟 = 0.1（Softmax 输出）

交叉熵损失为：

如果模型更自信，预测猫 = 0.95，那么损失变为：

模型预测越准确，交叉熵损失越小。 通过梯度下降不断减小交叉熵，模型就学会了把正确的类别概率推高。

为什么不是其他损失函数？

你可能会问：为什么不用均方误差（MSE）？

关键在于梯度的性质。交叉熵配合 Softmax 输出时，梯度恰好等于 预测值 – 真实值，这使得学习信号始终清晰且稳定：

而 MSE 在预测严重错误时梯度会趋于饱和（sigmoid/softmax 的饱和区），导致学习速度急剧下降。

总结

回顾一下这条优美的逻辑链：

1. 信息量：事件越不可能发生，信息量越大
2. 熵：随机变量的平均不确定性
3. KL 散度：用错误分布近似真实分布的额外代价
4. 交叉熵：KL 散度去掉常数项，恰好可作为损失函数

从1948年香农创立信息论，到今天深度学习无处不在的交叉熵损失——数学的力量在于，最优雅的理论往往最终成为最实用的工具。

下次当你看到训练集上的 loss 在下降时，不妨想一想：你的模型正在一步步减少预测分布与真实分布之间的 KL 散度。这不只是数字的变化，而是信息论七十多年前种下的种子，在今天开出的花。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：代码小铺代码小铺代码小铺《信息论与交叉熵：机器学习损失的数学来源》

版权声明

本站仅做备份收录，仅供研究与教学参考之用。
读者将信息用于其他用途的，全部法律及连带责任由读者自行承担，本站不承担任何责任。

ZONE.CI 全球网 | 安全领域涉猎者-乌云独行地带

ZONE.CI 全球网

安全领域涉猎者-乌云独行地带

信息论与交叉熵：机器学习损失的数学来源

信息论与交叉熵：机器学习损失的数学来源

平安守护，科技同行—红山瑞达亮相创之源公益日，助力筑牢网络安全防线！

平安守护，科技同行—红山瑞达亮相创之源公益日，助力筑牢网络安全防线！

校企合作｜山西两所职业学院莅临四叶草安全交流洽谈

校企合作｜山西两所职业学院莅临四叶草安全交流洽谈

一如既往贴心守护，网际思安伴您无忧度五一长假

一如既往贴心守护，网际思安伴您无忧度五一长假

国企、乙方、甲方：不同性质单位到底认哪些安全认证？

国企、乙方、甲方：不同性质单位到底认哪些安全认证？

你敢信，他们都来了！HPW白帽世界大会2026全议程发布

你敢信，他们都来了！HPW白帽世界大会2026全议程发布

针对中文用户的“SumatraPDF”供应链攻击

针对中文用户的“SumatraPDF”供应链攻击

【量子计算】Deutsch-Jozsa算法：第一次真正看到指数级量子优势

【量子计算】Deutsch-Jozsa算法：第一次真正看到指数级量子优势

【SRC实战】某985证书站实战案例

【SRC实战】某985证书站实战案例

第九届数字中国建设峰会数据发展理论与实践研究主题交流活动在福州举行

第九届数字中国建设峰会数据发展理论与实践研究主题交流活动在福州举行

信息论与交叉熵：机器学习损失的数学来源

信息论与交叉熵：机器学习损失的数学来源

文章总结：本文从信息论角度解释了机器学习中交叉熵损失的数学来源。文章首先介绍香农信息论中信息量与熵的概念，然后通过KL散度解释用错误分布近似真实分布的代价，最

04-300 评论

平安守护，科技同行—红山瑞达亮相创之源公益日，助力筑牢网络安全防线！

平安守护，科技同行—红山瑞达亮相创之源公益日，助力筑牢网络安全防线！

文章总结：红山瑞达科技公司于4月28日参与创之源公益日活动，通过网络安全知识竞答和AI换脸互动体验两大项目，向职场人群普及反诈防骗、数据保护等安全知识。活动采

04-300 评论

校企合作｜山西两所职业学院莅临四叶草安全交流洽谈

校企合作｜山西两所职业学院莅临四叶草安全交流洽谈

文章总结：山西两所职业学院到访四叶草安全开展校企合作交流，双方围绕网络安全人才培养、课程建设、产业需求对接等核心内容进行探讨。四叶草安全分享了网络安全行业现状

04-300 评论

一如既往贴心守护，网际思安伴您无忧度五一长假

一如既往贴心守护，网际思安伴您无忧度五一长假

文章总结：该文档为网际思安公司在2026年五一长假前发布的安全提示公告，核心内容围绕假期网络安全防护展开，强调公司将持续提供安全守护服务，建议用户注意防范节假

04-300 评论

ZONE.CI 全球网 | 安全领域涉猎者-乌云独行地带

安全领域涉猎者-乌云独行地带

ZONE.CI 全球网

评论：0 参与： 0

目录

ZONE.CI 全球网

安全领域涉猎者-乌云独行地带
ZONE.CI 全球网公众号