2026-01-04 01:46:45 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： DeepSeek提出mHC框架，将超连接残差映射投影到Birkhoff多面体，恢复恒等映射稳定性，配合非负约束与内核融合、重计算、DualPipe调度等优化，在3B-27B模型预训练中实现损失平滑、梯度受控且下游任务全面优于HC，验证大规模可扩展性。 综合评分： 92 文章分类： AI安全,安全工具,安全建设,技术标准,解决方案

cover_image

DeepSeek最新论文 mHC：流形约束超连接

原创

计算机与网络安全

2026年1月2日 18:17 山东

该论文提出了“流形约束超连接”（Manifold-Constrained Hyper-Connections，简称 mHC），作为一种对现有超连接（Hyper-Connections，HC）方法的改进与泛化框架。HC 通过扩展残差流的宽度并多样化连接模式，提升了模型性能，但也因其无约束性质破坏了残差连接固有的恒等映射特性，导致训练不稳定、信号爆炸或消失，并引入显著的内存访问开销，限制了其在大规模训练中的可扩展性。针对这些问题，mHC 的核心思想是将 HC 中的残差连接空间投影到一个特定流形上，以恢复恒等映射的稳定性，同时通过基础设施优化保证计算效率。具体而言，mHC 利用 Sinkhorn-Knopp 算法将残差映射矩阵投影到 Birkhoff 多面体上，使其成为双随机矩阵，从而确保行和列之和均为 1，进而保持特征均值不变、抑制信号幅度波动，并在多层组合中仍保持该性质。

在方法实现上，mHC 除了对残差映射施加流形约束外，还对输入和输出映射施加非负约束，以防止信号抵消。为进一步提升系统效率，论文设计了多项基础设施优化措施：通过内核融合将多个计算步骤合并，减少内存带宽压力；采用选择性重计算策略降低激活内存占用；在 DualPipe 调度中重叠通信与计算，减轻流水线并行中的通信开销。实验部分基于语言模型预训练展开，涵盖 3B、9B 和 27B 等不同规模的模型。结果显示，mHC 在保持 HC 性能优势的同时，显著提升了训练稳定性，表现为损失曲线平滑、梯度范数受控，且在多类下游评测任务（如 BBH、DROP、MMLU 等）上一致优于基线模型和原始 HC。扩展性实验进一步表明，mHC 在不同计算规模和训练步数下均能维持稳定的性能提升，证实其适用于大规模模型训练。文末指出，mHC 作为一个灵活框架，未来可探索更多流形约束形式，以平衡模型表达力与训练稳定性，并为宏观网络拓扑设计提供新的研究方向。

6200+人工智能（安全）文档已上传至星球

点这里自助下载

DeepSeek论文 mHC：流形约束超连接（中文）.pdf

DeepSeek论文 mHC：流形约束超连接（英文）.pdf

人工智能网络安全框架规范（中文）.pdf

人工智能网络安全框架规范（英文）.pdf

加好友进群

–

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：计算机与网络安全计算机与网络安全《DeepSeek最新论文 mHC：流形约束超连接》