DeepSeek最新论文mHC:流形约束超连接

admin 2026-01-04 01:46:45 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: DeepSeek提出mHC框架,将超连接残差映射投影到Birkhoff多面体,恢复恒等映射稳定性,配合非负约束与内核融合、重计算、DualPipe调度等优化,在3B-27B模型预训练中实现损失平滑、梯度受控且下游任务全面优于HC,验证大规模可扩展性。 综合评分: 92 文章分类: AI安全,安全工具,安全建设,技术标准,解决方案


cover_image

DeepSeek最新论文 mHC:流形约束超连接

原创

计算机与网络安全

计算机与网络安全

2026年1月2日 18:17 山东

该论文提出了“流形约束超连接”(Manifold-Constrained Hyper-Connections,简称 mHC),作为一种对现有超连接(Hyper-Connections,HC)方法的改进与泛化框架。HC 通过扩展残差流的宽度并多样化连接模式,提升了模型性能,但也因其无约束性质破坏了残差连接固有的恒等映射特性,导致训练不稳定、信号爆炸或消失,并引入显著的内存访问开销,限制了其在大规模训练中的可扩展性。针对这些问题,mHC 的核心思想是将 HC 中的残差连接空间投影到一个特定流形上,以恢复恒等映射的稳定性,同时通过基础设施优化保证计算效率。具体而言,mHC 利用 Sinkhorn-Knopp 算法将残差映射矩阵投影到 Birkhoff 多面体上,使其成为双随机矩阵,从而确保行和列之和均为 1,进而保持特征均值不变、抑制信号幅度波动,并在多层组合中仍保持该性质。

在方法实现上,mHC 除了对残差映射施加流形约束外,还对输入和输出映射施加非负约束,以防止信号抵消。为进一步提升系统效率,论文设计了多项基础设施优化措施:通过内核融合将多个计算步骤合并,减少内存带宽压力;采用选择性重计算策略降低激活内存占用;在 DualPipe 调度中重叠通信与计算,减轻流水线并行中的通信开销。实验部分基于语言模型预训练展开,涵盖 3B、9B 和 27B 等不同规模的模型。结果显示,mHC 在保持 HC 性能优势的同时,显著提升了训练稳定性,表现为损失曲线平滑、梯度范数受控,且在多类下游评测任务(如 BBH、DROP、MMLU 等)上一致优于基线模型和原始 HC。扩展性实验进一步表明,mHC 在不同计算规模和训练步数下均能维持稳定的性能提升,证实其适用于大规模模型训练。文末指出,mHC 作为一个灵活框架,未来可探索更多流形约束形式,以平衡模型表达力与训练稳定性,并为宏观网络拓扑设计提供新的研究方向。

6200+人工智能(安全)文档已上传至星球

点这里自助下载

DeepSeek论文 mHC:流形约束超连接(中文).pdf

DeepSeek论文 mHC:流形约束超连接(英文).pdf

人工智能网络安全框架规范(中文).pdf

人工智能网络安全框架规范(英文).pdf

加好友进群


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:计算机与网络安全 计算机与网络安全《DeepSeek最新论文 mHC:流形约束超连接》

企业SRC如何月入过万 网络安全文章

企业SRC如何月入过万

文章总结: 本文分享企业SRC实战经验。信息收集建议利用搜索引擎语法及域名变体发现隐藏资产。挖掘方面提出关注排序注入、使用CaA插件Fuzz参数、被动扫描高危接
评论:0   参与:  0