2026-01-14 23:49:24 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： DeepSeek联合北大发布新论文，提出LLMs条件记忆及Engram模块。该机制通过O(1)查找处理静态知识，补充MoE计算能力，在多项基准中显著提升推理与长上下文表现。Engram支持存储计算解耦，具备低推理开销，被视为下一代稀疏模型核心原语。 综合评分： 85 文章分类： AI安全

cover_image

DeepSeek发布梁文锋署名新论文

计算机与网络安全

2026年1月13日 17:57 山东

1月12日晚，DeepSeek发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》。论文由DeepSeek与北京大学合作完成，DeepSeek 创始人梁文锋参与署名，论文及配套代码已在 GitHub 开源。

这篇论文提出了“条件记忆”作为一种新的稀疏性维度，用以补充当前大语言模型中主流的条件计算（即混合专家，MoE）范式。论文指出，尽管MoE通过条件计算有效扩展了模型容量，但Transformer架构本身缺乏原生的知识查找机制，导致模型不得不通过动态计算来模拟静态知识的检索，这是一种低效的资源利用。为此，论文引入了Engram模块，该模块基于经典的N-gram嵌入思想进行了现代化改造，支持可扩展的O(1)查找，专门用于存储和检索静态的语言模式（如命名实体、习惯用语等）。通过形式化“稀疏分配”问题，论文发现了一种U形缩放定律，表明在MoE专家和Engram内存之间合理分配稀疏容量能够取得最优性能。基于该定律，论文将Engram扩展至270亿参数规模，并在多个基准测试中显著超越了同参数、同计算量的MoE基线。值得注意的是，Engram不仅提升了知识检索任务（如MMLU、CMMLU）的表现，还在通用推理（如BBH、ARC-Challenge）以及代码和数学推理（如HumanEval、MATH）等领域带来了更大增益。机制分析表明，Engram通过将静态模式的重建任务从早期层卸载，有效增加了网络可用于复杂推理的“深度”，同时释放了注意力机制处理全局上下文的能力，从而显著增强了长上下文性能（如LongPPL和RULER测试）。此外，Engram的确定性寻址机制允许在系统层面实现存储与计算的解耦，支持将庞大的参数表卸载到主机内存，且推理开销极低，体现了基础设施感知的高效设计。论文最终认为，条件记忆应成为下一代稀疏模型的核心建模原语之一。

本文完整文档已上传至星球

点这里自助下载

DeepSeek论文-基于可扩展查找的条件记忆：大语言模型稀疏性的新维度（中文）.pdf

DeepSeek论文-基于可扩展查找的条件记忆：大语言模型稀疏性的新维度（英文）.pdf

2025中央企业高质量数据集建设研究报告.pdf

开源大模型法律风险及防范研究报告（2025）.pdf

加好友进群

–

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：计算机与网络安全《DeepSeek发布梁文锋署名新论文》