文章总结: DeepSeek联合北大发布新论文,提出LLMs条件记忆及Engram模块。该机制通过O(1)查找处理静态知识,补充MoE计算能力,在多项基准中显著提升推理与长上下文表现。Engram支持存储计算解耦,具备低推理开销,被视为下一代稀疏模型核心原语。 综合评分: 85 文章分类: AI安全
DeepSeek发布梁文锋署名新论文
计算机与网络安全
2026年1月13日 17:57 山东
1月12日晚,DeepSeek发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》。论文由DeepSeek与北京大学合作完成,DeepSeek 创始人梁文锋参与署名,论文及配套代码已在 GitHub 开源。
这篇论文提出了“条件记忆”作为一种新的稀疏性维度,用以补充当前大语言模型中主流的条件计算(即混合专家,MoE)范式。论文指出,尽管MoE通过条件计算有效扩展了模型容量,但Transformer架构本身缺乏原生的知识查找机制,导致模型不得不通过动态计算来模拟静态知识的检索,这是一种低效的资源利用。为此,论文引入了Engram模块,该模块基于经典的N-gram嵌入思想进行了现代化改造,支持可扩展的O(1)查找,专门用于存储和检索静态的语言模式(如命名实体、习惯用语等)。通过形式化“稀疏分配”问题,论文发现了一种U形缩放定律,表明在MoE专家和Engram内存之间合理分配稀疏容量能够取得最优性能。基于该定律,论文将Engram扩展至270亿参数规模,并在多个基准测试中显著超越了同参数、同计算量的MoE基线。值得注意的是,Engram不仅提升了知识检索任务(如MMLU、CMMLU)的表现,还在通用推理(如BBH、ARC-Challenge)以及代码和数学推理(如HumanEval、MATH)等领域带来了更大增益。机制分析表明,Engram通过将静态模式的重建任务从早期层卸载,有效增加了网络可用于复杂推理的“深度”,同时释放了注意力机制处理全局上下文的能力,从而显著增强了长上下文性能(如LongPPL和RULER测试)。此外,Engram的确定性寻址机制允许在系统层面实现存储与计算的解耦,支持将庞大的参数表卸载到主机内存,且推理开销极低,体现了基础设施感知的高效设计。论文最终认为,条件记忆应成为下一代稀疏模型的核心建模原语之一。
本文完整文档已上传至星球
点这里自助下载
DeepSeek论文-基于可扩展查找的条件记忆:大语言模型稀疏性的新维度(中文).pdf
DeepSeek论文-基于可扩展查找的条件记忆:大语言模型稀疏性的新维度(英文).pdf
2025中央企业高质量数据集建设研究报告.pdf
开源大模型法律风险及防范研究报告(2025).pdf
加好友进群
–
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:计算机与网络安全 《DeepSeek发布梁文锋署名新论文》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论