每日更新

梁文峰署名DeepSeek新文解析:内存与计算分离 – 新京报

1 月 12 日下午,DeepSeek 发表梁文峰署名的新论文,题为《Conditional Memory via Scalable Search: A New Sparsity Axis for Large Language Models》。这也是 DeepSeek 团队自 2026 年初以来的第二篇重大论文。此前,在 1 月 1 日发表的论文中,DeepSeek 提出了一种名为“mHC”(字面意思是“流形约束超连接”)的框架,可以有效解决训练大型模型时的稳定性问题。在今天发表的论文中,DeepSeek 和北京大学提出了“条件记忆”的概念,直接针对当前 Transformer 大规模语言模型基础设施在知识检索方面的低效率和计算能耗问题。在这篇文章中,DeepSeek通过创新的架构提供了一种新的模型扩展技术路径。ture Engram(内存追踪)。用一个简单的比喻来理解,DeepSeek 设计了一种新的架构,将“条件记忆”和“大型模型的“问题”:简单的问题需要复杂的推理,往往被“遗忘”。许多大型AI模型的用户在使用时都发现了一个现象。也就是说,AI有时会“忘记”自己说过的话。对于这个话题,一些经常使用AI聊天的用户曾向记者表示,AI可以通过再次“提醒”人们来反复提醒人们。 ChatGPT 等应用程序也对此进行配置,以允许用户在“长期内存”中存储更重要的信息。然而,这一切都只是“治标”,“无助于解决根本原因”。其原因在于,大规模语言模型所依赖的“上下文窗口”与工作记忆有着本质的不同,根据一篇题为《大型语言模型确实美国约翰·霍普金斯大学和中国人民大学的研究团队于2025年3月发表了《不具备类人工作记忆》(LLM)。研究人员进行的测试表明,当模型处理五轮多步逻辑推理任务时,会丢失重要信息。长文本生成的场景往往会偏离预先建立的人物关系和情节线索。在实际应用中,这种缺陷可以无限增长。例如,在企业客户中在医疗咨询场景中,模型无法记住用户的个人需求,在代码生成场景中,文件之间的函数调用逻辑可能会令人困惑,原因是在大规模模型从“通用工具”到“垂直专用系统”的过程中。多次交互,一开始输入的重要信息随着交互次数的增加而逐渐减少,最终被新信息覆盖。这种“反应然后忘记过去”现象的本质是模型的短期记忆无法有效转化为长期可用的知识。另一方面,在集中注意力计算模式下,内存存储和逻辑推理共享计算资源,导致它们之间存在自然资源争夺。模型很难同时“记住更多信息”和“准确完成推理”。在此背景下,DeepSeek一贯保持“省钱”风格,并认识到算力消耗问题。梁文峰的一篇新文章指出,语言建模本质上涉及两种类型的子任务。一是组合推理,它基于动态和深度计算。另一个是寻找知识楔子。它针对的是相对静态的内容,例如命名实体,并且理论上可以通过简单的搜索更有效地处理。然而,现有的 Transformer 架构没有原生搜索组件。当发现静态信息时,往往需要重复调​​用深层网络进行重构,进一步加剧算力浪费,增加推理成本。 DeepSeek 在其文章中指出,当前的传统模型在其内部运作中仍然存在明显的低效率问题。虽然大量的固定知识和通用语言模式不需要复杂的推理,但模型在推理过程中往往需要跨多层计算重建相关信息,导致与内存相关的操作消耗大量计算能力。这个问题对于长文本和知识密集型任务最为明显,其中静态信息的重复重建会增加推理能力ce 开销并延长推理链接。首创MoE+Engram稀疏双轴架构,实现分工和“推理+搜索”协作。那么我们如何解决上面的问题呢? DeepSeek 文章称,研究人员首次在混合专家模型(MoE)中使用条件内存作为条件计算的补充维度,并提出了计算和内存稀疏双轴的设计思想,这也是本研究的核心创新点。所谓的“条件记忆”是指模型可以根据输入中的局部上下文模式在恒定时间内从大规模参数化记忆中检索和融合静态知识表示。这避免了推理过程中通过深度计算重复重建高频建模信息,类似于人类在面对熟悉的知识时直接调用而不是重新推导它。 Engram 架构 S 的示意图来源:DeepSeek 文章截图 具体来说,条件记忆通过 Engram(记忆痕迹)模块实现静态知识存储和动态计算的分离,实现静态模式下的常数时间 O(1) 搜索。其核心逻辑在于语言建模。两类子任务之间的分工。 MoE 专注于处理需要深入思考的任务。对于复杂的推理任务,Engram依靠条件记忆机制快速获取静态知识,结构性地优化计算资源的分配,修改传统模型利用计算模拟记忆的低效模型。当大约 20% 到 25% 的稀缺参数预算分配给 Engram,其余部分留给 MoE(75% 到 80%)时,模型性能最佳。这种稀疏设计有两个主要优点。首先,计算功耗显着降低,模型运行效率更高,因为静默内存资源不会占用计算资源。其次,内存容量扩展,稀疏存储模式可以支持大规模知识存储,可以克服传统注意力窗口的物理限制。本文介绍了这种新方案提高的准确性。对于长上下文检索,研究人员使用了两个行业认可的长上下文评估基准。实验结果表明,Engram-27B 在上下文长度为 32k 的多个大海捞针 (NIAH) 任务上显着优于 MoE 基准。多个查询的 NIAH 准确率从 84.2% 提高到 97.0%,变量跟踪从 77.0% 提高到 89.0%。这项研究的代码现已开源。 DeepSeek 团队在论文末尾表示:“我们相信条件记忆函数是下一代稀疏模型中必不可少的建模原语。”这句话的背后,是业界对大规模建模技术演进方向的共识ing。当参数竞争进入瓶颈期时,稀疏设计成为提高模型效率和功能的主要路径,条件存储成为稀疏模型在存储领域的重大突破。鉴于业界猜测下一代 DeepSeek 将在农历新年之前发布,本文的发表具有重要意义。本文提出的技术范式也为大规模模型底层架构的创新提供了新的思路。新京报贝壳财经记者 罗一丹 实习生 郭文华 主编 岳彩舟 编辑 付春明

发表评论

邮箱地址不会被公开。 必填项已用*标注