虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

DeepSeek开源新架构Engram:梁文锋领衔,实习生参与,或推动AGI发展

2026-01-14来源:快讯编辑:瑞雪

近日,人工智能领域迎来一项重要突破——DeepSeek团队提出了一种名为Engram的新型“条件记忆”机制,为混合专家模型(MoE)的发展开辟了新路径。该机制旨在让MoE模型在保持海量参数的同时,更高效地处理语言信息,实现性能与成本的双重优化。

传统MoE模型通过稀疏激活机制扩展模型容量,但存在路由成本高、训练不稳定等问题。DeepSeek团队观察到,现有Transformer架构缺乏真正的知识检索机制,导致模型不得不重复计算常见的事实性内容,如固定表达、历史名词等,造成计算资源的浪费。为此,他们提出将静态知识存储与动态计算解耦,通过外接记忆库提升模型效率。

Engram架构的核心创新在于引入条件记忆模块,该模块通过分词器压缩、多头哈希、上下文感知门控等技术,构建了可扩展的静态知识库。实验表明,在相同算力条件下,Engram-27B模型在32768个token的长上下文任务中,RULER基准测试性能超越同参数量MoE模型,且训练计算量减少18%。更引人注目的是,其1000亿参数记忆表卸载后,H800硬件推理吞吐量降幅不足3%,展现了极高的系统效率。

研究团队通过大量实验验证了Engram与MoE的互补性。当资源分配比例为75%-80%给MoE、20%-25%给Engram时,模型性能达到最优。进一步扩展记忆容量发现,验证损失持续稳定下降,且性能提升严格遵循幂律分布,这为模型的可预测扩展提供了新思路。相比传统记忆方法,Engram在知识密集型任务和通用推理任务中均表现出更显著的优势。

机制分析显示,Engram模块在模型浅层效果最佳,能够尽早卸载局部模式重建任务,使深层网络专注于复杂推理。功能敏感性测试表明,关闭Engram会导致事实性知识任务性能灾难性下降,而阅读理解任务几乎不受影响,这验证了其作为知识存储主要仓库的角色。门控机制激活分析进一步揭示,Engram在处理多词实体、固定短语等静态模式时自动启用,与注意力机制形成有机互补。

与外部记忆检索增强(RAG)相比,Engram将知识内化于参数化记忆表中,实现了更低的延迟和更强的知识一致性。该架构还支持高效的硬件优化,通过预取和层次化存储策略,能够扩展至超大规模记忆而保持系统稳定性。研究团队认为,这种解耦设计为知识蒸馏提供了新范式,未来可通过单独更新记忆表来修正模型知识,无需昂贵的微调过程。

荣耀500 Pro携手泡泡玛特MOLLY 20周年限定礼盒来袭 1月19日沉浸式体验开启
2026年1月14日,荣耀手机官方微博发布消息,荣耀500 Pro MOLLY20周年限定版礼盒与泡泡玛特旗下IP“MOLLY”联动,1月19日19:30发布。 据了解,该新品手机礼盒定位为“行业首款深度潮…

2026-01-14

DeepSeek携手北大发布新论文,“条件记忆”亮相并开源记忆模块Engram
【太平洋科技】1 月 13 日消息,据《科创板日报》报道,DeepSeek 于 12 日晚发布最新研究论文《ConditionalMemory via Scalable Lookup: A New Ax…

2026-01-14

硬装后首添大件!米家净烟机Pro多维评测,看它能否成厨房新宠?
1. 净烟效果显著:动态微粒捕集技术搭配14m/s超高风速和1200Pa强静压,能够从源头高效捕集油烟、异味和PM2.5等污染物,实现油烟零逃逸,让厨房空气真正变得清爽洁净,开放式厨房也不担心油烟四逸,让米…

2026-01-14

苹果布局折叠屏领域,拆解OPPO研究折痕,iPhone Fold能否成新旗舰?
这一策略标志着苹果在折叠屏手机领域的正式布局,iPhone Fold将成为其核心产品之一。此前关于iPhone Fold的设计传闻称其将实现“无折痕”效果,但知名博主定焦数码近日透露,网上流传的无折痕渲染图…

2026-01-14

小米17系列新机动态:17 Max将至 17 Air取消 折射市场新趋势
如果你就是对类似iPhone Air的手机感兴趣,那么接下来还有荣耀Magic8 Pro Air、moto X70 AirPro,另外还有开售有一段时间的华为Mate70 Air,这款手机比较特别,因为它…

2026-01-13