虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

DeepSeek新突破:Engram模块破解Transformer记忆难题,V4架构或迎跃迁

2026-01-14来源:快讯编辑:瑞雪

近日,DeepSeek团队联合北京大学发布了一项突破性研究,提出了一种名为Engram的创新模块,旨在解决Transformer架构中长期存在的记忆瓶颈问题。该研究通过引入条件记忆机制,使模型在保持计算效率的同时显著提升了知识存储与检索能力,为大语言模型(LLM)的发展开辟了新路径。

当前主流的稀疏模型架构,如混合专家模型(MoE),虽通过条件计算降低了计算成本,但仍依赖大量参数模拟知识检索过程,导致效率低下。研究团队指出,Transformer缺乏原生知识查找机制,使得许多本应通过简单检索完成的任务被迫依赖复杂计算,既浪费资源又限制性能。针对这一问题,Engram模块通过将静态模式存储与动态计算分离,为模型提供了近似O(1)复杂度的确定性知识查找能力。

Engram的核心设计包含两大关键组件:基于哈希N-gram的稀疏检索机制和上下文感知门控系统。前者通过分词器压缩和确定性哈希函数,将局部上下文映射至预存储的记忆条目;后者则利用动态查询与记忆嵌入的交互,解决哈希冲突和多义词干扰问题。实验表明,该模块在实体识别、固定短语匹配等任务中表现出高度选择性激活,且行为可跨语言泛化。

研究团队通过系统实验验证了Engram与MoE的互补性。他们发现,当模型总参数固定时,合理分配MoE计算资源与Engram记忆容量存在最优比例,形成独特的"U型扩展法则"。在270亿参数规模下,Engram架构模型在严格等参数、等计算量条件下,较纯MoE基线在知识密集型任务(MMLU、CMMLU)中提升达4%,在推理、代码和数学任务(BBH、Humaneval、GSM8K)中提升更显著,最高达5%。

长上下文处理能力是Engram的另一重要优势。通过将局部依赖建模任务卸载至静态查找模块,模型得以保留更多注意力资源处理全局信息。在32K上下文窗口的实验中,Engram架构模型在长程检索和推理任务上展现出显著优势,尤其在等损失和等计算量设定下,性能全面超越MoE基线,甚至在仅使用82%计算量的极端设定下仍保持竞争力。

该研究的工程价值同样突出。Engram的确定性检索机制支持参数存储与计算资源的解耦,为模型优化提供了新思路。训练阶段可采用标准模型并行策略处理大规模嵌入表;推理阶段则可通过预取和重叠策略提升效率。这种设计使得模型在扩展内存容量时无需增加计算成本,为构建更大参数、更高吞吐的LLM提供了可行路径。

据悉,该研究主要由北京大学博士生Xin Cheng领衔完成。作为自然语言处理领域的新锐研究者,Xin Cheng已在NeurIPS、ACL等顶级会议发表多篇一作论文,专注于大语言模型与检索增强生成技术研究。此次提出的Engram架构,已被业界视为稀疏模型发展的重要里程碑,有望在下一代模型中得到广泛应用。

罗永浩力赞荣耀超轻薄新机,三星苹果折戟,轻薄旗舰新标杆来了?
此后就有消息称三星已经砍掉了Galaxy S26系列的超轻薄产品,而iPhone Air也大面积减产。安卓阵营第一个做超轻薄旗舰的是荣耀,目前这款机型已经正式官宣,将在1月19日正式发布,它就是荣耀Magic…

2026-01-14

小米潘九堂谈手机对标:模仿学习是常态,苹果谷歌也难逃“借鉴”
潘九堂认为,对标很常见的商业策略,就连苹果、谷歌等巨头也都是大量买+抄。 C科技联合创始人兼总编黄小文表示,今年可能所有手机厂商旗舰都叫ProMax,可以减少用户认知成本和手机厂商营销成本。 小米17系列是…

2026-01-14

科创AIETF鹏华589090开盘上扬1.34%,重仓股表现分化寒武纪领跌
来源:新浪基金∞工作室 1月13日,科创AIETF鹏华(589090)开盘涨1.34%,报1.283元。科创AIETF鹏华(589090)重仓股方面,寒武纪开盘跌1.65%,澜起科技涨0.00%,芯原股份涨0…

2026-01-14

iOS 26.3测试版来袭:“iPhone转安卓”工具上线,欧盟用户享新功能
2026年1月13日,苹果正式推送iOS 26.3全新测试版,新增“iPhone转安卓”换机工具。 iOS 26.3大幅简化了iPhone用户转向安卓设备的换机流程,用户只需将iPhone与安卓设备靠近,即可…

2026-01-13

vivo V70系列手机2月印度登场:蔡司索尼影像加持 携高通芯片亮相
IT之家 1 月 13 日消息,据外媒 smartprix 今日报道,行业内部人士 Yogesh Brar 透露,vivo 计划 2月中旬在印度推出 vivo V70 系列手机。 爆料称,该系列将推出两款不…

2026-01-13

Anthropic推出Claude Cowork:非开发者也能用AI助手高效处理文件任务
IT之家 1 月 13 日消息,Anthropic 美国当地时间 12 日宣布了 Claude Cowork,其相当于 Claude Code代理 / 智能体编码工具面向包括非开发者群体在内的所有人的衍生版…

2026-01-13

小米新机骁龙8E5大屏款配置揭秘:极窄直屏大电池,全能旗舰值得期待
IT之家 1 月 13 日消息,博主 @数码闲聊站 今日爆料了一款“骁龙 8E5 大屏机”的配置信息: 骁龙 8E5大屏机目前就是升级大大杯同款 LIPO 极窄四等边直屏,后置镜头设计同中杯不变,电池最大…

2026-01-13