1月13日消息,今日凌晨,DeepSeek 开源全新架构模块「Engram」,并同步发布技术论文,署名作者中再次出现梁文锋。据悉,Engram 模块通过引入可扩展的查找式记忆结构,为大模型提供了区别于传统 Transformer 与 MoE 的全新稀疏性维度。
DeepSeek 在论文中指出,当前主流大模型在处理两类任务时存在结构性低效:一类是依赖固定知识的「查表式」记忆,另一类是复杂推理与组合计算。传统 Transformer(无论 Dense 或 MoE)均需通过多层注意力与 MLP 重建这些静态模式,导致计算资源被大量消耗在「重复构造已知模式」上。
Engram 的核心机制是基于现代化哈希 N-Gram 嵌入的 O(1) 查找式记忆。模块会对输入 Token 序列进行 N-Gram 切片,并通过多头哈希映射到一个规模可扩展的静态记忆表中,实现常数时间的检索。
论文强调,这种查找与模型规模无关,即便记忆表扩展至百亿级参数,检索成本仍保持稳定。与 MoE 的条件计算不同,Engram 提供的是「条件记忆」。模块会根据当前上下文隐向量决定是否启用查找结果,并通过门控机制与主干网络融合。
论文显示,Engram 通常被放置在模型早期层,用于承担「模式重建」职责,从而释放后续层的计算深度用于复杂推理。DeepSeek 在 27B 参数规模的实验中,将部分 MoE 专家参数重新分配给 Engram 记忆表,在等参数、等算力条件下,模型在知识、推理、代码与数学任务上均取得显著提升。
在 X 平台上,相关技术讨论认为 Engram 的机制有效减少了模型早期层对静态模式的重建需求,使模型在推理部分表现得更「深」。部分开发者指出,这种架构让大规模静态记忆得以脱离 GPU 存储限制,通过确定性寻址实现主机内存预取,从而在推理阶段保持低开销。多位观察者推测,Engram 很可能成为 DeepSeek 下一代模型「V4」的核心技术基础。
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 50万亿天量存款将到期
- 山东新设立4所大学
- 刘强东腊八下单万件年货送老乡
- 肯德基回应涨价
- “一人公司”的风吹到了深圳
- 董明珠卸任 格力电子元器件公司换帅
- 在广东发现人家的高级晾衣法,做法太高明了,后悔没早看到!
- 防滑砖选什么牌子好?现在客厅流行什么瓷砖,瓷砖品牌TOP6榜单揭晓
- 20款中古风衣柜书桌一体设计,千万别错过!
- 拒绝土味公主风!2026受欢迎的粉色儿童房长这样
- 门窗十大品牌 2026年广东门窗十大品牌排行榜发布,速来围观!
- 太原人注意!燃气灶旁四类物品千万不要放!
- 齐河活动地贴定制!把地面变成您的黄金广告位~
- 案例分享丨装饰“一棵祈愿树”,CELINE 借差异化新春叙事回应集体情绪
- 值得购买的吸顶灯品牌,家用护眼优先
- 要让家越来越旺,藏在日常里的这几个门道,家家都能做到
- 2026最新徐州瓷砖空鼓维修公司推荐:就选艾家瓷砖空鼓维修公司
- 今年北京将提供不少于10万个高校毕业生就业岗位
- 寒假将至,校长致班主任的一封信