在DeepSeek-R1发布一周年之际,新模型「MODEL1」的专案名在开源社群出现。近日,DeepSeek官方在GitHub更新了一系列FlashMLA代码,专案文件有数十处都提到了此前未公开的MODEL1大模型识别码。
第一财经报导,在专案中,MODEL1标识符与已知的现有模型 V32(DeepSeek-V3.2)并列出现。根据代码上下文,外界推测MODEL1很可能是代表不同于现有架构的新模型。但具体是V4模型还是推理模型R2,看法不一,也有开发者认为可能是V3系列的最终版。
FlashMLA是DeepSeek独创的、针对辉达Hopper架构GPU深度调整的软体工具,是DeepSeek模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少记忆体占用,尽可能发挥GPU硬体。
根据开发者的分析,MODEL1与V32在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支援等方面。新架构可能在记忆体优化和计算效率上进行针对性设计。
结合目前模型文件结构来看,MODEL1很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证。
此前已有报导指出,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过市场上其他顶级模型。目前DeepSeek并未对此进行任何回应。
DeepSeek团队近期陆续发布两篇技术论文,介绍新训练方法「优化残差连接(mHC)」,及受生物学启发的「AI记忆模块(Engram)」。DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。

$(document).ready(function () {nstockStoryStockInfo();});