据 IT之家 1 月 21 日报道,The Information 本月早些时候爆料称,DeepSeek 将在今年 2 月中旬春节期间推出具有更强大编码能力的新一代旗舰 AI 模型 DeepSeek V4。 1 月 20 日,DeepSeek-R1 发布一周年,开发者发现 DeepSeek 在 GitHub 上更新了一组 FlashMLA 代码,114 个文件中有 28 个地方提到了未知的大模型标识符“MODEL1”。该标识符可以与已知的现有模型“V32”(即 DeepSeek-V3.2)结合或单独引用。基于代码上下文分析,“MODEL1”可能代表与现有架构不同的新模型。开发者分析认为,MODEL 1 与 V32 之间存在重要的技术差异,主要体现在值缓存键(KV)的设计、分散处理方式以及对 FP8 数据格式解码的支持上。这些差异表明e认为新架构的设计可能侧重于内存优化和计算效率。此前,DeepSeek研究团队还发表了两篇技术论文,分别介绍了一种名为“优化残差连接”(mHC)的新训练方法和一种受生物启发的AI记忆模块(Engram)。此举让用户猜测 DeepSeek 会将这些最新研究成果整合到其正在开发的新模型中。敬请关注。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传,并予以发布。
欢迎访问985猎奇研究所,探索黑暗传送门的神秘与魅力!