Gate News 消息,4月22日——普林斯顿大学 PhD 学生 Yifan Zhang 在 X 上披露了 DeepSeek V4 的完整技术规格,此前于 4月19日进行了预览。V4 拥有 1.6 万亿(1.6 trillion)总参数,并提供轻量化变体 V4-Lite,参数规模为 2850 亿(285 billion)。
该模型采用 DSA2 注意力机制,该机制结合了 DeepSeek 先前在 V3.2 中的 DSA (DeepSeek Sparse Attention) 以及 NSA (Native Sparse Attention)(并配备 512 维的头部嵌入),再配套使用稀疏多查询注意力 (MQA) 与滑动窗口注意力 (SWA)。MoE (Mixture of Experts) 层包含 384 位专家,每次前向传递激活 6 位,使用 Fused MoE Mega-Kernel。残差连接采用 Hyper-Connections 架构。
首次披露的训练细节包括:使用 Muon 优化器 (applying Newton-Schulz orthogonalization to momentum updates),32K token 的预训练上下文窗口,以及在强化学习期间使用 GRPO (Group Relative Policy Optimization) 并进行 KL 散度修正。最终上下文窗口扩展至 100 万(1 million)tokens。该模型为仅文本模型。
Zhang 并未受雇于 DeepSeek,公司也尚未对所披露信息作出官方评论。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
OpenAI 发布开源隐私过滤器模型,用于检测与脱敏 PII
摘要:OpenAI 的隐私过滤器是一种开源、可在本地运行的模型,用于检测并在文本中脱敏个人身份信息(PII)。它支持大上下文,识别多种 PII 类型,并旨在用于注重隐私的工作流程,例如数据准备、索引、日志记录和内容审核。
OpenAI 的隐私过滤器是一种在本地运行的开源模型 (128k-token 上下文),可检测并在文本中脱敏个人身份信息(PII),用于隐私工作流程,涵盖联系方式、金融和凭据数据。
GateNews28 分钟前
OpenAI 计划在 2030 年前部署 30GW 算力
OpenAI 计划在 2030 年前实现 30GW 的算力,以满足不断增长的 AI 需求,其中已完成 10GW 目标中的 8GW(对应 2025 年)。这次扩张表明了一项扩展基础设施的战略,以支撑下一代 AI 的开发与部署。
OpenAI 打算在 2030 年前达到 30GW 的算力,以适应日益增长的 AI 需求,且已完成 2025 年 10GW 目标中的 8GW。此举体现了为支撑下一代 AI 的开发与部署而对基础设施进行战略性扩张。
GateNews28 分钟前
360 AI 漏洞发现代理发现近 1,000 个零日漏洞,与 Mythos 竞争
360 Digital Security 的 AI 驱动代理声称已发现约 1,000 个新的漏洞,包括 Office 和 OpenClaw;AI 现在是发现与利用链预备的核心,媲美 Mythos。
摘要:据彭博援引的一份报告称,360 Digital Security Group 的 AI 驱动漏洞发现代理在近几个月识别出近 1,000 个此前未知的漏洞,其中包括 Microsoft Office 和 OpenClaw 框架。该公司表示,AI 已成为漏洞发现的核心引擎,并宣布了一款 AI 工具以加速构建利用链。Benincasa 依据 Natto Thoughts 对该公司中文公告的解读,将 360 描述为 Anthropic 的 Mythos 的竞争对手。
GateNews33 分钟前
Anthropic首席执行官赴白宫破冰:与幕僚长、贝森特会商 Mythos
华尔街日报称,Anthropic 首席执行官 Amodei 4/17 白宫密会,聚焦 Mythos 的国安边界与负责任部署;白宫称会议具建设性,市场视为关系解冻。核心分歧是军方要 Claude 一切合法用途,Anthropic 坚持自家可接受使用政策裁量。双方均表示将持续对话,5月 Mythos 上线前再谈。
鏈新聞abmedia2小时前
Google Ironwood TPU:10 倍性能 + 四家合作夥伴对抗 Nvidia
根据 Bloomberg 深度报道与 Google 官方公告,Google 于 4 月 22 日正式扩张自研 AI 晶片阵容:推理专用 Ironwood(第七代 TPU)在 Google Cloud 全面供货,并同步启动与 Broadcom、MediaTek、Marvell、Intel 四家伙伴的下一代设计合作,目标是以定制晶片供应链正面挑战 Nvidia 在 AI 算力市场的主导地位。
Ironwood:第七代 TPU,首次专为推理设计
Ironwood 是 Google TPU 系列第七代产品,也是首款在“训练推理分流”策略下的推理专用晶片。Google 揭露的规格:单晶片峰值效能为 T
鏈新聞abmedia2小时前
DeepSeek 洽谈首轮外部融资、估值 200 亿美元:中国 AI 估值新高
根据 彭博 4 月 22 日报道(引 The Information 独家),中国 AI 新创 DeepSeek 正在洽谈首轮外部融资,估值达到 200 亿美元。这是 DeepSeek 自 2023 年成立以来首次对外募资,过去完全由量化对冲基金 High-Flyer Capital Management 通过内部供资。200 亿美元估值也是中国 AI 新创首次进入“百亿美金估值”下半段的里程碑。
融资规模与资金用途
DeepSeek 寻求至少 3 亿美元的首轮融资,200 亿美元估值较稍早 4 月 17 日 The Information 首次披露的“100 亿美元以上”估值再翻倍
鏈新聞abmedia2小时前