DeepSeek发布V4开源模型系列,参数达1.6T并采用MIT许可证

Gate News消息,4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型,权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型:V4-Pro 总参数达1.6万亿,且每token激活49亿,以及V4-Flash 总参数达2840亿,且每token激活130亿。两者都支持100万token的上下文窗口。

该架构带来三项关键升级:一种混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro在1M上下文下的推理FLOPs仅为V3.2的27%,用于在推理过程中存储历史信息的KV缓存 (VRAM) 也仅为V3.2的10%;用流形约束的超连接 (mHC) 替代传统的残差连接,以增强跨层信号传播的稳定性;并采用Muon优化器以实现更快的训练收敛。预训练使用了超过32万亿tokens的数据。

后训练采用两阶段方案:首先通过监督微调 (SFT) 和GRPO强化学习训练领域特定专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称在顶级代码基准上拥有最强的开源模型实力,并且在推理和智能体任务上与闭源前沿模型之间的差距显著缩小。V4-Flash-Max在足够的计算预算下实现Pro级推理性能,但在纯知识和复杂智能体任务上受限于参数规模。权重以混合FP4+FP8精度存储。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

DeepSeek V4 在 Putnam-2025 上取得满分成绩,与 Axiom 在形式化数学推理中并列第一

Gate News 消息,4月24日——DeepSeek V4 已发布来自形式化数学推理评测的结果,在 Putnam-2025 上获得满分 120/120,与 Axiom 并列第一。 在使用 LeanExplore 和受约束采样的实际模式下,V4-Flash-Max 在 Putnam-200 Pass@8 基准测试中得分 81.00,显著优于 Seed-2.0-Prover 35.50、Gemini 3 Pro 26.50 和 Seed-1.5-Prover 26.50。前沿模式的结果显示,V4 在 Seed-1.5-Prover 110/120 与 Aristotle 100/120 之前。 V4 采用混合的形式化-非形式化推理方法:非形式化推理生成候选自然语言解答,自我验证用于筛选结果,而形式化智能体在 Lean 中完成严格证明。前沿结果采用了大规模计算扩展,而实际模式分数更能反映标准部署能力。

GateNews7 分钟前

用什么 AI 最能彰显身份地位?研究揭露 Claude 用户收入远超同业,Meta AI 垫底

Epoch AI 的调查显示,Claude 用户多为高收入群体,80% 年收超过 10 万美元;Meta AI 收入分布最广,36.5% 在 10 万以上,低收入占比最高;Claude 价格上涨且分层计费,成本可能提高,Meta 入门较容易。未来用哪款 AI 可能成为隐性身份标签。

鏈新聞abmedia12 分钟前

V4-Pro 在内部自用测试中实现 67% 编码通过率,逼近 Opus 4.5 性能

Gate News 消息,4月24日——V4 已公开披露其 V4-Pro 模型的内部自用(dogfooding)数据。该公司从 50 多名工程师处收集了约 200 项真实的工程任务,覆盖特性开发、错误修复、重构以及跨技术栈的诊断,包括

GateNews26 分钟前

英国瞄准安特罗匹(Anthropic)人工智能以加强银行网络安全

英国正在与人工智能公司 Anthropic 合作,探索金融网络安全方面的一大步。早期讨论显示,政府可能会在银行和金融机构中部署 Anthropic 的先进 Claude Mythos 模型。此举旨在加强防御,以应对网络威胁

CryptoMeter io31 分钟前

中国知识产权局将 AI、半导体和脑机接口纳入快速通道保护计划

Gate News 消息,4月24日——中国国家知识产权局在4月24日宣布,将通过机构改革、强化服务以及扩大应用,为新兴技术建立全面的知识产权保护体系。该局将优化专利审查政策,在人工智能、半导体及相关领域的创新方面,提供多种路径,包括优先审查和加速审查。

GateNews38 分钟前

美国政府不挖矿而运行比特币节点,海军上将表示

一位资深海军上将已表示,美国政府正在积极在比特币网络上运行一个节点,同时故意避免参与挖矿活动。该披露表明,相关当局在区块链基础设施方面正采取更深入的角色,以进行监管并

Crypto Frontier54 分钟前
评论
0/400
暂无评论