DeepSeek 发布 V4 开源模型系列:1.6T 参数与 MIT 许可

Gate News 消息,4 月 24 日——DeepSeek 已在 MIT 授权下发布 V4 系列开源模型,权重现已在 Hugging Face 和 ModelScope 上提供。该系列包含两个 (MoE) 混合专家(Mixture-of-Experts)模型:V4-Pro 总参数 1.6 万亿、每 token 激活 49 亿,以及 V4-Flash 总参数 2840 亿、每 token 激活 13 亿。两者都支持 100 万 token 的上下文窗口。

该架构包含三项关键升级:混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro 在 100 万上下文下的推理 FLOPs 仅为 V3.2 的 27%,用于推理过程中存储历史信息的 KV cache (VRAM) 也仅为 V3.2 的 10%;用流形约束超连接 (mHC) 替代传统残差连接,以增强跨层信号传播稳定性;以及用于更快训练收敛的 Muon 优化器。预训练使用了超过 32 万亿个 token 的数据。

后训练采用两阶段策略:首先通过监督微调 (SFT) 和基于 GRPO 的强化学习训练领域专属专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称是最强的开源模型,拥有顶级编码基准,并在推理与智能体任务上显著缩小了与闭源前沿模型之间的差距。V4-Flash-Max 在足够的计算预算下达到 Pro 级推理性能,但在纯知识与复杂智能体任务上会受限于参数规模。权重以混合 FP4+FP8 精度存储。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

DeepSeek V4 在 Putnam-2025 取得滿分,並列與 Axiom 第一名(正式數學推理)

Gate 新聞訊息,4月24日——DeepSeek V4 已發布來自正式數學推理評估的結果,在 Putnam-2025 中取得滿分 120/120,與 Axiom 並列第一名。 在使用 LeanExplore 與受約束取樣的實務模式下,V4-Flash-Max 在

GateNews7分鐘前

用什麼 AI 最顯身份地位?研究曝 Claude 用戶收入遠超同業,Meta AI 墊底

Epoch AI 的調查顯示,Claude 用戶多為高收入族群,80%年收超過10萬美元;Meta AI 收入分布最廣,36.5%在10萬以上,低收入佔比最高;Claude 價格上漲且分層計費,成本可能提高,Meta 入門較易。未來用哪款 AI 可能成為隱性身份標籤。

鏈新聞abmedia12分鐘前

V4-Pro 在內部自我測試中達到 67% 程式通過率,接近 Opus 4.5 的效能

Gate News 消息,4 月 24 日 — V4 已公開披露其 V4-Pro 模型的內部自我測試(dogfooding)數據。該公司從超過 50 位工程師收集了約 200 項真實世界的工程任務,涵蓋功能開發、錯誤修復、重構以及跨技術棧的診斷,包括

GateNews26分鐘前

英國著眼 Anthropic AI 以強化銀行業網路安全

英國正透過與 AI 公司 Anthropic 合作,探索金融資安領域的一項重大舉措。早期討論顯示,政府可能會將 Anthropic 的先進 Claude Mythos 模型部署於各銀行與金融機構。此舉旨在加強防禦,因為網路威脅

CryptoMeter io31分鐘前

中國的知識產權局將AI、半導體與腦機介面納入加速保護計畫

閘道新聞訊息,4月24日——中國國家知識產權局於4月24日宣布,將透過制度改革、強化服務與擴大應用,為新興技術建立全面的知識產權保護。該局將

GateNews38分鐘前

美國政府在不進行挖礦的情況下運行比特幣節點,海軍少將表示

一名資深海軍上將指出,美國政府正在積極在比特幣網路上運行一個節點,同時刻意避免參與挖礦活動。該披露暗示,當局正針對監督而在區塊鏈基礎設施中扮演更深入的角色,並且

Crypto Frontier54分鐘前
留言
0/400
暫無留言