Gate 新聞訊息，4月24日 — DeepSeek 今天發布了 V4 模型卡，透過對昨日發布的 TileKernels 核心程式庫進行分析所提出的先前架構推測得到了驗證 (4月23日)。根據 Beating 的監測，已確認三個核心組件：mHC (Manifold-Constrained Hyper-Connections) 取代 ByteDance 原本的 HyperConnection，採用 Top-k 專家路由的 MoE 架構，以及 FP4+FP8 混合精度權重儲存。模型卡中未出現被預測的 Engram 條件記憶模組。

模型卡揭示了 TileKernels 未涵蓋的全新組件：混合注意力機制 (CSA + HCA) 推動 V4 的長上下文效率提升，使推理 FLOPs 僅達到 V3.2 在 1M 上下文窗口下的 27%，KV 快取降至 10%。訓練現在使用 Muon 優化器。

此次驗證展示了，生產級的核心程式實作如何在官方規格發布之前揭示底層模型架構。

View Source

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

騰訊開源 Hy3 預覽版，程式碼基準測試較前代提升 40%

AI 行業動態

騰訊於 4 月 23 日在 GitHub、Hugging Face 及 ModelScope 平台正式開源 Hy3 預覽版大型語言模型，並同步於騰訊雲端（Tencent Cloud）提供付費 API 服務。據 Decrypt 於 4 月 24 日報導，Hy3 預覽版自 1 月下旬啟動訓練，至發布日歷時不足三個月。

Market Whisper6分鐘前

如果未破產，FTX 投資組合價值 158 兆韓元

股票 AI 行業動態

FTX 這家集中式加密貨幣交易所因流動性短缺與資金外流，於 2022 年 11 月申請第 11 章破產保護；根據 Park 引用的分析，如果它沒有倒閉，本應持有約 158.796 兆韓元的投資價值。

Crypto Frontier9分鐘前

小米揭露 MiMo-V2-Pro 訓練細節：1T 模型參數，部署數千台 GPU

AI 行業動態

Gate 新聞訊息，4 月 24 日——小米大型語言模型團隊負責人羅福立在一場深入採訪中披露，MiMo-V2-Pro 模型總計擁有 1 兆（trillion）參數，訓練過程需要數千台 GPU。她指出，1T 規模代表達成性能接近 Claude Opus 4.6 等級所需的最低門檻，並取得下一階段 AI 代理的競爭性入場票。

GateNews23分鐘前

DeepSeek V4 在 Putnam-2025 取得滿分，並列與 Axiom 第一名（正式數學推理）

AI 行業動態

Gate 新聞訊息，4月24日——DeepSeek V4 已發布來自正式數學推理評估的結果，在 Putnam-2025 中取得滿分 120/120，與 Axiom 並列第一名。在使用 LeanExplore 與受約束取樣的實務模式下，V4-Flash-Max 在

GateNews31分鐘前

用什麼 AI 最顯身份地位？研究曝 Claude 用戶收入遠超同業，Meta AI 墊底

AI 行業動態

Epoch AI 的調查顯示，Claude 用戶多為高收入族群，80%年收超過10萬美元；Meta AI 收入分布最廣，36.5%在10萬以上，低收入佔比最高；Claude 價格上漲且分層計費，成本可能提高，Meta 入門較易。未來用哪款 AI 可能成為隱性身份標籤。

鏈新聞abmedia36分鐘前

V4-Pro 在內部自我測試中達到 67% 程式通過率，接近 Opus 4.5 的效能

AI 行業動態

Gate News 消息，4 月 24 日 — V4 已公開披露其 V4-Pro 模型的內部自我測試（dogfooding）數據。該公司從超過 50 位工程師收集了約 200 項真實世界的工程任務，涵蓋功能開發、錯誤修復、重構以及跨技術棧的診斷，包括

GateNews51分鐘前

留言

0/400

暫無留言