小米 MiMo-V2.5 系列開源:相較 GPT-5.4 的 1T 參數,具有更優的 token 效率

Gate 新聞訊息,4月27日——小米的 MiMo 團隊已在 MIT 授權下開源 MiMo-V2.5 系列大型語言模型,支援商業部署、持續訓練與微調。兩個模型都具備 100 萬 token 的上下文視窗。MiMo-V2.5-Pro 是一種純文字的專家混合 (MoE) 模型,總參數為 1.02 兆(trillion),啟用參數為 420 億;而 MiMo-V2.5 是原生多模態模型,總參數為 3100 億,啟用參數為 150 億,支援文字、圖像、影片與音訊理解。

MiMo-V2.5-Pro 目標鎖定複雜的代理(agent)與程式設計任務。在 ClawEval 基準測試中,它在每個任務軌跡約消耗 70,000 個 token 的情況下達成 64% 的 Pass@3——相較 Claude Opus、Gemini 3.1 Pro 與 GPT-5.4,token 減少 40% 到 60%。該模型在 SWE-bench Verified 上得分 78.9。在一項展示中,V2.5-Pro 能在 4.3 小時內、透過 672 次工具呼叫,獨立完成為北京大學編譯器課程專案開發的完整 SysY-to-RISC-V 編譯器,並在隱藏測試集上取得 233/233 的滿分。

MiMo-V2.5 專為多模態代理情境而設計,配備專用的視覺編碼器 (729 million parameters) 與音訊編碼器 (261 million parameters),在 Claw-Eval 的一般子集上得分 62.3。兩個模型採用結合滑動視窗注意力 (SWA) 與全域注意力 (GA) 的混合架構,並搭配 3 層的多 token 預測 (MTP) 模組以加速推論。模型權重可在 Hugging Face 取得。

在開源發布的同時,MiMo 團隊推出了「Orbit Quadrillion Token Creator Incentive Program(Orbit Quadrillion Token Creator 獎勵計畫)」,向全球使用者在 30 天內免費提供 100 兆 token。個別開發者、團隊與企業可透過計畫頁面申請,評估週期約為 3 個工作日;核准後的權益將以 Token Plans 或直接抵扣的形式分發,並與像 Claude Code、Cursor 等工具相容。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Microsoft 導入 Copilot 給 743,000 位 Accenture 員工

根據路透社報導,微軟正在向埃森哲所有 743,000 名員工全面推出 Microsoft 365 Copilot,這也是其迄今為止最大的企業部署。此舉擴大了埃森哲 2024 年的計畫,將 Copilot 提供給多達 300,000 名員工。 埃森哲調查

Crypto Frontier9分鐘前

DeepSeek 註冊資本增加 50%,創辦人梁文鋒持股升至 34%

Gate News 消息,4月28日——根據企查查數據,DeepSeek (Hangzhou Deepseek AI Basic Technology Research Co., Ltd.)註冊資本由1000萬元人民幣增加至1500萬元人民幣。創辦人梁文鋒的註冊資本出資額由100萬元人民幣增至510萬元人民幣

GateNews15分鐘前

Meta 為 AI 資料中心部署 1GW 以上太陽能與儲能

Meta 已根據《The Economic Times》報導,與 Overview Energy 以及 Noon Energy 簽署能源合約,以確保其人工智慧資料中心的電力容量。該公司預留最高至 1 gigawatt

Crypto Frontier19分鐘前

智譜 Z.ai 將 GLM Coding Plan 三倍配額促銷延長至 6 月 30 日

Gate News 訊息,4 月 28 日——智譜 Z.ai 宣布,將其 GLM Coding Plan 三倍配額促銷活動,從原定的 4 月 30 日截止日期延長至 6 月 30 日,涵蓋 GLM-5.1 與 GLM-5-Turbo 兩種模型。 該促銷活動可在美東時間次日 6:00 AM 至 2:00 AM 期間使用。GLM Coding Plan 是一項面向開發者的訂閱服務,讓使用者能在包括 Claude Code、Cursor 與 OpenCode 在內的程式工具中呼叫 GLM 模型。 三倍配額促銷最初於 3 月 16 日推出,當時的覆蓋範圍僅限於 GLM-5-Turbo;在 GLM-5.1 發布後,後續擴展至同時涵蓋兩種模型。

GateNews34分鐘前

台積電以雙倍節奏加速擴產,五座2nm晶圓廠將於2026年啟動量產

Gate News 消息,4月28日——根據台積電資深副總經理侯永清的說法,台灣積體電路製造公司 (TSMC) 正以過去歷史速度的兩倍加速擴產,以滿足來自人工智慧與高效能運算的需求大幅增長。該公司

GateNews40分鐘前

GitHub Copilot 自 6 月 1 日起切換為以代幣計費,每月費用不變

Gate 新聞訊息,4 月 28 日——GitHub 宣布所有 Copilot 方案將於 2026 年 6 月 1 日起切換為以代幣計費。現有的「高級請求」定價模式將被 GitHub AI Credits(AI 積分)取代,使用量將根據實際代幣消耗 ( 計算,包括輸入、輸出,以及快取代幣 ;費率將與各模型的公開 API 定價相匹配。

GateNews46分鐘前
留言
0/400
暫無留言