GLM-5.1讓開源模型第一次在長時間工程任務上站穩腳跟

robot
摘要生成中

開源模型開始在長時間任務上較真了

OpenRouter宣布集成GLM-5.1,把話題從"參數有多大"拉到了"能連續幹多久"。GLM-5.1在沒有人盯著的情況下對向量資料庫優化跑了8小時,迭代600多次,性能提升6倍。這改變了開源模型的定位:不再只是便宜的替代品,在工程類工作流程裡可能更能打——特別是Claude Opus 4.6這類閉源模型經常試幾下就不再改進了。Hugging Face高層幫著宣傳,但推文基本沒提算力成本的事。

反應還是老樣子,兩極分化:

  • 做產品的人在Twitter上叫好,LMSYS和Ollama強調MIT許可證好改好定制;
  • Reddit那邊覺得"沒獨立測評就是吹";
  • Vercel和Together.ai的部署說明生態確實對Agent工具有興趣;
  • 地緣政治不確定性在漲,有些企業可能會加快自托管開源來躲合規風險。

幾個值得注意的點:

  • 閉源API還是更便宜:GLM-5.1有754B參數,推理硬體要求很高,中型公司玩不起。但這也許能催生Serving方面的創新。
  • 榜單好看,推理不穩:SWE-Bench Pro拿了58.4%看著不錯,但GPQA Diamond只有86.2%,Gemini是94.3%。"全球第三"這個包裝,做通用應用的團隊不太會買帳。
  • 獨立開發者試起來更快了:接入OpenRouter之後實驗門檻低了不少,可能會動搖Anthropic在"安全、會用工具的Agent"這塊的地位。

跑分成績和實際落地之間的差距

"長時間任務完成率"這個說法引起了爭論。Z.ai的演示(比如自己搭Linux桌面)和榜單上GLM-5.1在Terminal-Bench 2.0的63.5%(優化後69%)對不上。行銷和實測之間有差距:宣傳需要熱度,但企業要的是能驗證的案例,比如Bella Protocol的信號機器人集成。VentureBeat和Computerworld用"8小時工作日"這個角度把投資者預期抬高了。參數量在"能持續產出"面前變得沒那麼重要——GLM-5.1在這點上交了卷,但運維成本也更高。

立場 證據和來源 對行業的影響 怎麼判斷
開源樂觀派 Z.ai博文:Vector-DB-Bench上21.5k QPS;Hugging Face CEO背書 強化"Agentic AI民主化"的說法,加速對開源權重的投入 真正的價值在於給特定行業(比如金融)定制,不是通吃
閉源懷疑派 SWE-Bench Pro 58.4% vs. Claude 57.3%;Terminal-Bench的差距 加深對開源可靠性的擔憂,企業從GPT遷移會更慢 企業大概會兩條腿走路:需要審計代碼的場景用GLM
企業務實派 OpenRouter/Vercel集成;Bella Protocol交易機器人上線 關注點回到部署成本,RFP傾向MIT許可證 監管行業自托管AI會加速,雲上閉源壓力更大
榜單純粹派 Hugging Face倉庫基準;Artificial Analysis Intelligence Index 51/100 用"輸出太長、價格太貴($4.40/百萬輸出token)"潑冷水 方向對:押注Serving優化,別追榜

這條傳播路徑——推文到專家轉發再到媒體跟進——逼著閉源實驗室解釋為什麼要收那麼貴。Anthropic可能會推"更快版本"(比如Claude Opus 4.6 Fast)來應對。市場習慣盯著SOTA看,但低估了地緣因素可能造成的市場分裂。GLM-5.1正在測試中國AI出海策略能走多遠。

結論:GLM-5.1把"能連續跑幾個小時"變成了工程任務的核心指標,開源在特定工作流程裡開始成為預設選項。現在花精力做效率優化和混合架構驗證的團隊,下一階段會更有優勢。

重要性:高
分類:模型發布、行業趨勢、開源

判斷:對願意自己搭建和調參的Builder、做基礎設施的基金來說,這是早期紅利窗口。只追通用對話能力的,相關度不高。現在不動手做長時間任務和Serving優化實驗的團隊,下一輪企業落地潮會落後。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言