✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
GLM-5.1讓開源模型第一次在長時間工程任務上站穩腳跟
開源模型開始在長時間任務上較真了
OpenRouter宣布集成GLM-5.1,把話題從"參數有多大"拉到了"能連續幹多久"。GLM-5.1在沒有人盯著的情況下對向量資料庫優化跑了8小時,迭代600多次,性能提升6倍。這改變了開源模型的定位:不再只是便宜的替代品,在工程類工作流程裡可能更能打——特別是Claude Opus 4.6這類閉源模型經常試幾下就不再改進了。Hugging Face高層幫著宣傳,但推文基本沒提算力成本的事。
反應還是老樣子,兩極分化:
幾個值得注意的點:
跑分成績和實際落地之間的差距
"長時間任務完成率"這個說法引起了爭論。Z.ai的演示(比如自己搭Linux桌面)和榜單上GLM-5.1在Terminal-Bench 2.0的63.5%(優化後69%)對不上。行銷和實測之間有差距:宣傳需要熱度,但企業要的是能驗證的案例,比如Bella Protocol的信號機器人集成。VentureBeat和Computerworld用"8小時工作日"這個角度把投資者預期抬高了。參數量在"能持續產出"面前變得沒那麼重要——GLM-5.1在這點上交了卷,但運維成本也更高。
這條傳播路徑——推文到專家轉發再到媒體跟進——逼著閉源實驗室解釋為什麼要收那麼貴。Anthropic可能會推"更快版本"(比如Claude Opus 4.6 Fast)來應對。市場習慣盯著SOTA看,但低估了地緣因素可能造成的市場分裂。GLM-5.1正在測試中國AI出海策略能走多遠。
結論:GLM-5.1把"能連續跑幾個小時"變成了工程任務的核心指標,開源在特定工作流程裡開始成為預設選項。現在花精力做效率優化和混合架構驗證的團隊,下一階段會更有優勢。
重要性:高
分類:模型發布、行業趨勢、開源
判斷:對願意自己搭建和調參的Builder、做基礎設施的基金來說,這是早期紅利窗口。只追通用對話能力的,相關度不高。現在不動手做長時間任務和Serving優化實驗的團隊,下一輪企業落地潮會落後。