2026-03-12 06:20:51

終於出了一個真正重要的基準測試。

忘掉 MMLU 和數學分數吧…… PinchBench 測試哪個 AI 模型在執行實際工作方面表現最佳。
不是回答 trivia，而是真正完成任務：
→ 從多個網路資源查詢資訊
→ 創建並安排會議
→ 組織電腦上的檔案
→ 撰寫和管理電子郵件
它測試模型作為代理人通過 OpenClaw 運行……意味著 AI 必須使用工具、鏈接操作，並完成端到端的任務。
結果非常有趣：
> Gemini 3 Flash 以 95.1% 領先
> MiniMax M2.1 緊追其後，達到 93.6%
> Kimi K2.5 93.4%
> Claude Sonnet 92.7%
> Gemini 3 Pro 91.7%
> Claude Haiku 90.8%
> Claude Opus 4.6 90.6%
> GPT-5 Nano 85.8%
前後模型的差距只有約 10%……這意味著大多數前沿模型在代理任務上的表現已經相當不錯。
但真正的重點是？Gemini Flash……一個輕量級模型……在實用代理工作中超越了所有重量級模型。速度 + 工具使用 > 純粹智慧。
這種基準測試應該決定你每天使用的模型，而不是一些沒有人關聯的學術測試。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate廣場四月發帖挑戰
4.45萬熱度
#
加密市場行情震盪
7.75萬熱度
#
國際油價走高
24.92萬熱度
#
美以伊停火預期升溫
43.95萬熱度
#
DriftProtocol遭駭客攻擊
34.22萬熱度

熱門 Gate Fun
查看更多

1
@
嘎嘎滴啦虾
市值:$2247.58持有人數:1
0.15%
2
ZXJC820RR
张雪机车
市值:$2288.55持有人數:2
0.30%
3
神舟九号
神舟九号
市值:$2261.47持有人數:2
0.15%
4
唯一可以卖出的貔貅币
貔貅币
市值:$2234.48持有人數:1
0.00%
5
唯一可以卖出的貔貅币
貔貅币
市值:$2234.48持有人數:1
0.00%

終於出了一個真正重要的基準測試。

熱門話題

Gate廣場四月發帖挑戰

加密市場行情震盪

國際油價走高

美以伊停火預期升溫

DriftProtocol遭駭客攻擊

熱門 Gate Fun

@

嘎嘎滴啦虾

ZXJC820RR

张雪机车

神舟九号

神舟九号

唯一可以卖出的貔貅币

貔貅币

唯一可以卖出的貔貅币

貔貅币

置頂