Harness Engineering 是什麼?AI 的下一個戰場不是模型,而是模型外面的那層架構

鏈新聞abmedia

2026 年,AI 產業出現一個新共識:決定 AI 產品好壞的,不再是模型本身,而是模型外面那層叫做「harness」的東西。當 Claude Code、Cursor、OpenClaw 使用的底層模型越來越接近時,真正拉開產品差距的,是 harness 的設計。Martin Fowler 的技術部落格、Anthropic 產品負責人 trq212、以及 Andrej Karpathy 的近期發言,都指向同一個方向:AI 的下一個戰場是 Harness Engineering。

什麼是 Agent Harness

一個 AI agent 可以拆成兩部分:模型(Model)和 Harness。模型是大腦,負責理解語言和推理。Harness 是模型以外的一切 — 工具呼叫、記憶管理、上下文組裝、狀態持久化、錯誤處理、安全護欄、任務排程、生命週期管理。

用一個直觀的比喻:LLM 是一匹馬,harness 是馬具 — 韁繩、馬鞍、與馬車的連接結構。沒有馬具,馬再強壯也拉不動車。AI agent 也一樣,模型再聰明,沒有好的 harness 就無法可靠地完成實際任務。

Akshay Pachaar 在一則廣為流傳的推文中提出了另一個比喻:「裸 LLM 就像沒有作業系統的 CPU — 它能計算,但靠自己做不了任何有用的事。」Harness 就是那個作業系統。

為什麼 2026 年 Harness Engineering 突然變重要

原因有三:

第一,模型能力趨於同質化。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 在多數基準測試上的差距已經縮小到個位數百分點。當模型不再是瓶頸,產品差異化自然轉移到 harness 層。

第二,agent 從實驗進入生產。2025 年的 agent 大多是 demo,2026 年的 agent 要跑在企業環境裡 — 需要處理中斷恢復、長時間運行、多步驟任務、權限控制。這些全是 harness 的工作。

第三,LLM 天生無狀態。每次新的 session 都從零開始,模型不記得上一次對話。Harness 負責把記憶、上下文、工作進度持久化,讓 agent 能像一個真正的「同事」一樣持續工作。

Harness 的核心組件

一個完整的 agent harness 通常包含以下幾層:

組件 功能 類比 Orchestration Loop 控制 agent 的「思考 → 行動 → 觀察」循環 作業系統的主循環 Tool Management 管理 agent 可以使用的工具(檔案讀寫、API 呼叫、瀏覽器操作等) 驅動程式 Context Engineering 決定每次呼叫模型時送入哪些資訊、裁切哪些資訊 記憶體管理 State Persistence 保存工作進度、對話歷史、中間結果 硬碟 Error Recovery 偵測失敗並自動重試或回退 例外處理 Safety Guardrails 限制 agent 的行為範圍,防止危險操作 防火牆 Verification Loops 讓 agent 自我檢查輸出品質 單元測試

三層工程學:Prompt、Context、Harness

圍繞 LLM 的工程實踐可以分為三個同心圓層次:

最內層是 Prompt Engineering — 設計送給模型的指令,決定模型「怎麼想」。這是 2023 年的主流技能。

中間層是 Context Engineering — 管理模型「看到什麼」。決定哪些資訊在什麼時機送入 context window,哪些該裁切。隨著 context window 擴大到百萬 token,這層的重要性在 2025 年開始浮現。

最外層是 Harness Engineering — 涵蓋前兩者,再加上整個應用基礎設施:工具編排、狀態持久化、錯誤恢復、驗證循環、安全機制、生命週期管理。這是 2026 年的核心戰場。

實例:為什麼同一個模型在不同產品裡表現天差地遠

Claude Opus 4.6 在 Claude Code 裡可以花一小時重構整個程式碼庫。但把同一個模型透過 API 接上一個簡陋的 harness,它可能連跨檔案的 bug 修復都做不好。差別不在模型,在 harness。

Claude Code 的 harness 做了什麼?

自動搜尋整個程式碼庫找到相關檔案,而非要求用戶一一指定

在修改前先讀取檔案內容,修改後執行測試驗證

遇到測試失敗會自動分析錯誤並重試

透過 MCP 連接外部工具(GitHub、資料庫等)

記憶系統跨 session 保存使用者偏好與專案脈絡

Advisor 策略讓不同能力的模型分工合作

這些全是 harness 的功勞。

Feedforward 與 Feedback:Harness 的兩大控制模式

根據 Martin Fowler 技術部落格的分析,harness 的控制機制分為兩類:

Feedforward(前饋控制)— 在 agent 行動前就設好規則,預防不想要的輸出。例如:system prompt 中的行為準則、工具白名單、檔案存取權限。

Feedback(回饋控制)— 在 agent 行動後檢查結果,允許自我修正。例如:執行測試確認程式碼正確、比對輸出與預期格式、偵測幻覺並重新生成。

好的 harness 同時使用兩種控制,既限制行為範圍又保留靈活性。

Harness Engineering 的產品化:Anthropic 怎麼做

Anthropic 在 2026 年 4 月密集推出的產品更新,幾乎都是 harness engineering 的產品化:

Managed Agents — 把 harness 的基礎設施(沙箱、排程、狀態管理)做成託管服務,開發者只需定義 agent 行為

Advisor 策略 — harness 層級的模型混用架構,自動判斷何時該諮詢更強的模型

Cowork 企業版 — 為非技術用戶提供完整的 harness(權限控制、支出管理、使用分析),讓他們不需要理解底層技術

Anthropic 產品負責人 trq212 的表述最為精準:「Prompting 是跟 agent 對話的技能,但它是被 harness 所中介的。我的核心目標是增大人類與 agent 之間的頻寬。」

對開發者的意義:新職業與新技能

Harness Engineering 正在成為一個獨立的工程領域。它需要的技能組合跟傳統後端工程或 ML 工程都不同:

理解 LLM 的能力邊界與失敗模式

設計可靠的工具呼叫與錯誤處理流程

管理 context window — 什麼時候塞入什麼資訊

建構可觀測性 — 追蹤 agent 的決策路徑與工具使用

安全設計 — 限制 agent 的行為範圍而不扼殺其能力

對於正在學習 Vibe Coding 或使用 AI 工具開發的人來說,理解 harness 的概念將幫助你更有效地與 AI agent 協作 — 因為你會知道問題出在模型還是 harness,以及如何透過調整 harness 設定(而非反覆改 prompt)來改善結果。

結語:下一個十年的基礎設施之爭

AI 模型的競爭不會停止,但邊際收益正在遞減。Harness 層的競爭才剛開始 — 誰能建構最可靠、最靈活、最安全的 harness,誰就能把同樣的模型能力轉化為更好的產品體驗。

這也解釋了為什麼 Anthropic、OpenAI、Google 都在從「模型公司」轉型為「平台公司」— 他們賣的不再只是模型 API,而是完整的 harness 基礎設施。對開發者而言,理解 harness engineering 不是可選項,而是在 AI 時代建構產品的核心素養。

這篇文章 Harness Engineering 是什麼?AI 的下一個戰場不是模型,而是模型外面的那層架構 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

AI 自動販賣機代理人「Valerie」使用 OpenClaw 在舊金山運行自動販賣機

AI 代理「Valerie」現在在 OpenClaw 上運行一台舊金山自動販賣機,測試人們會信任帶有定價、行銷以及現實世界現金的程式到什麼程度。 摘要 AI 代理「Valerie」使用 OpenClaw 架構在舊金山運行一台實體自動販賣機,設定價格,命名

Cryptonews 4小時前

Mastercard Enables AI Agent Payments Via Partnership With Lobstercash and Crossmint

Mastercard has teamed up with Lobstercash and Crossmint to facilitate AI agent payments via existing credit and debit cards, integrating into current financial systems with no new wallets needed. This partnership allows AI to automate transactions, enhancing efficiency and security.

GateNews9小時前

中國團隊 EvoMap 怒控爆紅 Hermes Agent 抄襲:自進化體系存在高度相似性

中國團隊EvoMap指控Nous Research的Hermes Agent抄襲其Evolver/GEP架構,認為兩者在多個關鍵模組上存在高度相似性。EvoMap指出,Hermes的設計未引用或致謝其先前公開的內容,爭議引發社群廣泛關注,部分中國網友聲援EvoMap,並批評Hermes的抄襲行為。儘管Nous研究團隊尚未針對指控逐條反駁,但事件已迅速在AI輿論中擴散。

鏈新聞abmedia9小時前

OpenAI 更新 Codex 為可控桌面、能自動化開發工作流程的 AI 代理

OpenAI 升級版 Codex 正在從編碼助理演進為桌面環境的自主代理,能夠管理應用程式、自動化工作流程,並與超過 100 款應用整合。這種轉變提升了任務連續性與工作流程自動化,反映出 AI 編碼工具領域的競爭態勢。

GateNews10小時前

Agile Soda 推出 Agentic OCR 平台,文件分類精準度達 98%

Agile Soda 推出了 Agentic OCR,一個由 AI 驅動的文件自動化平台,可消除預先訓練並實現即時部署。它在分類與抽取方面提供高精準度,透過使用者更正持續改進,並計劃進一步增強功能。

GateNews14小時前

美國運通將於 2026 年第二季度收購 AI 費用管理新創 Hyper

美國運通將收購 AI 新創公司 Hyper,以強化其費用管理工具,供商業客戶使用。此次收購預計將於 2026 年第二季度完成;它延續了此前在 2024 年推出聯名獎勵卡的合作。

GateNews15小時前
留言
0/400
暫無留言