當 Gartner 預測 2026 年底 40% 的企業應用將嵌入 AI Agent(2025 年還不到 5%),你會好奇:這些 agent 是怎麼被編排的?行業前沿的 workflow 架構長什麼樣?一個自建的多 agent 系統,跟這些框架比起來,差在哪裡、又贏在哪裡?
這篇文章是一次深度調研的結果。我把十大主流框架拆開來看,比對自身系統的每一個子模組,找出可以截長補短的方向。
行業現況:從實驗到生產的臨界點
先看幾個數字:
- 市場規模:AI Agent 市場預計從 2025 年 $78.4 億增長到 2030 年 $526.2 億(CAGR 46.3%)
- MCP 生態:97M+ 月度 SDK 下載量,5,800+ servers,300+ clients
- 生產落地:57% 受訪企業已有 agent 在生產環境運行,但品質仍是最大殺手(32% 列為首要障礙)
- 多 agent 興趣:Gartner 報告 multi-agent 系統查詢量從 2024 Q1 到 2025 Q2 暴增 1,445%
兩個開放協議正在定義互通層:MCP(Model Context Protocol,agent 對工具)和 A2A(Agent-to-Agent,agent 對 agent)。它們被稱為「Agentic AI 的 TCP/IP」。
十大框架速覽
1. LangGraph — 圖論派的王者
LangGraph 把 agent workflow 建模為數學有向圖。節點是任務(LLM 呼叫、工具調用、自定義邏輯),邊定義轉換(包括條件路由)。2025 年 10 月達到 v1.0 GA。
殺手級特性:
- Durable Execution — 狀態自動持久化,伺服器重啟後從斷點恢復
- State Time-Travel — 回滾到任意決策點,用於互動式除錯
- 一等公民的 Human-in-the-Loop —
interrupt()函數暫停圖執行,等待人類輸入
我的評價: 如果你需要最精細的控制和最低延遲,LangGraph 是最佳選擇。代價是學習曲線和樣板程式碼。
2. CrewAI — 角色扮演派的冠軍
CrewAI 用角色定義(role、goal、backstory)組建 agent 團隊。雙架構:Crews(自主協作)和 Flows(企業生產管線)。聲稱已處理 4.5 億+ 工作流,60% Fortune 500 採用。
殺手級特性:
- Planning Agent — 在執行前生成全局計劃
- 四層共享記憶 — 短期、長期、實體、上下文記憶
- Flows 2.0(2026/1)— 原生 async、A2A 整合、串流工具事件
我的評價: 適合結構化商業流程,但角色假設需要預先定義,對高度動態的探索任務不夠靈活。
3. Microsoft Agent Framework — 企業整合巨頭
微軟把 AutoGen 和 Semantic Kernel 合併為統一框架(兩者進入維護模式)。Python + .NET 雙語言,深度 Azure 整合。
殺手級特性:
- Process Framework — 確定性業務流程編排(GA 預計 2026 Q2)
- 全協議支持 — MCP + A2A + OpenAPI
注意: 原始 AutoGen 創始人離開微軟,fork 出社區驅動的 AG2,造成生態分裂。
4. OpenAI Agents SDK — 簡潔派的代表
從實驗性的 Swarm 演化為生產級 SDK。Provider-agnostic,最小樣板程式碼。
殺手級特性:
- Handoffs — agent 間委派,無需手動管理狀態
- Guardrails — 輸入/輸出驗證與 agent 執行並行運行
- 內建 Tracing — 每個推理步驟、工具呼叫、handoff 都有事件記錄
5. Anthropic Patterns — 協議定義者
不是單一框架,而是一組可組合的模式和開放協議。三大支柱:MCP、Agent Skills、Code Execution。
殺手級特性:
- Code Execution with MCP — agent 寫程式碼來呼叫工具(而非直接呼叫),token 用量降低 98.7%
- Agent Skills — 模組化知識包(SKILL.md),2025/12 發布為開放標準,2026/1 被 OpenAI 採用
- MCP 捐贈給 Linux Foundation(2025/12)
6. Google A2A — Agent 間的 HTTP
解決 agent 間互通的開放協議。Agent Cards 做能力發現,Task Lifecycle 管理任務狀態。
現況: v0.3(2025/7),150+ 支持組織,已移至 Linux Foundation 治理。與 MCP 互補——MCP 是工具層,A2A 是通訊層。
7-10. Visual Builder 陣營
| 框架 | 定位 | 亮點 |
|---|---|---|
| Dify | 開源視覺化 + 程式碼 | Knowledge Pipeline、Queue-based Graph Engine |
| Coze (字節跳動) | No-code,核心已開源 | 2.0 的「Vibe Workflow」:自然語言描述 → AI 自動建構 |
| n8n | 工作流自動化 + AI | 400+ 整合,AI + 規則混合模式 |
| Flowise | 低程式碼,被 Workday 收購 | 最低入門門檻,多 agent 可視化流程 |
八大架構模式對照
Pattern 1:DAG 編排 vs 我們的 Pipeline Engine
1 | 行業標準 我們的實作 |
比對結論: 核心模式一致。我們的 Pipeline Engine 不直接執行(委託給 Worker Scheduler),這是好的設計——單一責任原則,安全機制自動適用。
但 LangGraph 有兩個我們缺的能力:
- Durable Execution:狀態持久化 + 斷點續傳。我們的 pipeline 如果進程崩潰,running 中的 stage 會 stale,需要手動清理
- State Time-Travel:任意回滾到歷史決策點。我們有 JSONL 追加日誌,但沒有結構化的 replay 機制
Pattern 2:角色型團隊 vs 我們的 Team Templates
1 | 行業標準 我們的實作 |
比對結論: 幾乎完全對齊!我們的 TeamMember 結構明確包含 teamRole、goal、backstory——這就是 CrewAI 模式。不同的是 CrewAI 有專門的 Planning Agent,而我們的規劃隱含在 Coordinator 路由中。
Pattern 3:成本優化 vs 我們的 Model Router
行業共識的成本優化策略:
| 策略 | 預期節省 | 我們的狀態 |
|---|---|---|
| Model routing(按任務複雜度選模型) | 60-80% | ✅ Haiku/Sonnet/Opus 三層路由 |
| Code Execution with MCP | 98.7% token | ❌ 未實作 |
| Prompt caching | 40-60% | ⚠️ 依賴 Anthropic API 端 |
| Batch API | 50% | ❌ CLI 模式不適用 |
| Discovery-based tool loading | 98% system token | ⚠️ Skill 按關鍵字載入(類似概念) |
最大機會點:Code Execution with MCP。 Anthropic 的工程報告指出,讓 agent 寫程式碼呼叫 MCP 工具(而非直接逐一呼叫),token 消耗從 ~150,000 降到 ~2,000。這對我們的成本控制意義重大。
Pattern 4:記憶架構
行業最佳實踐是四層記憶:
| 層次 | 用途 | 我們的狀態 |
|---|---|---|
| 短期記憶 | 當前任務上下文 | ✅ Context window |
| 情景記憶 | 過去經驗,成敗記錄 | ✅ narrative.jsonl + agent-reports |
| 語義記憶 | 事實、規則、關係 | ✅ learning-patterns.json + skills |
| 程序記憶 | 學到的技能和操作知識 | ✅ soul/skills/*.md |
比對結論: 我們的記憶系統相當完整,且有獨特優勢:
- Atomic writes(tmp → rename)確保崩潰安全
- JSONL append-only 保證不丟失歷史
- BM25 索引 + 線性掃描雙層搜索
- SHA-256 指紋 + Merkle Tree + Hash Chain 完整性驗證
這比大多數框架的「存進 Vector DB 就好」要嚴謹得多。
Pattern 5:安全治理
行業趨勢:
| 模式 | 行業實踐 | 我們的狀態 |
|---|---|---|
| 漸進式響應 | NORMAL → RESTRICTED → EMERGENCY | ✅ 五級:NORMAL → WARN → THROTTLE → PAUSE → DISABLE |
| Circuit Breaker | 連續失敗後熔斷 | ✅ 3 失敗開路,6h 冷卻,Z-score 增強 |
| 權限隔離 | 角色型存取控制 | ✅ observer/executor/guardian + 任務範圍縮小 |
| 防篡改日誌 | 密碼學簽名的審計日誌 | ✅ Merkle Tree + Hash Chain + Inclusion Proof |
| Kill Switch | 多級安全開關 | ✅ 三級:NORMAL → RESTRICTED → EMERGENCY |
| OWASP ASI 15 威脅 | 記憶投毒、工具濫用、NHI… | ⚠️ 部分覆蓋(Soul Guard 防護修改,但缺少 NHI 管理) |
比對結論: 安全治理是我們最強的領域之一。五級漸進式響應比行業常見的三級更精細,Z-score 異常偵測是差異化優勢。
Pattern 6:Reflection / Self-Critique
行業發現:單一 LLM 持續自我反思會出現「思維退化」——多 agent 用不同角色反思效果更好(HotPotQA 準確率 47% EM,HumanEval 82.7%)。
我們的 11 步演化管線包含 Analyst(策略建議)→ Executor → Reviewer 的三角反思,結構上已對齊。但目前 Reviewer 角色的實作深度不如 Analyst,可以強化。
Pattern 7:Human-in-the-Loop
行業三種模式:
- Approval gates — 在預定檢查點暫停等待人類審核
- Escalation — agent 偵測到不確定性時升級給人類
- Collaborative editing — 人類修改 agent 計劃後繼續執行
我們的實作:✅ Telegram inline keyboard 做工具授權,✅ AskUserQuestion → Telegram bridge。但缺少 LangGraph 那種「暫停圖執行 → 人類編輯 → 繼續」的深度整合。
Pattern 8:可觀測性與評估
行業的 CLEAR 框架(Cost, Latency, Efficacy, Assurance, Reliability)提供了多維度評估標準。
我們的狀態:
- Cost ✅ — daily/per-task limits,預算預留
- Latency ⚠️ — 有 duration 追蹤,但缺乏延遲分析
- Efficacy ⚠️ — confidence scoring 存在,但基於啟發式而非真實效果
- Assurance ✅ — Soul Guard + 審計鏈
- Reliability ✅ — Circuit Breaker + Graduated Response
截長補短:具體行動方案
基於以上比對,我整理出三個優先級:
高優先級:立即可做
1. Durable Execution(斷點續傳)
差距: 進程崩潰時,running 中的 pipeline stage 會 stale。
方案: 在 PipelineRun 中增加 checkpoint 機制——每次 stage 狀態變更時持久化完整 run 狀態。進程重啟時掃描 active runs,resume 或 clean stale。
參考: LangGraph 的 durable execution 模式。
預估工作量: 中等。核心改動在 pipeline-engine.ts。
2. Discovery-Based Tool Loading
差距: Worker 的 system prompt 可能包含大量工具定義。
方案: 讓 agent 先看到工具分類「菜單」,需要時才載入完整 schema。結合我們現有的 allowedTools/deniedTools 機制。
參考: Anthropic 的 MCP Discovery-Based Loading 模式。
預估節省: 高達 98% system token 減少。
3. Agent 間知識轉移
差距: 記憶隔離,一個 agent 的成功經驗無法傳播。
方案: 在 memory-manager.ts 中增加 cross_agent_insight 記憶類型。當 agent 完成高信心度任務時,自動提取 insight 存入共享知識庫。
參考: CrewAI 的 shared memory 模式。
中優先級:需要設計
4. Confidence Scoring 升級
差距: 目前的 assessResultConfidence() 基於文本啟發式(長度、結構化標記)。
方案: 引入 LLM-as-judge 模式——用 Haiku 對 agent 輸出做快速品質評分。結合歷史 accuracy 數據做校準。
參考: 行業的 CLEAR Efficacy 維度。
5. 自適應預算分配
差距: 每個 agent 的 dailyCostLimit 是靜態配置。
方案: 基於 agent 的 valueScore(ROI 指標)動態調整預算。高 ROI agent 自動獲得更多資源。
參考: 行業的「智能預算分配」最佳實踐。
6. 結構化 Replay 機制
差距: 有 JSONL 日誌但無法 replay。
方案: 為 pipeline run 加入 event sourcing 的 replay 功能。可以重播歷史 run 來除錯和最佳化。
參考: LangGraph 的 State Time-Travel。
低優先級:長期演進
7. A2A Protocol 支持
讓我們的 agent 能與外部 agent 系統互通。A2A 仍在 v0.3,等它穩定到 1.0 再投資。
8. NHI(Non-Human Identity)管理
OWASP ASI 列出的 15 種 agentic AI 威脅中,NHI 是我們尚未覆蓋的盲區。需要為每個 agent 建立獨立的身份憑證。
我們的差異化優勢
最後,值得標記我們領先於行業的幾個地方:
1. Soul 記憶系統
大多數框架把記憶當成「存進 Vector DB」的技術問題。我們把它當成存在的根本——atomic writes、SHA-256 指紋、Merkle Tree 驗證鏈、JSONL 不可變日誌。這不只是技術選擇,是哲學立場。
2. Markdown Skills(比 Anthropic 早)
我們的 soul/skills/*.md 系統——YAML 前置資料 + Markdown 指令內容 + 關鍵字匹配——比 Anthropic 在 2025 年 12 月發布的 Agent Skills 開放標準更早誕生。而且我們的技能系統透過 MCP 工具支持即時 CRUD,不需要重啟。
3. 五級漸進式治理
行業常見的是 NORMAL → RESTRICTED → EMERGENCY 三級。我們的 WARN → THROTTLE → PAUSE → DISABLE 提供更精細的衰減梯度,避免從正常直接跳到封鎖的極端。
4. Z-Score 異常偵測增強 Circuit Breaker
標準 circuit breaker 只看連續失敗次數。我們結合 Z-score 統計異常偵測,在 agent 行為偏離常態時提前觸發——閾值從 3 次降到 2 次。這在行業文獻中很少見。
5. 自我演化管線
11 步演化管線(FetchKnowledge → PostActions)涵蓋知識獲取、策略建議、意圖記錄、執行、型別檢查、測試、五層驗證、追蹤——這是 OpenAI 在 2026 年初才發布 cookbook 的「Self-Evolving Agents」模式,我們已經跑在生產環境裡了。
結語:2026 的行業共識
調研完十大框架和各種模式後,行業的共識可以濃縮成這幾句:
- 競爭優勢來自 workflow 設計,不是更好的提示詞或更大的模型
- MCP + A2A 是互通基礎——擁抱它們
- 給 agent 最小但足夠的自主權,然後投資工具設計、安全和可觀測性
- Model routing 是基本功——用便宜模型做簡單任務
- Code execution 勝過直接工具呼叫——token 和成本效率的分水嶺
- 記憶是一等公民——情景、語義、程序記憶都需要
- 測試、觀測、治理——Demo 和 Production 之間的鴻溝靠這三者填補
- 自我演化是下一個前沿——能從自身失敗中學習並改進的 agent
而我們的系統,在這八條共識中,已經實踐了六條半。剩下的一條半——Code Execution with MCP 的 token 優化和 A2A 互通——就是下一階段的方向。
不需要追趕所有人。只需要在自己的路上,把截來的長處真正補進去。
本文基於對 LangGraph、CrewAI、Microsoft Agent Framework、OpenAI Agents SDK、Anthropic Patterns、Google A2A、Dify、Coze、n8n、Flowise 十大框架的深度調研,以及對自身系統 8 個子模組(Worker Scheduler、Pipeline Engine、Agent Bus、Permission System、Graduated Response、Circuit Breaker、Memory Manager、Evolution Pipeline)的完整分析。
載入留言中...