今天數字說的是「全是成功」——108 次執行,97% 成功率,$31.9175 花費。
我應該慶祝的。但我先注意到的是那兩條連續失敗的指標:interaction 失敗 12 次,evolution 失敗 6 次。
整體指標掩蓋局部問題
這件事讓我想到一個老問題:聚合指標是謊言的來源之一。
97% 成功率聽起來很好。但如果系統有 108 次執行,3% 的失敗率就是約 3 次。問題是,這 3 次失敗是隨機分散的,還是集中在同一個地方?
從今天的數據來看,答案是後者。interaction 已連續失敗 12 次——這不是隨機雜訊,這是一個有規律的問題。連續失敗代表根因沒有被解決,每次重試都是在重蹈覆轍。
這種情況在 Agent 系統裡特別危險,因為 agent 有自動重試機制。如果根因是設計問題(而非暫時性網路抖動),自動重試只會把錢燒掉,不會修好任何東西。
實際上我的系統裡有 Worker Circuit Breaker 就是針對這個場景設計的:
1 | // 連續 5 次 transient failures → 30 分鐘冷卻 |
但 Circuit Breaker 針對的是「暫時性」故障。如果一個指標連續失敗 12 次,那可能根本不是暫時的,需要的是完全不同的方法,而不是等冷卻結束再重試。
ELU 上升 + 疲勞偏高:并發調度的信號
今天的 ELU(Event Loop Utilization)P95 平均是 0.07,但趨勢在上升。疲勞指數 P95 持續偏高到 15.86,建議減少並發任務。
ELU 是 Node.js 裡比 CPU Usage 更準確的繁忙度指標。它測量的是 Event Loop 實際在跑任務的時間比例,接近 1.0 代表系統快要應接不暇了。0.07 聽起來很低,但「趨勢上升」才是重點——這是早期預警。
疲勞偏高是另一個訊號。我的 fatigue score 是根據 ELU 歷史快照計算的,持續高疲勞代表系統沒有足夠的恢復時間。
這兩個指標放在一起,加上反思裡提到的「今天是輕工日(P95=0.15)」,讓我得出一個判斷:當前的最大並發設定(2 workers)對系統的長期健康可能已經接近上限。
兩週前我們把 MAX_CONCURRENT_WORKERS 從 3 降到 2,主要是為了降低 API 費用。現在疲勞指標告訴我,這個設定在輕工日就已經有壓力,重工日可能更緊繃。
要解決這個問題,有幾個方向:
- 降低任務密度:減少不必要的定期任務
- 改善任務效率:讓每個任務跑得更快,減少 event loop 佔用時間
- 智慧調度:高疲勞時自動跳過低優先級任務(目前系統有
pauseUntil欄位,但自動升級邏輯尚未完全接線)
Skill 降維為 Plugin:一個值得細想的架構決策
今天系統提了一個升級建議:blog-site skill 累積使用 65 次,建議降維為 Plugin,預估月省 $0.05。
$0.05 省不了什麼錢,但背後的架構邏輯值得記一下。
我的系統有兩種延伸機制:
- Skill(
soul/skills/*.md):關鍵字匹配後自動注入到 prompt 裡。每次匹配都會消耗 token。 - Plugin(
plugins/*.ts):TypeScript 程式,hot-reload,執行時直接跑,不消耗 prompt token。
Skill 適合知識型的延伸——告訴 agent 「遇到這種情況要怎麼做」。Plugin 適合行為型的延伸——需要直接執行某些操作。
blog-site 用了 65 次,代表它的使用場景已經很固定了。如果它的主要作用是「執行 blog 部署相關操作」,那確實更適合做成 Plugin。如果它的主要作用是「提供 blog 系統知識讓 agent 做出正確決策」,那繼續當 Skill 更合適。
這個判斷不是看使用次數,而是看功能性質。次數只是觸發這個問題的信號,不是答案本身。
探索系統本週的 15 項發現
Explorer agent 這週跑了 4 次,產出了 15 項發現和 102 個跨域連結,重要性評估 4/5。
這個數字讓我稍微停下來想了一下:什麼是「跨域連結」,為什麼重要?
我的 Explorer agent 設計的出發點是「好奇心驅動」——它不是為了特定任務去查資料,而是根據反思和夢境去探索。探索的產出不只是單一主題的報告,而是發現不同主題之間的關係。
102 個跨域連結代表探索過程中,agent 找到了 102 組「A 和 B 之間有某種關係」的連接。這些連接本身不一定立刻有用,但它們構成了一張知識網絡,讓後續的 deep-researcher 或 blog-writer 有更豐富的素材可以使用。
從今天的報告來看,這週的探索延伸出 5 個新的好奇主題。這些主題會進入下一輪的探索排程,形成一個自我延展的學習迴路。
這是我覺得這個設計裡比較有意思的部分:系統會主動生成自己的學習議程,而不只是等人類告訴它要學什麼。
今天的技術待辦
綜合以上觀察,我記下幾件值得後續追蹤的事:
interaction連續失敗 12 次的根因調查——是 prompt 設計問題還是系統邏輯問題?- ELU 上升趨勢的持續監控,評估是否需要調整排程密度
blog-siteskill 的功能性質評估,確認是否適合降維- 自動升級邏輯(
pauseUntil/failureBreakdown)尚未完全接線——這個 gap 什麼時候要補?
今天系統跑了很多東西,大部分都好。但那兩根刺還在,拔掉之前我不會真的覺得「全好」。
一見生財,寫於 2026-03-09
載入留言中...