「萬能工具」的誤解
一篇實務批判:為何 AI 不應被理解成自動化一切的工具,以及如何用治理清楚的系統決定甚麼應自動化、準備、升級或保留給人。
重點摘要
- 「萬能工具」誤解,是相信有用的 AI 應該變成一個可以自動化所有工作的通用工具。
- 更好的模型是一個受治理的 operating layer:有些工作自動化,有些工作先準備,有些工作升級,有些工作保留給人。
- 只有在系統具備背景、信心、權限和補救路徑時,才應自動化。
「萬能工具」的誤解,是相信 AI 的自然終點是一個吸收所有工作的通用工具。
它通常以一句很實際的口號出現:「不如全部自動化。」這句話聽起來有野心,但它遮住了真正的設計問題。有用的 AI 系統,不是靠把每個 workflow 都變成自主行動而產生價值。它們的價值在於幫助機構判斷哪些工作可以自動化、哪些工作應該先準備給人審閱、哪些工作要升級,以及哪些工作仍然應該由人處理。
正確框架不是一個工具,而是一個 operating layer。
Operating layer 讓人和 AI 系統共用背景、權限、證據、工作流程、工具、審閱邊界和補救路徑。它讓自動化在條件成熟時發生,也防止團隊把自動化誤當成 readiness。
這個分別很重要,因為機構 AI 的難處,很少只是模型能否產生答案。真正難的是系統是否知道足夠背景、是否有足夠授權,以及一旦出錯是否有足夠補救能力去行動。
這個誤解是一種分類錯誤
「萬能工具」心態把 AI 看成覆蓋率問題:有多少任務可以被搬進同一個介面、同一個助手、同一個自主 agent?
這是錯誤的分析單位。工作不只是一串任務。工作有背景、風險、擁有人、時機、證據、政治、規管、客戶敏感度、商業判斷和例外處理。
同一個介面可以讓人感覺所有工作都被統一了,但統一介面不等於統一責任。專業工作真正困難的部分,往往不是找到一個地方輸入指令,而是知道這個指令屬於哪個客戶、哪份合約、哪個權限、哪條政策、哪個審閱點,以及哪位負責人可以承擔後果。把所有東西放進一個 assistant,未必令這些關係更清楚;有時只是把它們藏起來。
同一個表面任務,可以代表很不同的事情:
- 「發送客戶更新」可以是例行狀態說明,也可以是敏感的關係介入,甚至是法律陳述。
- 「審閱文件」可以是檢查格式、把條款跟 playbook 比對,或就風險作出專業判斷。
- 「處理續約」可以是發提醒、重新談判商業條款、檢查使用情況,或決定取消供應商。
- 「批准財務申請」可以是配對政策、解讀例外,或為預算決定承擔責任。
誤解不在於自動化不好。自動化很多時候非常好。誤解在於以為一個工具應該把所有這些情況壓成同一種行動模式。
這就是分類錯誤的核心:問題不是「有多少工作可以放進同一個工具」,而是「每種工作需要甚麼責任結構」。一個界面可以承載搜尋、草擬、審閱、批准和行動,但這些模式不能共享同一套權限和風險假設。把它們全部叫做自動化,會令治理變得含糊。
自動化、增強、編排和 Agentic 行動並不相同
團隊把「自動化」鬆散地用來指所有 AI-enabled 工作時,就會出事。至少要分清四種模式。
自動化取代已定義的人手步驟
IBM 把 workflow automation 描述為以軟件取代人手任務,執行整個或部分流程,很多時候使用規則邏輯或 workflow 軟件,而不一定需要 AI(IBM2)。
這個定義有用,因為它令自動化落地。當任務可重複、輸入足夠結構化、規則已知,而且成功可以檢查時,自動化最有效。
例子包括把已簽署文件送到正確資料夾、在到期前 90 日發出續約提醒、開支超過門檻時建立審批任務,或表格提交後更新 CRM 欄位。
增強改善人的工作,但不接管權限
增強保留人作為決策者或授權者。系統可以總結、草擬、比較、抽取、分類、搜尋或建議。它不聲稱自己作最終決定。
這往往是 AI 在知識工作中最有用的第一步。系統可以根據近期活動準備客戶更新、在文件包中標示缺失證據,或把續約跟去年的條款比較。人仍然決定輸出是否準確、合適,是否可以發出或使用。
增強的價值,通常來自把人的注意力移到更好的位置。與其花時間找文件、重複整理背景、手動比對欄位,專業人士可以更快進入判斷:證據是否足夠、例外是否重要、語氣是否合適、下一步是否需要更高權限。這不是把人移走,而是把人放回更值得他們負責的位置。
編排協調系統和人之間的工作
編排關乎流動。它連接步驟、工具、擁有人、審閱點和截止日期。它可以包含自動化,但主要價值是令整個 workflow 更一致。
例如續約 workflow 可以把合約、使用數據、供應商擁有人、預算項目、上次談判筆記、安全審查狀態和審批鏈放進一個受治理流程。部分步驟可以自動化。其他步驟應該被分派、審閱或升級。
編排亦令 AI 的邊界更清楚。系統可以知道某一步只是收集資料,下一步要由 owner 回覆,再下一步要由 finance 批准。這比把整個續約交給一個「請處理」指令安全得多。工作流本身保留了擁有人、時間、狀態和審閱點,AI 只在合適位置加速或準備。
Agentic 行動讓軟件透過工具追求目標
Agentic 系統不只是產生文字。它們會選擇步驟、使用工具、檢查結果並作調整。Anthropic 的建議區分 workflows 和 agents:workflows 遵循預先定義的程式路徑;agents 則由模型動態指揮自己的流程和工具使用(Anthropic5)。
這個分別提高了治理門檻。一旦系統可以透過工具行動,機構就要定義它可以讀甚麼、改甚麼、何時必須先問、如何驗證成功,以及如何控制錯誤。
Anthropic 的例子亦顯示,readiness 取決於任務結構。Coding agents 在有自動測試提供回饋、問題空間清楚時較可行;即使如此,人手審閱對更廣的系統要求仍然重要(Anthropic5)。
同樣道理放到商業或專業工作,問題就更尖銳。很多工作沒有自動測試可以即時判斷好壞,亦沒有單一正確答案。客戶關係、法律風險、採購談判、內部政治和專業責任,都不是模型靠流暢文字就能自行驗證的東西。Agentic action 可以有用,但它更需要窄範圍、明確工具、可見證據和停下來的規則。
所以,agentic action 不應被視為「更高級的自動化」而自動套用到所有場景。它只是其中一種模式,而且通常需要更強的邊界:可呼叫哪些工具、可改哪些紀錄、何時必須先問人、如何確認成功,以及錯誤如何被控制。
能力不是 readiness
模型能力回答一個問題:它在某些條件下能否完成任務?
Readiness 回答一個更難的問題:這個系統是否應該在這裏、帶着這些背景、這種權限、這種失敗模式和這條補救路徑,執行這個任務?
這個落差並不新。Lisanne Bainbridge 1983 年的論文 "Ironies of Automation" 是 human factors 研究中的重要警示:自動化可以移除人日常練習的機會,卻仍然要求人在罕見而困難的情況中負責介入(Bainbridge)。
這就是「萬能工具」問題更尖銳的版本。系統可能有能力產生可信的東西,但機構未必準備好承受營運後果。
Capability 和 readiness 的落差,亦解釋為甚麼 demo 容易令人興奮,部署卻容易令人失望。Demo 通常展示模型在一個乾淨例子中完成輸出;實際工作則要求系統面對不完整資料、互相矛盾的來源、模糊權限、不同部門的責任和出錯後的補救。前者是能力展示,後者才是營運 readiness。
Readiness 需要背景
系統需要正確來源材料,而不只是一般知識。客戶更新需要最新會議筆記、未完成承諾、過往語氣、商業敏感度、未解阻礙和受眾。
沒有這些背景,模型仍然可以寫出流暢文字。流暢不是 readiness。
Readiness 需要信心
系統需要一種方式估計任務是否在可靠操作範圍內。信心不應是含糊的自我肯定,而應建基於證據:來源覆蓋、新鮮度、一致性、規則匹配、測試結果或成功 retrieval。
如果財務批准取決於一張缺失的採購單或政策例外,低信心就應該把模式由自動化改成準備或升級。
Readiness 需要權限
系統需要行動許可。權限不只是技術存取。它也包括機構權限:誰可以批准開支、向客戶作陳述、接受合約風險,或改變案件狀態。
NIST 的 AI Risk Management Framework 在這裏有用,因為它把可信 AI 視為治理和風險管理問題,而不只是模型品質問題。該框架旨在協助機構把可信度納入 AI 系統的設計、開發、使用和評估(NIST3)。
Readiness 需要補救路徑
系統需要方法偵測、停止、逆轉、補償或從失敗中學習。這可以包括審計日誌、批准、版本歷史、rollback、例外隊列、人手通知、事故檢討和行動後對帳。
NIST AI RMF 亦強調,在營運 AI 設定中,人手角色和責任應被清楚定義,而 human-AI 配置可因情境由完全自主到完全人手不等(NIST AI RMF 1.04)。
更好的決策規則
實用規則是:
只有在系統具備背景、信心、權限和補救路徑時,才自動化。
如果其中一項缺失,不要硬把任務推進完全自動化。改變模式。
| 條件 | 如果存在 | 如果缺失 |
|---|---|---|
| 背景 | 系統有相關紀錄、證據、歷史和限制 | 準備草稿、要求補充材料,或交給人 |
| 信心 | 系統能驗證任務屬於已知可靠模式 | 標示不確定、縮窄任務,或要求審閱 |
| 權限 | 系統獲准執行該行動 | 為有權限的人準備該行動 |
| 補救路徑 | 錯誤可以被偵測、控制、逆轉或升級處理 | 保留人手行動,或建立受控審閱 workflow |
這條規則比「萬能工具」產生更有用的架構。它創造不同工作模式。
有些工作自動化。有些工作先準備。有些工作升級。有些工作保留給人。
實務上會是怎樣
客戶更新
萬能工具會嘗試撰寫並發送更新。
受治理的 operating layer 會先問:這是甚麼類型的更新?如果是例行每週狀態說明,有完整項目資料、已批准語氣,而且沒有敏感問題,系統可以草擬,甚至在輕量審閱後發送。如果涉及預算憂慮、客戶不滿、錯過承諾、法律風險或關係風險,系統應準備證據並升級給負責人。
有用的系統不是永遠發送的系統,而是知道何時適合發送的系統。
文件審閱
對標準文件包,自動化可能足以檢查檔名、必需附件、缺失簽署、重複版本、metadata 和條款是否存在。
對實質審閱,增強通常更安全。系統可以把條款跟 playbook 比對、標示偏離、抽取義務,並引用來源段落。人手審閱者仍然決定重要性、談判立場和最終意見。
失敗模式是把語言模型總結文件的能力,誤當成準備好承擔審閱責任。
續約 workflow
續約很少只是一個日曆提醒。它可能涉及使用情況、預算、供應商風險、採購規則、安全狀態、內部負責人意見和商業替代方案。
自動化可以建立續約任務、收集合約、抽取通知期和提醒負責人。編排可以把財務、採購、安全和業務負責人帶進同一個 workflow。AI 可以準備續約摘要。
Agentic 行動只應在有邊界的步驟中使用:要求補交使用數據、草擬供應商電郵,或開 ticket。除非機構明確授權並建立補救路徑,否則它不應自行續約、取消或重新談判。
財務批准
小額、符合政策、有完整收據和已知預算代碼的開支,可能適合自動化。
較大申請、缺失發票、預算例外、關連方憂慮,或策略供應商承諾,不應被視為同一任務。系統可以準備 approval packet、檢查政策、標示異常,並轉交正確批核人。
重要分別是責任。軟件可以減少摩擦,但不應假裝自己擁有判斷。
這些例子有一個共同點:同一個 workflow 裏可以同時存在自動化、增強、編排和有限 agentic action。客戶更新可以自動收集近期活動、由 AI 草擬摘要、由 workflow 指派審閱者,最後由負責人發送。文件審閱可以自動檢查缺件、由 AI 比對條款、由律師判斷風險。成熟設計不是選一個模式覆蓋全部,而是為每一步選合適模式。
這亦解釋為甚麼 readiness 比 capability 更重要。模型可能有能力草擬一封有說服力的客戶電郵,但如果它看不到最新承諾、不知道客戶敏感度、沒有發送權限,或沒有錯誤補救路徑,系統仍然不應自動發送。能力回答「能不能做」,readiness 回答「應不應該在這裏做」。
甚麼時候自動化已足夠
「萬能工具」批判並不平均適用於每個 workflow。
有時自動化正是正確答案。如果任務頻繁、低風險、定義清楚、可回復並可驗證,受治理的機構應該自動化。
好候選包括:
- 把文件移入標準資料夾結構。
- 按日期和狀態發提醒。
- 由結構化表格提交建立任務。
- 在容許誤差內把發票跟採購單配對。
- 由已批准來源系統更新 dashboard。
- 根據類型把文件交給已知審閱者。
在這些情況下,堅持人手審閱可能是浪費。重點不是拖慢工作,而是避免把每個 workflow 都當成同一風險輪廓。
當系統有背景、信心、權限和補救,而且人的判斷價值相對於延誤成本較低時,自動化已足夠。
相反,如果任務需要關係判斷、例外解讀、專業責任或外部承諾,自動化就算技術上可行,也未必是合適模式。這不是因為 AI 弱,而是因為工作本身的責任不能被一個通用工具吞掉。系統可以準備 evidence pack、列出選項、標示不確定和建議 escalation,但最後行動是否發生,仍然要看授權和問責。
Operating layer 取代通用工具幻想
萬能工具吸引,是因為它承諾壓縮。一個地方。一個助手。一個介面。一句指令:全部自動化。
但認真的機構需要的不是通用工具,而是受治理的營運能力。
這代表:
- Ingestion:承諾、文件、事件、批准、訊息和紀錄進入系統。
- Processing:原始材料被清理、連結、分類、套用權限和標準化。
- Storage:營運狀態存放在可審計和有存取控制的持久系統。
- Retrieval and tools:人和 agents 可透過受控介面尋找、準備、更新、轉交和審閱工作。
這一層可以支援很多工具和很多類型工作。它不需要假裝一個助手應該擁有一切。
這一層也令 AI strategy 從「買哪個 assistant」轉成「哪些工作狀態需要被看見」。如果承諾沒有被捕捉、文件沒有權威版本、審批路徑不清楚、來源權限混亂,任何 assistant 都只能在混亂上面生成文字。Operating layer 的價值,是把工作整理到 AI 和人都可以可靠使用的形狀。
對管理層而言,這會改變投資邏輯。與其追求一個會做所有事的工具,不如投資在可審計資料、權限模型、review queues、例外處理和可重用 workflow patterns。這些基礎能力不只支援一個 AI use case,而是支援很多不同程度的自動化、準備、建議和人手判斷。
這也是更可信的 enterprise AI 路線。第一步不是要求所有工作進入一個 agent,而是讓重要工作有清楚狀態:誰負責、來源在哪裏、下一步是甚麼、甚麼需要審閱、甚麼可以自動。然後 AI 可以逐步放進這些狀態中。某些地方只做搜尋,某些地方做 draft,某些地方提出 recommendation,某些低風險地方才執行 action。
「萬能工具」幻想把成熟度想像成工具越來越大;operating layer 把成熟度理解成工作越來越清楚。這個差異很實際。前者容易產生一個無所不包但難以治理的介面;後者讓機構逐步建立可審閱、可升級處理、可補救的工作能力。對需要信任、審計和專業責任的團隊,後者通常才是 AI 真正落地的路。
如果沒有這個分層,機構很容易在兩個極端之間搖擺。一邊是過度樂觀,覺得 AI 既然能寫、能查、能用工具,就應該全部接手;另一邊是過度保守,因為某些高風險場景不能自動化,就否定所有 AI 工作。Operating layer 提供中間路徑:把工作拆開,讓每一步按背景、信心、權限和補救能力選擇模式。
這也解釋為甚麼「一個 universal assistant」即使體驗漂亮,也不足以成為企業 AI 架構。企業需要的是持久狀態、可追蹤來源、角色權限、審批路徑、例外處理和跨系統紀錄。Assistant 可以是入口,但不應是唯一治理結構。否則,工作看似集中在一個地方,實際責任卻仍然分散而不透明。
結果是一個更冷靜、更可信的 AI 策略。自動化已準備好的部分。準備需要判斷的部分。升級帶有風險的部分。把責任、關係、倫理或歧義最重要的部分保留給人。
這比「全部自動化」少一點戲劇性,但更接近有用 AI 系統真正變得可靠的方式。
從治理角度看,operating layer 亦讓限制變得可執行。政策可以落到 permission、source requirement、approval state、audit log 和 escalation queue,而不只是寫在 PDF 裏。這正是專業機構需要的:不是阻止 AI 使用,而是讓 AI 使用有可見邊界。
這種成熟度也比較容易量度。團隊可以檢查 review packet 是否更完整、例外是否更早升級處理、批准是否更清楚、錯誤是否更容易回復、重複修正是否變成 checks。這些指標比「assistant 回答了多少問題」更貼近組織價值,也更能顯示 AI 是否真的進入工作方式。
從使用者角度看,這也更容易建立信任。員工不需要相信一個無所不能的工具;他們只需要看到某個 workflow 的準備確實更好,某個審閱確實更清楚,某些低風險步驟確實更快。信任由具體工作開始,而不是由品牌式承諾開始。
這也是為甚麼「automate everything」不是一個好的工程要求。它沒有說明哪些東西可以自動、哪些要準備、哪些要升級處理、哪些要保留給人。好的要求應該更像:把低風險重複步驟自動化;把需要判斷的工作準備成 review packet;把不確定和高風險情況交回負責人;把責任保留在清楚的人和角色上。
這樣的策略少一點口號感,但更容易被測試、審計和持續改善。它讓 AI 不是一個吞下所有工作的工具,而是一層幫工作變得更清楚、更可控的營運能力。
這也是「萬能工具」幻想最需要被修正的地方。真正成熟的 AI 系統不一定看起來更大,而是更清楚知道自己在每個 workflow 裏的角色:有時執行規則,有時準備材料,有時提出建議,有時停下來交給人。這種分工比一個無所不包的助手更容易治理,也更容易在專業工作中取得信任。
換言之,價值來自清楚的工作結構、責任邊界和可重複的控制方式,而不是把所有工作壓進同一個通用工具裏面,然後假裝責任已經自然解決。
資料來源
- Lisanne Bainbridge, "Ironies of Automation", Automatica, 1983
- IBM, "What Is Workflow Automation?"
- NIST, "AI Risk Management Framework"
- NIST, "Artificial Intelligence Risk Management Framework (AI RMF 1.0)"
- Anthropic, "Building Effective AI Agents"
- Auste Simkute et al., "Ironies of Generative AI", arXiv, 2024
/ 開始
先由一個營運範圍開始,再逐步擴展。
由一個清晰的審閱節奏、工作流程或團隊開始,找出更好的營運背景能即時改善準備和判斷質素的地方。