概念

為甚麼 AI 需要 source grounding

為甚麼 grounded AI 和 RAG 對專業工作重要:source grounding 顯示證據、新鮮度、欠缺背景、來源脈絡和信任邊界。

重點摘要

  • Source grounding 把 AI 輸出連接到人可以檢查、挑戰和更新的證據。
  • 在專業工作中,grounding 重要,因為流暢不等於準確、新、具權威或完整。
  • Grounding 不是保證;系統仍需要檢索質素、引用檢查、缺口處理和人手審閱,才可支援可問責決定。

AI 需要 source grounding,因為在專業工作中,流暢答案並不足夠。Source grounding 顯示證據、新鮮度、缺口和信任邊界。

在這篇文章,source grounding 指把 AI 輸出連接到支持它的文件、紀錄、政策、數據或參考資料。一個 grounded answer 應該讓人檢查說法從何而來、來源是否當前、是否欠缺重要證據,以及輸出是否超出了來源能支持的範圍。

Grounding gives people something to inspect

AI answer

Output

Claim

Assertion

Review

Verify

Every accountable claim exposes

Evidence

Source

Freshness

Current?

Gaps

Missing?

Trust boundary

Limit

Grounding 重要,因為專業使用者不只需要答案。他們需要知道答案是否可靠。

這也是 operating intelligence 的質素,因為人可以檢查證據,而不是從零判斷一個流暢答案。

Source Grounding 的工作定義

Source grounding 是令 AI 系統的答案向模型流暢文字以外的證據負責的做法。

這些證據可以來自知識庫、文件庫、資料庫、個案檔案、政策庫、交易系統、審計紀錄或外部來源。系統可以使用 retrieval-augmented generation、structured queries、citations、provenance metadata 或 claim-level checks。重點不是技術本身,而是答案要連到可檢查證據。

Retrieval-augmented generation,或 RAG,是常見方法之一。原始 RAG paper 描述把 parametric model 和生成時取回的 non-parametric memory 結合,其中原因之一,是只依賴模型內部參數時,更新世界知識和提供 provenance 仍是未解問題(Lewis et al., 2020)。

問題從何而來

語言模型優化的是流暢,不是問責

生成式 AI 可以用自信、連貫的語氣寫作,即使答案錯誤或沒有支持。NIST 的 Generative AI Profile 把 confabulation 描述為自信呈現的錯誤或虛假內容,並指出這類輸出可以包括錯誤邏輯或引用,進一步誤導人信任答案(NIST AI 600-14)。

這在專業工作中特別危險。一個打磨得好的答案,可以掩蓋過時政策、欠缺紀錄、薄弱證據,或從一個事實跳到另一個事實的無支持推論。

專業工作依賴 provenance

專業人士經常需要回答後續問題:

  • 哪份文件支持這個說法?
  • 這是否最新版本?
  • 我們是否檢查過相關例外?
  • 這來源是否適用於這個客戶、司法管轄區、matter、產品或期間?
  • 欠缺甚麼證據?
  • 誰批准了這個詮釋?

Ungrounded answer 令這些問題更難。Grounded answer 則令它們成為工作流一部分。

事實性是按領域和情境而定

Factuality 不只是某句說話在一般情況下是否真。它是這句說話在這個情況、這條政策、這個時間、這些紀錄下是否真。一份大型語言模型 factuality 綜述指出,當 LLMs 被用於不同領域時,事實可靠性特別重要,並區分只靠自身的模型和使用外部數據的 retrieval-augmented models(Wang et al., 20233)。

這個分別對機構很重要。內部真相會改變。政策會修訂。客戶紀錄會移動。法律立場會演變。模型訓練數據不夠。

實務做法

Source grounding 應該做四件事。

顯示證據

系統應該呈現支持答案的文件、紀錄、段落或數據列。在專業場景中,citation 不是裝飾,而是驗證路徑。

顯示新鮮度

系統應該幫助使用者看到來源是否當前。基於去年政策的正確答案,今日可能是錯的。Freshness 對合約、合規、定價、營運、公眾指引和受監管工作都重要。

顯示缺口

好的 grounding 不只顯示找到甚麼,也揭示找不到甚麼。欠缺證據應該足夠可見,讓系統可以說:「我沒有現時批准」、「來源集不包括已簽署版本」,或「這個答案依賴未驗證假設」。

顯示信任邊界

Grounding 應該清楚說明系統被允許知道和做甚麼。建基於內部筆記的答案,和建基於已簽署合約的答案不同。基於一個司法管轄區的草稿,不應被當作全球指引。檢索來源可能支持摘要,但不支持決定。

信任邊界亦包括來源之間的權威排序。客戶電郵可以證明有人提出過要求,但不一定證明機構已接受承諾;內部備忘可以記錄討論方向,但不一定等於批准;公開指引可以提供一般背景,但未必適用於特定客戶或期間。Grounded system 要把這些差異呈現出來,否則 citation 會令人誤以為所有來源都同樣有力。

Grounding 不是甚麼

Source grounding 不是真相保證。

Retrieval 可能取回錯誤來源。模型可能誤讀來源。Citation 可能指向實際上不支持該說法的文件。來源可以過時、不完整、有偏見或互相矛盾。Grounding 減少盲目依賴模型記憶,但不消除評估和審閱的需要。

NIST 的 AI RMF 強調 validity、reliability、accuracy、robustness、safety、transparency、explainability、privacy 和 fairness 必須一併考慮,而且 AI 部署應按情境評估(NIST AI RMF5)。Grounding 是信任模型的一部分,不是整個模型。

實務例子

法律和政策工作

一個 grounded AI assistant 草擬 policy note 時,應引用現行政策、相關例外、過往決定和來源日期。如果找不到最新已批准版本,它應該說明,而不是用似是而非的文字補空白。

客戶營運

Grounded support assistant 應區分 public help-center text、account-specific records、internal escalation notes 和 contractual commitments。這些來源帶有不同權威。

管理匯報

Grounded operating summary 應把說法連到 underlying system of record:任務、tickets、發票、incidents、pipeline entries 或會議筆記。這讓讀者不用由零開始也能挑戰答案。

甚麼時候未必需要 Source Grounding

對低風險創作、brainstorming、語氣重寫、placeholder copy 或內部探索來說,grounding 可能較不重要,特別是當沒有人依賴輸出中的事實聲稱。但只要輸出會用於決定、建議別人、更新紀錄或代表機構,grounding 就會變得重要。

結論

AI 需要 source grounding,因為專業信任不只取決於流暢。人需要看到哪些證據支持答案、證據是否當前、缺口在哪裏,以及系統權限止於何處。

這亦令審閱工作變得更集中。沒有 grounding,審閱者要同時判斷文字是否合理、事實是否存在、來源是否正確、資料是否最新。有效 grounding 會把這些問題拆開:先看來源,再看模型如何使用來源,再看是否有不應跨越的權限或判斷邊界。這不是把責任交給引用,而是給人一條可追蹤的審閱路徑。

在實務上,團隊亦要避免把 citations 當作表面合規。真正的 grounding 應該能回答「這個來源是否真的支持這句話」,而不只是把文件連結放在段落旁邊。重要說法最好能連到具體段落、紀錄欄位或版本;如果來源只支持部分內容,系統應該標明限制,而不是讓讀者以為整段都已被證明。

Grounding 也要配合資料治理。若系統取回使用者無權查看的文件,即使答案事實正確,也可能不應顯示。若系統把過時政策和新政策混在一起,它應該標示版本差異。若來源之間互相矛盾,好的答案應該呈現衝突並要求審閱,而不是選一邊寫成肯定結論。

Grounded AI 不是完美 AI,而是給人可檢查材料的 AI。這是審閱、升級、問責和更安全委派的基礎。

落地 source grounding 時,團隊應先決定哪些來源算權威。對一個流程來說,已簽署合約、最新政策、系統紀錄、會議筆記和非正式訊息可能同時存在,但它們不能擁有同等地位。系統要能顯示來源類型、版本、日期和適用範圍,並在來源不足時明確說明。

其次,grounding 要配合審閱介面。審閱者應能由結論跳到來源,由來源回到結論,並看到模型在甚麼地方作出推論。這樣,grounding 才不只是引用清單,而是可實際使用的問責路徑。否則,citation 只會變成另一種裝飾。

因此,source grounding 的目標不是讓 AI 看起來更可信,而是讓人可以檢查、挑戰和更新它的輸出。這正是專業工作需要的基礎。

專業信任來自可追溯的證據,而不只是流暢文字。

這一點不能省略。

資料來源

  1. Patrick Lewis et al., "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"
  2. Yunfan Gao et al., "Retrieval-Augmented Generation for Large Language Models: A Survey"
  3. Cunxiang Wang et al., "Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity"
  4. NIST Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile
  5. NIST AI Risk Management Framework 1.0

/ 開始

先由一個營運範圍開始,再逐步擴展。

由一個清晰的審閱節奏、工作流程或團隊開始,找出更好的營運背景能即時改善準備和判斷質素的地方。

預約示範
© 2026 Interfacing Research Laboratory
版權所有。