為甚麼我們把 LLM 私有化部署

2026年7月3日

2026 年在產品加入 AI 的預設做法，是呼叫前沿模型的 API。這個預設是對的——直到它不再適用。我在 Wistkey 的很大一部分工作，就是把 LLM 私有化部署：跑在客戶自己擁有和控制的伺服器上。以下是這個取捨真正划算的時機。

目錄

展開目錄

一、數據真的不能離開的時候
二、用量高而穩定的時候
三、需要模型「不動」的時候
甚麼時候 API 仍然是對的選擇
務實的中間路線

一、數據真的不能離開的時候

大多數對話都由這個原因開始。銀行、醫療機構、律師行、政府供應商——許多組織受規範（或客戶合約）約束，明文禁止把某些數據送到第三方 API，無論供應商的私隱政策寫得多好。

私有化部署把問題從「供應商的數據處理可信嗎？」變成「數據有沒有離開過我們的網絡？」。當答案必須是沒有，架構決定其實已經替你做好了。

二、用量高而穩定的時候

API 計價對突發、難預測的工作負載非常友好。但一旦用量持續——每份文件都要分類、每個員工每天都用的 copilot——經濟賬就反轉了。一組固定的 GPU 跑開源權重模型，無論推多少 token，成本都是固定而可預測的。

每個工作負載的交叉點都不同，所以要實際計算：每月 token 數 × API 價格，對比硬件攤銷＋電費＋維護。答案往往令人意外——兩個方向都有。

三、需要模型「不動」的時候

API 會下架模型、版本之間行為會變、高峰時段會限流。對輸出穩定性重要的流程——任何要審計的、任何接了下游自動化的——把確切的模型版本釘在自己的硬件上，能消除一整類意外。你想升級才升級，而且是在你的評測通過之後。

甚麼時候 API 仍然是對的選擇

誠實說另一面：

前沿能力。 如果任務需要最強的推理模型，開源權重的替代品未必追得上。
突發或小量的工作負載。 閒置的 GPU 是昂貴的鎮紙。
沒有運維能力。 私有化代表要有人負責修補、監控和升級。這個人必須存在。

務實的中間路線

我們做的大部分部署都是混合式：敏感或高用量的流程在本地跑開源權重模型；其他一切照舊呼叫 API。先從一個理據最清晰的流程開始，把它跑好，再用證據而非立場去擴展。

如果你也在為自己的組織衡量這個決定，歡迎交流——電郵我。

分享這篇文章：

用 Claude 和 gcloud 安全地把雲端帳單砍掉九成

你好，世界——為甚麼要有這個網站