跳至內容
Nam
返回

為甚麼我們把 LLM 私有化部署

2026 年在產品加入 AI 的預設做法,是呼叫前沿模型的 API。這個預設是對的——直到它不再適用。我在 Wistkey 的很大一部分工作,就是把 LLM 私有化部署:跑在客戶自己擁有和控制的伺服器上。以下是這個取捨真正划算的時機。

目錄

展開目錄

一、數據真的不能離開的時候

大多數對話都由這個原因開始。銀行、醫療機構、律師行、政府供應商——許多組織受規範(或客戶合約)約束,明文禁止把某些數據送到第三方 API,無論供應商的私隱政策寫得多好。

私有化部署把問題從「供應商的數據處理可信嗎?」變成「數據有沒有離開過我們的網絡?」。當答案必須是沒有,架構決定其實已經替你做好了。

二、用量高而穩定的時候

API 計價對突發、難預測的工作負載非常友好。但一旦用量持續——每份文件都要分類、每個員工每天都用的 copilot——經濟賬就反轉了。一組固定的 GPU 跑開源權重模型,無論推多少 token,成本都是固定而可預測的。

每個工作負載的交叉點都不同,所以要實際計算:每月 token 數 × API 價格,對比硬件攤銷+電費+維護。答案往往令人意外——兩個方向都有。

三、需要模型「不動」的時候

API 會下架模型、版本之間行為會變、高峰時段會限流。對輸出穩定性重要的流程——任何要審計的、任何接了下游自動化的——把確切的模型版本釘在自己的硬件上,能消除一整類意外。你想升級才升級,而且是在你的評測通過之後。

甚麼時候 API 仍然是對的選擇

誠實說另一面:

務實的中間路線

我們做的大部分部署都是混合式:敏感或高用量的流程在本地跑開源權重模型;其他一切照舊呼叫 API。先從一個理據最清晰的流程開始,把它跑好,再用證據而非立場去擴展。

如果你也在為自己的組織衡量這個決定,歡迎交流——電郵我


分享這篇文章:

上一篇
用 Claude 和 gcloud 安全地把雲端帳單砍掉九成
下一篇
你好,世界——為甚麼要有這個網站