2026 年在產品加入 AI 的預設做法,是呼叫前沿模型的 API。這個預設是對的——直到它不再適用。我在 Wistkey 的很大一部分工作,就是把 LLM 私有化部署:跑在客戶自己擁有和控制的伺服器上。以下是這個取捨真正划算的時機。
目錄
一、數據真的不能離開的時候
大多數對話都由這個原因開始。銀行、醫療機構、律師行、政府供應商——許多組織受規範(或客戶合約)約束,明文禁止把某些數據送到第三方 API,無論供應商的私隱政策寫得多好。
私有化部署把問題從「供應商的數據處理可信嗎?」變成「數據有沒有離開過我們的網絡?」。當答案必須是沒有,架構決定其實已經替你做好了。
二、用量高而穩定的時候
API 計價對突發、難預測的工作負載非常友好。但一旦用量持續——每份文件都要分類、每個員工每天都用的 copilot——經濟賬就反轉了。一組固定的 GPU 跑開源權重模型,無論推多少 token,成本都是固定而可預測的。
每個工作負載的交叉點都不同,所以要實際計算:每月 token 數 × API 價格,對比硬件攤銷+電費+維護。答案往往令人意外——兩個方向都有。
三、需要模型「不動」的時候
API 會下架模型、版本之間行為會變、高峰時段會限流。對輸出穩定性重要的流程——任何要審計的、任何接了下游自動化的——把確切的模型版本釘在自己的硬件上,能消除一整類意外。你想升級才升級,而且是在你的評測通過之後。
甚麼時候 API 仍然是對的選擇
誠實說另一面:
- 前沿能力。 如果任務需要最強的推理模型,開源權重的替代品未必追得上。
- 突發或小量的工作負載。 閒置的 GPU 是昂貴的鎮紙。
- 沒有運維能力。 私有化代表要有人負責修補、監控和升級。這個人必須存在。
務實的中間路線
我們做的大部分部署都是混合式:敏感或高用量的流程在本地跑開源權重模型;其他一切照舊呼叫 API。先從一個理據最清晰的流程開始,把它跑好,再用證據而非立場去擴展。
如果你也在為自己的組織衡量這個決定,歡迎交流——電郵我。