私有 AI 客服主機｜資料不出區網 · 不再有 Token 焦慮

The Machine

這台機器的規格

工作站等級硬體，單張 96GB 大卡足以完整載入 120B 參數模型，不需切割、不掉精度。

NVIDIA RTX PRO 6000 Blackwell

96GB 顯示記憶體 · 300W · AI 工作站旗艦，單卡跑滿 120B 大模型

AMD Threadripper PRO

32 核心處理器 · 工作站平台 · 水冷散熱

DDR5 ECC RDIMM

伺服器級錯誤校正記憶體

M.2 PCIe 5.0 SSD

PCIe 5.0 NVMe 快閃儲存 · 模型秒級載入

雙 10GbE 網路

7 槽 PCIe 5.0 ×16 · USB4 40G · 可擴充多卡

Ubuntu Server + Ollama

OpenAI 相容 API · 模型常駐 VRAM · 8 並行槽

看這台主機規格與選購 →

Benchmark

實機效能實測

以下數字全部是直接打這台伺服器量出來的，不是規格書理論值。模型為 gpt-oss-120B（MoE 架構，每 token 僅激活約 5B 參數，所以又快又省）。

● 真實量測 · 非理論值

161 tok/s

回覆生成速度

客人收到字的速度感，比人打字快數倍

3,370 tok/s

讀取速度 prefill

吃進完整 system prompt + 對話歷史

2.6 秒

5 人同時問

自動批次處理，不是一個一個排隊

Real Workload

一次客人對話要多久？

真實 Ask AI 一輪：吃進約 10–12K tokens 的設定與對話脈絡，自動判斷要不要查資料庫。

對話類型	實測延遲	說明
純問答 / 設施詢問	2–4 秒	不查資料庫，直接回
查房況 / 報房價	6–10 秒	自動呼叫工具查即時空房
跨棟比較 / 包棟方案	10–14 秒	一次掃多間民宿

能同時服務幾位客人？

調整並行槽即可線性擴充；96GB VRAM 在載入模型後仍有大量空間給多人同時對話。

設定	同時對話	體驗
標準	4 位同時	各自正常速度、幾乎無感
現行（8 並行槽）	8 位同時	VRAM 仍有餘裕
理論滿載	~600–900 場/小時	每場完整對話 3–5 輪

// 量測環境：Ollama + gpt-oss-120B，單張 NVIDIA RTX PRO 6000 96GB，內網直連延遲約 3ms。

What it does

AI 客服實際會做的事

不是只會聊天的機器人 —— 它真的會查資料庫、算價、產生訂房連結，並懂得什麼時候該找真人。

即時查房況房價

連動訂房系統查真實空房，含平假日、加人、寵物、早餐計價，並套用房價日曆規則（最少住 N 晚等）

一鍵訂房連結

日期人數預填好，客人點開直接到報價頁，可自動帶優惠折扣碼

懂國定假日

客人說「端午」「中秋」自動換算正確日期，不靠模型亂猜

議價智慧轉介

客人嫌貴 / 講預算時，先問預算並即時通知老闆娘，不冒然降價

安全優先回應

客人回報打破東西，先關心有沒有人受傷，再轉由真人處理賠償

真人無縫接手

客人喊「轉真人」即推播通知、AI 安靜，後台一鍵切回，全程不漏接

LINE OA × 8 + 官網

八間民宿各自的官方 LINE 帳號 + 官網浮動 widget，同一套大腦

餐廳訂位整合

查咖啡廳早午餐時段，附上招牌介紹與預約方式

雲端自動備援

萬一自架伺服器臨時離線，自動切回雲端 AI，客人完全無感

Economics of scale

用量越大，自架越划算

兩種方案各有適合的階段。重點不是「誰一定比較便宜」，而是隨著用量與門店數成長，固定成本的自架方案邊際成本趨近於零，且資料完全留在自家。

雲端 API

零建置、起步最快，適合輕量或剛導入
費用隨用量等比成長，量越大帳單越高
尖峰可能撞流量限制，需排隊或升方案
對話與客戶資料送往第三方雲端

自架 GPU 伺服器

用量算在自己機器上，不必盯著 token 計費表、沒有按量帳單焦慮
用量越大，每次對話的平均成本越低（固定成本被攤平）
一台機器算力大幅有餘，可同時服務多間門店，再攤更薄
無 Rate Limit、尖峰也順；資料完全留在自家區網

// 自架的甜蜜點：高用量、長期經營、多店 / 多品牌共用。低用量起步階段，雲端仍是務實選擇。

私有 AI 客服主機
資料不出區網，
不再有 Token 焦慮

這台機器的規格

NVIDIA RTX PRO 6000 Blackwell

AMD Threadripper PRO

DDR5 ECC RDIMM

M.2 PCIe 5.0 SSD

雙 10GbE 網路

Ubuntu Server + Ollama

實機效能實測

一次客人對話要多久？

能同時服務幾位客人？

AI 客服實際會做的事

即時查房況房價

一鍵訂房連結

懂國定假日

議價智慧轉介

安全優先回應

真人無縫接手

LINE OA × 8 + 官網

餐廳訂位整合

雲端自動備援

用量越大，自架越划算

雲端 API

自架 GPU 伺服器

想為自己的民宿 / 餐廳
建一套這樣的 AI 客服？

這台機器的規格

NVIDIA RTX PRO 6000 Blackwell

AMD Threadripper PRO

DDR5 ECC RDIMM

M.2 PCIe 5.0 SSD

雙 10GbE 網路

Ubuntu Server + Ollama

實機效能實測

一次客人對話要多久？

能同時服務幾位客人？

AI 客服實際會做的事

即時查房況房價

一鍵訂房連結

懂國定假日

議價智慧轉介

安全優先回應

真人無縫接手

LINE OA × 8 + 官網

餐廳訂位整合

雲端自動備援

用量越大，自架越划算

雲端 API

自架 GPU 伺服器

想為自己的民宿 / 餐廳建一套這樣的 AI 客服？

想為自己的民宿 / 餐廳
建一套這樣的 AI 客服？