自架 GPU · 民宿專屬 AI 客服

私有 AI 客服主機
資料不出區網
不再有 Token 焦慮

為「小K咖啡」七間民宿打造的 24 小時 AI 訂房客服 —— 自動查房況、報房價、產生訂房連結、議價轉介、真人接手。跑在自家 NVIDIA RTX PRO 6000 伺服器上,用量再大也不必盯著 token 計費表、無流量上限。以下全部是實機實測數據

gpt-oss-120B 大模型 NVIDIA RTX PRO 6000 Blackwell 96GB LINE OA × 7 + 官網 widget 不再有 Token 焦慮 · 無 Rate Limit
161tok/s
生成速度(單一對話)
3,370tok/s
讀取速度(prefill)
2.6
5 人同時問全部回完
8並行
同時對話不排隊
The Machine

這台機器的規格

工作站等級硬體,單張 96GB 大卡足以完整載入 120B 參數模型,不需切割、不掉精度。

NVIDIA RTX PRO 6000 Blackwell

96GB 顯示記憶體 · 300W · AI 工作站旗艦,單卡跑滿 120B 大模型

AMD Threadripper PRO

32 核心處理器 · 工作站平台 · 水冷散熱

DDR5 ECC RDIMM

伺服器級錯誤校正記憶體

M.2 PCIe 5.0 SSD

PCIe 5.0 NVMe 快閃儲存 · 模型秒級載入

雙 10GbE 網路

7 槽 PCIe 5.0 ×16 · USB4 40G · 可擴充多卡

Ubuntu Server + Ollama

OpenAI 相容 API · 模型常駐 VRAM · 8 並行槽

看這台主機規格與選購 →
Benchmark

實機效能實測

以下數字全部是直接打這台伺服器量出來的,不是規格書理論值。模型為 gpt-oss-120B(MoE 架構,每 token 僅激活約 5B 參數,所以又快又省)。

● 真實量測 · 非理論值
161 tok/s
回覆生成速度
客人收到字的速度感,比人打字快數倍
3,370 tok/s
讀取速度 prefill
吃進完整 system prompt + 對話歷史
2.6
5 人同時問
自動批次處理,不是一個一個排隊
Real Workload

一次客人對話要多久?

真實 Ask AI 一輪:吃進約 10–12K tokens 的設定與對話脈絡,自動判斷要不要查資料庫。

對話類型實測延遲說明
純問答 / 設施詢問2–4 秒不查資料庫,直接回
查房況 / 報房價6–10 秒自動呼叫工具查即時空房
跨棟比較 / 包棟方案10–14 秒一次掃多間民宿

能同時服務幾位客人?

調整並行槽即可線性擴充;96GB VRAM 在載入模型後仍有大量空間給多人同時對話。

設定同時對話體驗
標準4 位同時各自正常速度、幾乎無感
現行(8 並行槽)8 位同時VRAM 仍有餘裕
理論滿載~600–900 場/小時每場完整對話 3–5 輪

// 量測環境:Ollama + gpt-oss-120B,單張 NVIDIA RTX PRO 6000 96GB,內網直連延遲約 3ms。

What it does

AI 客服實際會做的事

不是只會聊天的機器人 —— 它真的會查資料庫、算價、產生訂房連結,並懂得什麼時候該找真人。

即時查房況房價

連動訂房系統查真實空房,含平假日、加人、寵物、早餐計價,並套用房價日曆規則(最少住 N 晚等)

一鍵訂房連結

日期人數預填好,客人點開直接到報價頁,可自動帶優惠折扣碼

懂國定假日

客人說「端午」「中秋」自動換算正確日期,不靠模型亂猜

議價智慧轉介

客人嫌貴 / 講預算時,先問預算並即時通知老闆娘,不冒然降價

安全優先回應

客人回報打破東西,先關心有沒有人受傷,再轉由真人處理賠償

真人無縫接手

客人喊「轉真人」即推播通知、AI 安靜,後台一鍵切回,全程不漏接

LINE OA × 7 + 官網

七間民宿各自的官方 LINE 帳號 + 官網浮動 widget,同一套大腦

餐廳訂位整合

查咖啡廳早午餐時段,附上招牌介紹與預約方式

雲端自動備援

萬一自架伺服器臨時離線,自動切回雲端 AI,客人完全無感

Economics of scale

用量越大,自架越划算

兩種方案各有適合的階段。重點不是「誰一定比較便宜」,而是隨著用量與門店數成長,固定成本的自架方案邊際成本趨近於零,且資料完全留在自家。

雲端 API

  • 零建置、起步最快,適合輕量或剛導入
  • 費用隨用量等比成長,量越大帳單越高
  • 尖峰可能撞流量限制,需排隊或升方案
  • 對話與客戶資料送往第三方雲端

自架 GPU 伺服器

  • 用量算在自己機器上,不必盯著 token 計費表、沒有按量帳單焦慮
  • 用量越大,每次對話的平均成本越低(固定成本被攤平)
  • 一台機器算力大幅有餘,可同時服務多間門店,再攤更薄
  • 無 Rate Limit、尖峰也順;資料完全留在自家區網

// 自架的甜蜜點:高用量、長期經營、多店 / 多品牌共用。低用量起步階段,雲端仍是務實選擇。

Built for hospitality

想為自己的民宿 / 餐廳
建一套這樣的 AI 客服?

從硬體選配、模型部署到訂房系統串接、LINE OA 整合,全方位打造專屬於你的 24 小時 AI 客服。

看實際運作 → 官方 LINE 洽詢