為「小K咖啡」七間民宿打造的 24 小時 AI 訂房客服 —— 自動查房況、報房價、產生訂房連結、議價轉介、真人接手。跑在自家 NVIDIA RTX PRO 6000 伺服器上,用量再大也不必盯著 token 計費表、無流量上限。以下全部是實機實測數據。
工作站等級硬體,單張 96GB 大卡足以完整載入 120B 參數模型,不需切割、不掉精度。
96GB 顯示記憶體 · 300W · AI 工作站旗艦,單卡跑滿 120B 大模型
32 核心處理器 · 工作站平台 · 水冷散熱
伺服器級錯誤校正記憶體
PCIe 5.0 NVMe 快閃儲存 · 模型秒級載入
7 槽 PCIe 5.0 ×16 · USB4 40G · 可擴充多卡
OpenAI 相容 API · 模型常駐 VRAM · 8 並行槽
以下數字全部是直接打這台伺服器量出來的,不是規格書理論值。模型為 gpt-oss-120B(MoE 架構,每 token 僅激活約 5B 參數,所以又快又省)。
● 真實量測 · 非理論值真實 Ask AI 一輪:吃進約 10–12K tokens 的設定與對話脈絡,自動判斷要不要查資料庫。
| 對話類型 | 實測延遲 | 說明 |
|---|---|---|
| 純問答 / 設施詢問 | 2–4 秒 | 不查資料庫,直接回 |
| 查房況 / 報房價 | 6–10 秒 | 自動呼叫工具查即時空房 |
| 跨棟比較 / 包棟方案 | 10–14 秒 | 一次掃多間民宿 |
調整並行槽即可線性擴充;96GB VRAM 在載入模型後仍有大量空間給多人同時對話。
| 設定 | 同時對話 | 體驗 |
|---|---|---|
| 標準 | 4 位同時 | 各自正常速度、幾乎無感 |
| 現行(8 並行槽) | 8 位同時 | VRAM 仍有餘裕 |
| 理論滿載 | ~600–900 場/小時 | 每場完整對話 3–5 輪 |
// 量測環境:Ollama + gpt-oss-120B,單張 NVIDIA RTX PRO 6000 96GB,內網直連延遲約 3ms。
不是只會聊天的機器人 —— 它真的會查資料庫、算價、產生訂房連結,並懂得什麼時候該找真人。
連動訂房系統查真實空房,含平假日、加人、寵物、早餐計價,並套用房價日曆規則(最少住 N 晚等)
日期人數預填好,客人點開直接到報價頁,可自動帶優惠折扣碼
客人說「端午」「中秋」自動換算正確日期,不靠模型亂猜
客人嫌貴 / 講預算時,先問預算並即時通知老闆娘,不冒然降價
客人回報打破東西,先關心有沒有人受傷,再轉由真人處理賠償
客人喊「轉真人」即推播通知、AI 安靜,後台一鍵切回,全程不漏接
七間民宿各自的官方 LINE 帳號 + 官網浮動 widget,同一套大腦
查咖啡廳早午餐時段,附上招牌介紹與預約方式
萬一自架伺服器臨時離線,自動切回雲端 AI,客人完全無感
兩種方案各有適合的階段。重點不是「誰一定比較便宜」,而是隨著用量與門店數成長,固定成本的自架方案邊際成本趨近於零,且資料完全留在自家。
// 自架的甜蜜點:高用量、長期經營、多店 / 多品牌共用。低用量起步階段,雲端仍是務實選擇。
從硬體選配、模型部署到訂房系統串接、LINE OA 整合,全方位打造專屬於你的 24 小時 AI 客服。
看實際運作 → 官方 LINE 洽詢