開源模型與推理晶片新拐點

過去兩天的 AI 動態有一個共同點:能力提升不只靠更大的模型,還要靠更便宜、更快、更穩定的部署方式。對香港的市場、營運與產品團隊來說,下一輪競爭不再只是用不用 AI,而是用哪一套、怎樣接入、怎樣控風險。尤其當你開始把 AI 放進客服、銷售支援或內容工序時,成本、延遲與可維護性往往比單次的『最強回覆』更重要。

Google 以新一代 TPU 轉攻推理速度

Google 表示將在雲端大會公布新一代自研 TPU,並把重點放在推理,也就是模型訓練完成後的實際運行與回應速度。隨著 AI 代理與即時問答普及,推理成本與延遲會直接反映在用戶體驗與雲端帳單。企業評估平台時,除了訓練能力,更要看推理吞吐、可擴展性、供應量,以及是否支援把同一套工作流部署到不同地區,避免高峰期資源不足。

Gemma 4 讓可商用開源更易落地

同一時間,Google 發布 Gemma 4 開源模型家族,以 Apache 2.0 授權提供多種尺寸,從 Effective 2B/4B 到 26B MoE 與 31B Dense,並主打長上下文與代理式工作流。對中小企與內部 IT 團隊而言,可商用的開源模型可用於私有環境部署,配合資料合規與客戶保密條款,同時按成本與延遲選擇合適大小,逐步把客服摘要、會議重點、文件分類與知識庫查詢流程半自動化。做法上可以先用小模型處理高頻任務,再把需要更高準確度的步驟交給較大模型或雲端服務。

Claude API 模型退役:把版本管理寫進流程

Anthropic 近日更新 Claude API 的停用節奏,部分 Sonnet/Opus 舊版本已標示將於 6 月中退役,較早期的 Haiku 3 亦到達退役日期。這提醒企業不要把模型代號硬寫在系統內,否則到期就可能直接失效,影響 Bot、報表生成或自動回覆。較穩妥的做法是把模型選項參數化,保留替換清單與回歸測試,並準備一組常見問題或真實文件作為基準樣本,定期檢查輸出品質與格式。

總結來看,模型、晶片與平台更新正在同時加速。對正在推動落地的團隊,最值得投資的是可替換、可監控、可擴充的使用框架,讓工具變動時仍能保持產出與可控風險。