AI 產業 2026 年 4 月 20 日作者：Ivan So

開源模型與推理晶片新拐點

過去兩天的 AI 動態有一個共同點：能力提升不只靠更大的模型，還要靠更便宜、更快、更穩定的部署方式。對香港的市場、營運與產品團隊來說，下一輪競爭不再只是用不用 AI，而是用哪一套、怎樣接入、怎樣控風險。尤其當你開始把 AI 放進客服、銷售支援或內容工序時，成本、延遲與可維護性往往比單次的『最強回覆』更重要。

Google 以新一代 TPU 轉攻推理速度

Google 表示將在雲端大會公布新一代自研 TPU，並把重點放在推理，也就是模型訓練完成後的實際運行與回應速度。隨著 AI 代理與即時問答普及，推理成本與延遲會直接反映在用戶體驗與雲端帳單。企業評估平台時，除了訓練能力，更要看推理吞吐、可擴展性、供應量，以及是否支援把同一套工作流部署到不同地區，避免高峰期資源不足。

Gemma 4 讓可商用開源更易落地

同一時間，Google 發布 Gemma 4 開源模型家族，以 Apache 2.0 授權提供多種尺寸，從 Effective 2B/4B 到 26B MoE 與 31B Dense，並主打長上下文與代理式工作流。對中小企與內部 IT 團隊而言，可商用的開源模型可用於私有環境部署，配合資料合規與客戶保密條款，同時按成本與延遲選擇合適大小，逐步把客服摘要、會議重點、文件分類與知識庫查詢流程半自動化。做法上可以先用小模型處理高頻任務，再把需要更高準確度的步驟交給較大模型或雲端服務。

Claude API 模型退役：把版本管理寫進流程

Anthropic 近日更新 Claude API 的停用節奏，部分 Sonnet/Opus 舊版本已標示將於 6 月中退役，較早期的 Haiku 3 亦到達退役日期。這提醒企業不要把模型代號硬寫在系統內，否則到期就可能直接失效，影響 Bot、報表生成或自動回覆。較穩妥的做法是把模型選項參數化，保留替換清單與回歸測試，並準備一組常見問題或真實文件作為基準樣本，定期檢查輸出品質與格式。

總結來看，模型、晶片與平台更新正在同時加速。對正在推動落地的團隊，最值得投資的是可替換、可監控、可擴充的使用框架，讓工具變動時仍能保持產出與可控風險。

AI 教學 Blog

開源模型與推理晶片新拐點

Google 以新一代 TPU 轉攻推理速度

Gemma 4 讓可商用開源更易落地

Claude API 模型退役：把版本管理寫進流程