AI 模型2026 年 4 月 3 日作者：Ivan So

Microsoft 發布三款 MAI 模型：語音、轉錄與圖像生成正式進駐 Azure AI Foundry

Microsoft 於 2026 年 4 月 2 日正式公布三款新的自研多模態模型，分別是 MAI-Transcribe-1、MAI-Voice-1 及 MAI-Image-2。三款模型同時進駐 Azure AI Foundry，代表 Microsoft 正把語音理解、語音生成與圖像生成能力，直接整合進企業最常用的 AI 開發與部署平台。

這次更新的重要性，不只在於產品數量增加，而在於平台策略更清晰。當開發者可在同一套基礎設施內選擇模型、測試工作流程、接入安全與治理工具時，企業導入多模態 AI 的門檻便會顯著下降。對香港企業而言，這意味著未來無論是客服語音、自動會議摘要、培訓內容生成，還是品牌視覺素材製作，都更容易進入可落地階段。

Microsoft 新模型重點一覽

模型	主要功能	官方定位	適用場景
MAI-Transcribe-1	語音轉文字	高品質轉錄模型	會議紀錄、字幕、客服錄音整理
MAI-Voice-1	文字轉語音	自然語音生成模型	語音客服、旁白、AI 助理
MAI-Image-2	圖像生成	企業可用影像生成能力	營銷素材、簡報配圖、視覺概念圖

Microsoft 這次實際發佈了甚麼？

根據 Microsoft 官方公告，MAI-Transcribe-1 主打高準確度語音轉文字，適合會議紀錄、客服錄音、字幕整理與企業知識庫建立；MAI-Voice-1 則聚焦自然語音生成，可用於語音助理、互動回覆與語音介面；MAI-Image-2 則進一步補足圖像生成能力，讓企業可在 Azure AI Foundry 內直接建立帶有視覺輸出的應用。

更關鍵的是，Microsoft 並沒有把這三款模型獨立成為實驗性展示，而是明確把它們放進 Azure AI Foundry 這個企業開發入口。換言之，這不是單點產品發布，而是一次平台層級的能力擴充。

為何 Azure AI Foundry 的整合特別值得關注？

過去不少企業在導入 AI 時，最大問題不是找不到模型，而是不同模型、不同供應商、不同治理工具彼此割裂。現在 Microsoft 把語音、轉錄、圖像生成能力與既有平台工作流程整合，等於強化了從原型驗證到正式上線的完整路徑。

對企業技術團隊來說，這種整合有三個直接好處：第一，模型能力不再分散於多個工具；第二，安全、權限與合規控管較容易統一；第三，多模態應用的迭代速度會加快。這也是大平台競爭的核心：不是單一模型誰最強，而是誰能讓企業更快把 AI 變成可營運的產品。

香港企業可以怎樣應用這類多模態模型？

若以香港市場的常見場景來看，MAI-Transcribe-1 很適合應用於雙語會議記錄、保險與金融服務的對話整理，以及教育培訓內容轉錄；MAI-Voice-1 可以支援語音客服、電話導覽與教學內容旁白；MAI-Image-2 則可協助市場營銷團隊快速產生社交媒體素材、內部簡報配圖與產品概念圖。

這些應用的共通點，是它們不需要公司自行訓練大模型，而是把既有業務流程與成熟平台能力結合。對大多數企業而言，真正的價值並非『自建模型』，而是『以最短時間部署能節省工時並提升客戶體驗的 AI 功能』。

對 AI 產業格局意味著甚麼？

Microsoft 這次發布再次說明，多模態 AI 正從單一模型競賽走向平台競賽。當語音、影像、轉錄、工作流編排與企業治理工具被整合在同一生態內，平台黏性便會顯著提升。

對市場來說，未來競爭焦點將不只是模型基準測試，而是企業能否在同一供應商框架下完成開發、部署、監控與優化。這也是為甚麼 Azure AI Foundry 的角色越來越接近『AI 作業系統』，而不只是一個模型入口頁。

當多模態模型不再各自為政，而是直接內建於企業開發平台之中，AI 導入的速度與規模化能力就會明顯提升。

參考資料

[1] Microsoft AI Newsroom: Today we're announcing 3 new world-class MAI models available in Foundry

想系統學習生成式 AI、AI Agent 與多模態工作流程應用？aicourse.hk 提供由 Ivan So 親自教授的企業與公開課程。

查詢 AI 課程

AI 教學 Blog