18+

擺脫依賴OpenAI?微軟發表親自操刀的三款「MAI」頂級基礎模型 主打超高性價比與小團隊奇蹟

AI重點

文章重點整理:

  • 重點一:微軟推出三款自研AI模型,顯著提升效能與性價比。
  • 重點二:MAI系列模型針對企業AI應用,提供高效能解決方案。
  • 重點三:微軟成功解除OpenAI合約限制,開啟獨立研發之路。

由微軟AI執行長Mustafa Suleyman領軍的「超級智慧團隊」 (Superintelligence team),稍早一口氣發表三款完全由微軟內部從零研發的基礎AI模型,分別是語音辨識模型MAI-Transcribe-1、語音生成引擎MAI-Voice-1,以及圖像生成模型MAI-Image-2。這不僅是微軟首度拿出足以在單一領域擊敗Google 與OpenAI的自研火力,更透過極具侵略性的定價策略與驚人的硬體執行效率,向華爾街證明其龐大的AI基礎設施投資,已經準備好轉化為實質的獲利武器。

瞄準企業痛點:三劍客齊發,標榜算力減半、效能封頂

這次推出的「MAI」系列模型,精準鎖定企業級AI應用中最具商業價值的三大領域,並且已經同步上架至Microsoft Foundry與全新的MAI Playground:

• MAI-Transcribe-1 (語音轉文字):這是本次發布的重頭戲。根據FLEURS基準測試,其在25種主要語言中的平均單字錯誤率 (WER)僅3.8%,不僅全面擊敗OpenAI廣受歡迎的Whisper-large-v3,更在22種語言中碾壓Google的Gemini 3.1 Flash。最驚人的是,Mustafa Suleyman強調該模型「只需競爭對手一半的GPU算力」即可運行,批次轉錄速度更比現有的Azure 方案快上2.5倍。

• MAI-Voice-1 (文字轉語音):具備極強的生成效率,能在1秒內生成長達60秒的高自然度語音,並且支援透過短短幾秒的音檔進行客製化聲音複製 (Voice Cloning)。微軟對其開出每百萬字元僅需22美元的極具競爭價格,直接向ElevenLabs等語音新創宣戰。

• MAI-Image-2 (圖像生成):該模型目前已經擠進Arena.ai排行榜前三名,生成速度比前代快上兩倍。微軟已將其整合至Bing 與PowerPoint中,並且以每百萬輸入推論字元僅需5美元、輸出則是33美元的破盤價搶市。

重啟談判OpenAI合約,解開「獨立研發」的封印

微軟為何在這個時間點突然端出這些頂尖模型?背後的關鍵,在於一場不為人知的合約重塑。

Mustafa Suleyman坦言,在2019年與OpenAI簽署的原始授權協議中,微軟被合約「明文禁止」獨立開發通用人工智慧 (AGI)。但隨著OpenAI去年開始積極尋求SoftBank等外部算力與資金支援,微軟抓住了機會。

在去年的重新談判中,微軟成功解除了這項限制。雖然雙方的授權合作關係仍將至少延續至2032年,但微軟現在已獲得「完全自由」,能夠不受限制地籌組算力、收購數據,並且研發自家的前沿模型 (Frontier Models)。

不到10人的菁英團隊,重塑AI算力經濟學

這場發布會中最讓業界震撼的內幕,莫過於這些媲美科技巨頭頂級水準的模型,背後的開發團隊規模小得令人難以置信。

Mustafa Suleyman透露,「我們的語音模型只有10個人參與打造,圖像團隊同樣不到10人」。相較Meta砸下數億美元網羅成百上千名研究人員,微軟試圖證明:透過架構的創新與極度乾淨 (Clean lineage)的訓練數據,小團隊也能創造奇蹟。

這套「人本AI」 (Humanist AI)哲學與對訓練資料版權的嚴格把關,正是微軟用來吸引極度重視合規性與資安的企業客戶(如金融、醫療產業)的最大籌碼。

分析觀點

MAI系列模型的誕生,本質上是一場「降本增效」的保衛戰。

藉由在內部產品 (如Microsoft Teams、Copilot)中全面以MAI模型替換掉第三方模型,微軟能以「不到對手一半的GPU消耗」來大幅壓低銷貨成本 (COGS)。而在對外銷售上,Mustafa Suleyman更是毫不掩飾地表示,其定價策略就是要「比亞馬遜和Google等所有雲端巨頭都要便宜」。

而語音和圖像模型終究只是前菜,Mustafa Suleyman已經明確表態,微軟的終極目標是開發出能與GPT-4,以及Gemini正面硬碰硬的「大型語言模型」,以達成徹底的「AI自給自足」。

透過這三款MAI模型的成功試水溫,微軟向市場證明其強大的工程落地能力,接下來的AI大模型之戰,微軟將不再只是OpenAI身後那個只負責出錢和出伺服器的「金主爸爸」。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

精華 FAQ

  • 微軟發表了三款新型AI模型,包括語音辨識的MAI-Transcribe-1、語音生成的MAI-Voice-1,以及圖像生成的MAI-Image-2,這些模型都由微軟內部開發。

  • 這些模型在性能上有顯著優勢,MAI-Transcribe-1的錯誤率僅3.8%,且運行所需GPU算力僅為競爭對手的一半,效率提升顯著。

  • 解除合約限制後,微軟獲得了獨立研發的自由,能夠不受束縛地開發AI模型,這將使其在市場上更具競爭力,尤其是在大型語言模型領域。

延伸閱讀

Arm首度推出自有品牌晶片「Arm AGI CPU」 攜手Meta搶攻代理式AI伺服器商機

終結「情境膨脹」與「思考稅」!NVIDIA發表專為代理型AI打造的Nemotron 3 Super開放模型

瞄準專業人士!OpenAI推出GPT-5.4模型:原生支援電腦操作、能力大幅強化

揮別一招打天下!AMD執行長蘇姿丰:AI基礎設施走向「異構運算」 親解CPU缺貨與記憶體漲價

本日熱門 本周最熱 本月最熱