
除了與OpenAI 持續合作人工智慧 模型,微軟 也持續更新其Phi系列小型語言模型。而稍早宣布推出的Phi-4-multimodal,則是加入支援語音、圖像及文字 的多模態處理能力,並且透過Azure AI Foundry、Hugging Face及Nvidia API Catalog等託管平台提供使用。
相比先前推出的Phi-4,此次推出版本主要強化多模態處理能力,並且強化語音識別、視覺分析與文字推論表現,藉此提升裝置端的多工人工智慧應用性能。
由於對應多模態處理方式,因此不像過往模型必須先將語音內容轉換為文字,並且必須透過獨立視覺模型處理影像分析工作,會讓整體執行效率產生明顯延遲,同時也可能造成裝置更大記憶體等資源損耗。
而此次提出的Phi-4-multimodal,則可透過統一神經網路架構直接處理語音、圖像與文字內容,藉此提升資料處理效率。同時,Phi-4-multimodal本身具備56億組參數、支援12.8萬組詞元前後內容處理能力,另外也支援偏好最佳化、回饋強化學習,並且標榜使用安全性。
Phi-4-multimodal支援超過20種語言,其中包含英文、中文、日文、韓文、德文、法文等主要語言,語音則支援英文、中文、西班牙文、日文等主要語言,至於圖像處理部分則僅暫時支援英文理解。
除了Phi-4-multimodal,微軟也同步推出更小規模的Phi-4-mini,參數量僅有38億組,並且聚焦在文字內容處理,並且支援程式編碼產生,以及數學推理、長文內容處理等,可同時處理12.8萬組詞元內容,標榜在同規模的小型語言模型具備更高推理能力與指令遵循表現。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 Sony Xperia 1 VII旗艦手機爆3災情!台灣官方跟進日本「暫停出貨銷售」
📢 Switch 2上市前搶先玩!這11款遊戲必玩
📢 iPhone 17 Air對決Galaxy S25 Edge!超薄大勝但被爆「其他地方沒這麼驚豔」
📢Windows 10續命大絕又來了!不想升級Win11最後方法曝光 多1年支援
📢 小米手環10開賣!5亮點當千元高CP穿戴裝置 可直攻NFC版本更好用
📢 得獎公布/ASUS TUF Gaming初音未來聯名電競組開箱!鍵鼠全套香翻