
除了與OpenAI 持續合作人工智慧 模型,微軟 也持續更新其Phi系列小型語言模型。而稍早宣布推出的Phi-4-multimodal,則是加入支援語音、圖像及文字 的多模態處理能力,並且透過Azure AI Foundry、Hugging Face及Nvidia API Catalog等託管平台提供使用。
相比先前推出的Phi-4,此次推出版本主要強化多模態處理能力,並且強化語音識別、視覺分析與文字推論表現,藉此提升裝置端的多工人工智慧應用性能。
由於對應多模態處理方式,因此不像過往模型必須先將語音內容轉換為文字,並且必須透過獨立視覺模型處理影像分析工作,會讓整體執行效率產生明顯延遲,同時也可能造成裝置更大記憶體等資源損耗。
而此次提出的Phi-4-multimodal,則可透過統一神經網路架構直接處理語音、圖像與文字內容,藉此提升資料處理效率。同時,Phi-4-multimodal本身具備56億組參數、支援12.8萬組詞元前後內容處理能力,另外也支援偏好最佳化、回饋強化學習,並且標榜使用安全性。
Phi-4-multimodal支援超過20種語言,其中包含英文、中文、日文、韓文、德文、法文等主要語言,語音則支援英文、中文、西班牙文、日文等主要語言,至於圖像處理部分則僅暫時支援英文理解。
除了Phi-4-multimodal,微軟也同步推出更小規模的Phi-4-mini,參數量僅有38億組,並且聚焦在文字內容處理,並且支援程式編碼產生,以及數學推理、長文內容處理等,可同時處理12.8萬組詞元內容,標榜在同規模的小型語言模型具備更高推理能力與指令遵循表現。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 影/iPhone 17 Pro Max實機曝光!機身比16 Pro厚 相機模組神巨大
📢Sony WH-1000XM6藍牙耳機開箱!摺疊回歸、降噪驚豔「讓世界變安靜」
📢 任天堂Switch 2台灣7月10日上市開賣!試玩台北體驗會就能買 價格出爐
📢 注意!華碩路由器全球逾9千台遭入侵「重開機沒用」 用戶快做1事自保
📢 YouTube會員台灣便宜雙人方案來了!價格比印度貴近4倍 規則一次看
📢 你是「居然人」或「竟然人」?LINE都市傳說瘋傳 網搜對話狂讚:真的準