除了與OpenAI 持續合作人工智慧 模型,微軟 也持續更新其Phi系列小型語言模型。而稍早宣布推出的Phi-4-multimodal,則是加入支援語音、圖像及文字 的多模態處理能力,並且透過Azure AI Foundry、Hugging Face及Nvidia API Catalog等託管平台提供使用。
相比先前推出的Phi-4,此次推出版本主要強化多模態處理能力,並且強化語音識別、視覺分析與文字推論表現,藉此提升裝置端的多工人工智慧應用性能。
由於對應多模態處理方式,因此不像過往模型必須先將語音內容轉換為文字,並且必須透過獨立視覺模型處理影像分析工作,會讓整體執行效率產生明顯延遲,同時也可能造成裝置更大記憶體等資源損耗。
而此次提出的Phi-4-multimodal,則可透過統一神經網路架構直接處理語音、圖像與文字內容,藉此提升資料處理效率。同時,Phi-4-multimodal本身具備56億組參數、支援12.8萬組詞元前後內容處理能力,另外也支援偏好最佳化、回饋強化學習,並且標榜使用安全性。
Phi-4-multimodal支援超過20種語言,其中包含英文、中文、日文、韓文、德文、法文等主要語言,語音則支援英文、中文、西班牙文、日文等主要語言,至於圖像處理部分則僅暫時支援英文理解。
除了Phi-4-multimodal,微軟也同步推出更小規模的Phi-4-mini,參數量僅有38億組,並且聚焦在文字內容處理,並且支援程式編碼產生,以及數學推理、長文內容處理等,可同時處理12.8萬組詞元內容,標榜在同規模的小型語言模型具備更高推理能力與指令遵循表現。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 eneloop充電電池開箱!實測高續航力ㄅ級分 絕配富士instax mini 41 拍立得
📢 便宜資費懶人包/5G 399元比4G便宜 新方案「每月加100」上網升級
📢 三星爆有4款新摺疊機!神祕新機型號現身 傳為平價Galaxy Z Fold8 FE
📢 LINE免費貼圖!報稅「錢錢再見」、PASS拒絕哏圖好用 還有蠟筆小新快下載
📢 買預付卡出國漫遊…回國竟涉詐欺案 釣出一票人「忽略SIM卡1事」全中獎
📢 懶人包/預付卡有使用期限嗎?出國漫遊用完SIM卡可丟嗎?QA一次看

討論區