除了與OpenAI 持續合作人工智慧 模型,微軟 也持續更新其Phi系列小型語言模型。而稍早宣布推出的Phi-4-multimodal,則是加入支援語音、圖像及文字 的多模態處理能力,並且透過Azure AI Foundry、Hugging Face及Nvidia API Catalog等託管平台提供使用。
相比先前推出的Phi-4,此次推出版本主要強化多模態處理能力,並且強化語音識別、視覺分析與文字推論表現,藉此提升裝置端的多工人工智慧應用性能。
由於對應多模態處理方式,因此不像過往模型必須先將語音內容轉換為文字,並且必須透過獨立視覺模型處理影像分析工作,會讓整體執行效率產生明顯延遲,同時也可能造成裝置更大記憶體等資源損耗。
而此次提出的Phi-4-multimodal,則可透過統一神經網路架構直接處理語音、圖像與文字內容,藉此提升資料處理效率。同時,Phi-4-multimodal本身具備56億組參數、支援12.8萬組詞元前後內容處理能力,另外也支援偏好最佳化、回饋強化學習,並且標榜使用安全性。
Phi-4-multimodal支援超過20種語言,其中包含英文、中文、日文、韓文、德文、法文等主要語言,語音則支援英文、中文、西班牙文、日文等主要語言,至於圖像處理部分則僅暫時支援英文理解。
除了Phi-4-multimodal,微軟也同步推出更小規模的Phi-4-mini,參數量僅有38億組,並且聚焦在文字內容處理,並且支援程式編碼產生,以及數學推理、長文內容處理等,可同時處理12.8萬組詞元內容,標榜在同規模的小型語言模型具備更高推理能力與指令遵循表現。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 POCO F8 Ultra開箱!驚豔Bose低音砲 實測鏡頭拍峇里島日出、捕捉厭世猴群
📢 LINE吃200GB空間!刪1群組「全當機」靠它救回 他曝安心刪除方法
📢 iPhone用戶小心!他「打FaceTime」慘交5700元電話費 改1設定防中招
📢 iPhone 18系列「史上最難選」!打破賈伯斯策略 選機方式大變動
📢 DJI Neo 2開箱!實測新手操作 空拍日出、環繞、跟拍1秒上手
📢 懶人包/LINE帳號換機方法一文看懂!開始前檢查3件事、1錯誤害資料救不回
