
除了與OpenAI 持續合作人工智慧 模型,微軟 也持續更新其Phi系列小型語言模型。而稍早宣布推出的Phi-4-multimodal,則是加入支援語音、圖像及文字 的多模態處理能力,並且透過Azure AI Foundry、Hugging Face及Nvidia API Catalog等託管平台提供使用。
相比先前推出的Phi-4,此次推出版本主要強化多模態處理能力,並且強化語音識別、視覺分析與文字推論表現,藉此提升裝置端的多工人工智慧應用性能。
由於對應多模態處理方式,因此不像過往模型必須先將語音內容轉換為文字,並且必須透過獨立視覺模型處理影像分析工作,會讓整體執行效率產生明顯延遲,同時也可能造成裝置更大記憶體等資源損耗。
而此次提出的Phi-4-multimodal,則可透過統一神經網路架構直接處理語音、圖像與文字內容,藉此提升資料處理效率。同時,Phi-4-multimodal本身具備56億組參數、支援12.8萬組詞元前後內容處理能力,另外也支援偏好最佳化、回饋強化學習,並且標榜使用安全性。
Phi-4-multimodal支援超過20種語言,其中包含英文、中文、日文、韓文、德文、法文等主要語言,語音則支援英文、中文、西班牙文、日文等主要語言,至於圖像處理部分則僅暫時支援英文理解。
除了Phi-4-multimodal,微軟也同步推出更小規模的Phi-4-mini,參數量僅有38億組,並且聚焦在文字內容處理,並且支援程式編碼產生,以及數學推理、長文內容處理等,可同時處理12.8萬組詞元內容,標榜在同規模的小型語言模型具備更高推理能力與指令遵循表現。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 「找車位神器」3秒搜出停車格!5縣市可用 駕駛實測嘆:相見恨晚
📢網紅「小周牙醫」歧視同志言論挨轟!道歉被網抓包IG、YT秒做1事:沒誠意
📢 Switch 2台北體驗會7/5登場!抽選制、超詳細報名規則曝
📢 ASUS VivoWatch 6 AERO智慧手環開箱!指尖量心電圖 睡眠追蹤曝「9成全淺眠」
📢 YouTube會員台灣便宜雙人方案來了!價格比印度貴近4倍 規則一次看
📢 獨/等到iPhone嗶進站!蘋果iOS18.4開放台灣NFC交易 悠遊卡公司回應了