![](https://pgw.udn.com.tw/gw/photo.php?u=https://uc.udn.com.tw/photo/author/photo/966.jpg&x=&y=&sw=&sh=&exp=3600&w=100)
在先前預告後,OpenAI 正式揭曉其全新GPT-4o 人工智慧 模型,並且推出桌機版APP及新版操作介面,另外也讓使用者能透過「Hey,ChatGPT 」進行語音 、影像識別等互動。
OpenAI說明,GPT-4o中的「o」源自「Omnimodel」 (全能模型)的首個字母,意味將能對應各類應用互動,同時學習資料源自先前超過1億人透過ChatGPT學習、創作或協作互動經驗,一樣支援影像識別,甚至也能透過記憶方式學習使用者曾經提過事項,藉此用於未來互動,此外也加入聲音辨識,以及圖表內容分析、製作能力,目前總計對應50種語言,約可覆蓋多達97%的全球網路使用人口。
而GPT-4o將免費 開放使用,並且可透過API 資源存取,讓更多開發者能藉此人工智慧模型打造更多應用服務,在英語文字與程式編碼處理速度幾乎等同GPT-4 Turbo效能表現,同時在非英語文字上的執行效能表現會更高,藉此讓使用成本降低50%,並且支援文字、音訊、圖像等任意組合輸入,進而可對應文字、音訊、圖像等任意組合輸出,更可在最短232毫秒、平均320毫秒時間內針對音訊輸入內容做出回應,幾乎與一般人在自然對話中的回應時間相近。
在進一步解說中,OpenAI表示在GPT-4o推出前的語音對話模式平均延遲,在GPT-3.5約為2.8秒,在GPT-4則約為5.4秒,主要是透過三個獨立模型運作構成,其中包含將音訊轉為文字,由GPT-3.5或GPT-4分析文字、做出回應,再將回應文字轉為語音念出,而此次推出的GPT-4o則是透過單一模型即可完成音訊轉文字、文字分析與文字轉音訊三個流程,因此能以相比GPT-4 Turbo約2倍快速度完成運作。
由於花費更短時間完成過往需要三個模型才能完成的工作流程,因此代表GPT-4o將能進一步分析使用者所發出語調、表情,進而判斷背後所代表情感,例如判斷使用者當下情緒是否開心,或是悲傷難過等。
此次示範內容中,OpenAI表示GPT-4o可以直接讓雙方各以英語、義大利語進行對談溝通,或是協助使用者透過圖像識別方式解決數學算式問題,另外也能判斷使用者臉部表情對應情緒為何。
另外,OpenAI同樣強調GPT-4o的使用安全性,標榜建立全新安全系統確保互動使用過程不會出現問題,並且強調在訓練過程採用自動化及人為評估,更結合社會心理學、偏見與公平,以及錯誤訊息等領域專家進行合作測試,避免GPT-4o出現不可預期的風險問題。
OpenAI表示,此次公布的GPT-4o將在接下來幾個星期內、幾個月內陸續公布相關技術基礎建設、訓練後的可用性,以及其他模式運作所需安全性,其中包含透過GPT-4o輸出音訊內容僅能選擇預設聲音,避免有心人士以模仿他人聲音進行不法事宜。
目前GPT-4o的文字與圖像處理能力將從即日起用於ChatGPT服務,並且免費開放所有人使用,而ChatGPT Plus訂閱用戶則可使用超過5倍的訊息量,至於語音互動功能則會向ChatGPT Plus開放使用,但初期僅先以alpha版測試內容提供。
蘋果可能是合作夥伴?
在此之前,蘋果已經傳出與OpenAI攜手合作,預計讓iOS 18 中的Siri 數位助理服務有全新互動體驗,或許將進一步結合GPT-4o人工智慧模型,藉此創造全新互動體驗。不過,具體公布內容還是要以蘋果公布為準。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 蘋果iPad mini 7開箱!實測配PS5手把變遊戲主機、寫筆記 8.3吋螢幕超剛好
📢 任天堂Switch 2台灣快開賣?網揪「這處有檔期」時間曝光:我先空出來了
📢 北捷常客優惠縮水!3月1日起7折變85折新規則曝 TPASS 2.0還有額外回饋
📢 2月4G、5G便宜資費懶人包/4G不限速吃到飽免500!5G上網優惠只要399
📢 ChatGPT Search全面開放免費用!搜尋方法教學 3大招做預設搜尋引擎
📢 2025年最新!日本家電折價券最高18%折扣 7家電器店一次收藏