
在先前預告後,OpenAI 正式揭曉其全新GPT-4o 人工智慧 模型,並且推出桌機版APP及新版操作介面,另外也讓使用者能透過「Hey,ChatGPT 」進行語音 、影像識別等互動。
OpenAI說明,GPT-4o中的「o」源自「Omnimodel」 (全能模型)的首個字母,意味將能對應各類應用互動,同時學習資料源自先前超過1億人透過ChatGPT學習、創作或協作互動經驗,一樣支援影像識別,甚至也能透過記憶方式學習使用者曾經提過事項,藉此用於未來互動,此外也加入聲音辨識,以及圖表內容分析、製作能力,目前總計對應50種語言,約可覆蓋多達97%的全球網路使用人口。
而GPT-4o將免費 開放使用,並且可透過API 資源存取,讓更多開發者能藉此人工智慧模型打造更多應用服務,在英語文字與程式編碼處理速度幾乎等同GPT-4 Turbo效能表現,同時在非英語文字上的執行效能表現會更高,藉此讓使用成本降低50%,並且支援文字、音訊、圖像等任意組合輸入,進而可對應文字、音訊、圖像等任意組合輸出,更可在最短232毫秒、平均320毫秒時間內針對音訊輸入內容做出回應,幾乎與一般人在自然對話中的回應時間相近。
在進一步解說中,OpenAI表示在GPT-4o推出前的語音對話模式平均延遲,在GPT-3.5約為2.8秒,在GPT-4則約為5.4秒,主要是透過三個獨立模型運作構成,其中包含將音訊轉為文字,由GPT-3.5或GPT-4分析文字、做出回應,再將回應文字轉為語音念出,而此次推出的GPT-4o則是透過單一模型即可完成音訊轉文字、文字分析與文字轉音訊三個流程,因此能以相比GPT-4 Turbo約2倍快速度完成運作。

由於花費更短時間完成過往需要三個模型才能完成的工作流程,因此代表GPT-4o將能進一步分析使用者所發出語調、表情,進而判斷背後所代表情感,例如判斷使用者當下情緒是否開心,或是悲傷難過等。
此次示範內容中,OpenAI表示GPT-4o可以直接讓雙方各以英語、義大利語進行對談溝通,或是協助使用者透過圖像識別方式解決數學算式問題,另外也能判斷使用者臉部表情對應情緒為何。

另外,OpenAI同樣強調GPT-4o的使用安全性,標榜建立全新安全系統確保互動使用過程不會出現問題,並且強調在訓練過程採用自動化及人為評估,更結合社會心理學、偏見與公平,以及錯誤訊息等領域專家進行合作測試,避免GPT-4o出現不可預期的風險問題。
OpenAI表示,此次公布的GPT-4o將在接下來幾個星期內、幾個月內陸續公布相關技術基礎建設、訓練後的可用性,以及其他模式運作所需安全性,其中包含透過GPT-4o輸出音訊內容僅能選擇預設聲音,避免有心人士以模仿他人聲音進行不法事宜。
目前GPT-4o的文字與圖像處理能力將從即日起用於ChatGPT服務,並且免費開放所有人使用,而ChatGPT Plus訂閱用戶則可使用超過5倍的訊息量,至於語音互動功能則會向ChatGPT Plus開放使用,但初期僅先以alpha版測試內容提供。
蘋果可能是合作夥伴?
在此之前,蘋果已經傳出與OpenAI攜手合作,預計讓iOS 18 中的Siri 數位助理服務有全新互動體驗,或許將進一步結合GPT-4o人工智慧模型,藉此創造全新互動體驗。不過,具體公布內容還是要以蘋果公布為準。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 「找車位神器」3秒搜出停車格!5縣市可用 駕駛實測嘆:相見恨晚
📢網紅「小周牙醫」歧視同志言論挨轟!道歉被網抓包IG、YT秒做1事:沒誠意
📢 Switch 2台北體驗會7/5登場!抽選制、超詳細報名規則曝
📢 ASUS VivoWatch 6 AERO智慧手環開箱!指尖量心電圖 睡眠追蹤曝「9成全淺眠」
📢 YouTube會員台灣便宜雙人方案來了!價格比印度貴近4倍 規則一次看
📢 獨/等到iPhone嗶進站!蘋果iOS18.4開放台灣NFC交易 悠遊卡公司回應了