在先前預告後,OpenAI 正式揭曉其全新GPT-4o 人工智慧 模型,並且推出桌機版APP及新版操作介面,另外也讓使用者能透過「Hey,ChatGPT 」進行語音 、影像識別等互動。
OpenAI說明,GPT-4o中的「o」源自「Omnimodel」 (全能模型)的首個字母,意味將能對應各類應用互動,同時學習資料源自先前超過1億人透過ChatGPT學習、創作或協作互動經驗,一樣支援影像識別,甚至也能透過記憶方式學習使用者曾經提過事項,藉此用於未來互動,此外也加入聲音辨識,以及圖表內容分析、製作能力,目前總計對應50種語言,約可覆蓋多達97%的全球網路使用人口。
而GPT-4o將免費 開放使用,並且可透過API 資源存取,讓更多開發者能藉此人工智慧模型打造更多應用服務,在英語文字與程式編碼處理速度幾乎等同GPT-4 Turbo效能表現,同時在非英語文字上的執行效能表現會更高,藉此讓使用成本降低50%,並且支援文字、音訊、圖像等任意組合輸入,進而可對應文字、音訊、圖像等任意組合輸出,更可在最短232毫秒、平均320毫秒時間內針對音訊輸入內容做出回應,幾乎與一般人在自然對話中的回應時間相近。
在進一步解說中,OpenAI表示在GPT-4o推出前的語音對話模式平均延遲,在GPT-3.5約為2.8秒,在GPT-4則約為5.4秒,主要是透過三個獨立模型運作構成,其中包含將音訊轉為文字,由GPT-3.5或GPT-4分析文字、做出回應,再將回應文字轉為語音念出,而此次推出的GPT-4o則是透過單一模型即可完成音訊轉文字、文字分析與文字轉音訊三個流程,因此能以相比GPT-4 Turbo約2倍快速度完成運作。
由於花費更短時間完成過往需要三個模型才能完成的工作流程,因此代表GPT-4o將能進一步分析使用者所發出語調、表情,進而判斷背後所代表情感,例如判斷使用者當下情緒是否開心,或是悲傷難過等。
此次示範內容中,OpenAI表示GPT-4o可以直接讓雙方各以英語、義大利語進行對談溝通,或是協助使用者透過圖像識別方式解決數學算式問題,另外也能判斷使用者臉部表情對應情緒為何。
另外,OpenAI同樣強調GPT-4o的使用安全性,標榜建立全新安全系統確保互動使用過程不會出現問題,並且強調在訓練過程採用自動化及人為評估,更結合社會心理學、偏見與公平,以及錯誤訊息等領域專家進行合作測試,避免GPT-4o出現不可預期的風險問題。
OpenAI表示,此次公布的GPT-4o將在接下來幾個星期內、幾個月內陸續公布相關技術基礎建設、訓練後的可用性,以及其他模式運作所需安全性,其中包含透過GPT-4o輸出音訊內容僅能選擇預設聲音,避免有心人士以模仿他人聲音進行不法事宜。
目前GPT-4o的文字與圖像處理能力將從即日起用於ChatGPT服務,並且免費開放所有人使用,而ChatGPT Plus訂閱用戶則可使用超過5倍的訊息量,至於語音互動功能則會向ChatGPT Plus開放使用,但初期僅先以alpha版測試內容提供。
蘋果可能是合作夥伴?
在此之前,蘋果已經傳出與OpenAI攜手合作,預計讓iOS 18 中的Siri 數位助理服務有全新互動體驗,或許將進一步結合GPT-4o人工智慧模型,藉此創造全新互動體驗。不過,具體公布內容還是要以蘋果公布為準。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》