距離OpenAI 首度讓ChatGPT 用戶能直接在對話框中生成圖像,已經過了一年多的時間。稍早時候,OpenAI正式宣布推出全新升級的ChatGPT Images 2.0,更將這次升級形容為圖像生成領域的「跨世代躍進」 (Step change),新系統不僅在細節遵循、密集文字 渲染,以及場景物件的空間關聯判斷有大幅提升,更首度導入「推論」 (Reasoning)能力。此外,新模型也大幅改善包含繁體中文 在內的非拉丁語系文字生成表現,宣告AI繪圖工具正式邁入強調「精準度與邏輯性」的新紀元。
首款具備「推論與聯網查證」能力的圖像模型
ChatGPT Images 2.0最大的架構亮點,在於其不僅僅是一個擴散模型 (Diffusion Model),OpenAI首次針對圖像模型賦予「推論」的能力。
意味系統在生成圖像前,可以執行類似搜尋網路資訊與自我驗證輸出結果的動作。舉例來說,當使用者要求生成特定歷史場景或具備嚴格科學定義的物件時,模型能透過推論與連網求證方式,藉此確保生成內容的正確性。
OpenAI強調,當「準確性、一致性與視覺凝聚力」成為首要考量時,這項能力將使Images 2.0成為業界最可靠的工具。
突破非拉丁語系瓶頸:中、日、韓文字精準渲染
過去,AI圖像生成工具最大的罩門之一就是「生成文字」,尤其是在面對非拉丁語系時往往會產出無意義的亂碼,例如產生難以理解的「類中文」內容。
OpenAI表示,Images 2.0在理解與渲染非拉丁文字方面投入大量心血,對於日文、韓文、中文、印地語,以及孟加拉語的處理能力獲得「顯著的提升」。同時,新模型能更忠實地還原各種特定的視覺語言風格,這對於需要製作遊戲原型 (Game prototyping)或電影分鏡腳本 (Storyboarding)的創作者而言,不僅大幅增加其實用性,同時也更具指標性意義。
在規格彈性上,Images 2.0目前支援極端長寬比 (最寬可達3:1,最高可達1:3),解析度最高更支援至2K,同時能一次性生成成最多達8張圖像。
全面開放上線,迎戰Google與Anthropic
ChatGPT Images 2.0即日起開放所有ChatGPT用戶使用,包含免費用戶與Go訂閱層級都可使用;而Plus與Pro版本訂閱者則能解鎖更進階的生成品質與額度。此外,該模型也同步登上OpenAI的API服務與Codex 程式碼編寫應用程式。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

討論區