Google 正式發表全新的多模態模型「Gemini Omni 」,並且率先釋出該系列的首款模型「Gemini Omni Flash」。有別於過去單純將文字轉化為動態影像的生成工具,Gemini Omni被定位為一個真正融合「推理能力」與「創作能力」的全能大腦。它不僅能處理文字、圖像、音訊 與影片等複合式輸入,更能憑藉對現實世界物理定律的理解,讓創作者透過「對話」的方式,精準且連貫地對影片進行每一格的細部修改。
核心亮點一:用「聊天」來剪片,而且不怕角色走鐘
過去使用AI編輯影片最大的痛點,就是只要換了一個場景,主角的長相、衣服或背景細節就會發生「突變」。
Gemini Omni最大的突破,在於它具備強大的「上下文記憶」與「角色一致性」 (Character consistency)。Google DeepMind技術長Koray Kavukcuoglu表示,使用者現在可以透過自然語言,以漸進式、多輪對話的方式來編輯影片。
例如,你可以先請AI將影片中的雕像變成泡泡材質;接著在下一個指令中,要求主角觸碰鏡面時,手臂也跟著變成反光材質。在這些連續的修改過程中,場景的物理狀態與角色特徵都不會跑位。
核心亮點二:結合物理直覺與世界知識的「說故事能力」
Gemini Omni的強大不僅在於視覺上逼真,更在於其底層融入Gemini對歷史、科學與文化的龐大知識庫,以及對物理學的「直覺」。
•符合現實的物理動態:Gemini Omni針對重力、動能與流體力學進行深度學習。當你要求它生成「一顆彈珠在機關軌道上快速滾動」時,它能精準模擬出物體碰撞與落下的真實物理反應,而非只是套用預設的動畫模組。
•將抽象概念視覺化:你可以給出極其複雜且具邏輯性的指令 (例如:用黏土動畫的風格,依序生成英文字母A到Z開頭的奇特物品,並且在左下角標註字母)。Gemini Omni能理解這些帶有序列與邏輯限制的指令,並且生成符合科學知識的視覺解說。
核心亮點三:任意混搭的「多模態輸入」與數位分身
Gemini Omni徹底打破輸入素材的界線。創作者可以同時丟給它一張參考圖片、一段音樂節奏,以及一段文字描述,要求它生成一支風格統一的影片。例如:「請根據這張手繪草圖,配上這段復古音樂的節奏,生成一段賽博龐克風格的走路動畫」。
此外,在確保負責任的AI政策下,Google率先推出了「數位分身」功能。使用者可以建立自己的數位版本,並且透過語音驅動生成外觀與聲音都與自己相符的影片。為防止濫用,所有透過Gemini Omni生成的影片都會強制嵌入人類無法察覺的SynthID數位浮水印。
而Google更強調與C2PA內容來源與真實性聯盟深度合作,藉此確認哪些內容是透過AI技術生成。除了與NVIDIA簽署SynthID數位浮水印合作,目前包含OpenAI、KAKAO、IIElevenLabs也加入此合作協議。
分析觀點:從「素材生成器」進化為「AI導演」
如果說去年的Nano Banana讓大家見識到AI圖片生成的威力,那麼今年的Gemini Omni則是直接跨越「生成素材」的階段,開始挑戰專業剪輯軟體的地位。
Gemini Omni最可怕的地方,不在於它的畫質有多高,而是它的「推理」與「理解」能力。它解決AI影片長期以來「缺乏邏輯」與「難以微調」的致命傷。透過多輪對話,它讓任何人都能像坐在剪接師旁邊一樣,用一張嘴就能完成去背、改材質、加特效等繁複的後期工作。
這不僅是AI技術的火力展示,更將徹底改寫YouTube創作者與好萊塢製片人的工作流。
上市資訊:
Gemini Omni首款模型「Gemini Omni Flash」將從即日起正式向全球的Google AI Plus、Pro與Ultra訂閱用戶開放使用,可透過Gemini App與Google Flow進行體驗。
此外,自本週起,YouTube Shorts與YouTube Create App的使用者也能免費使用這項功能。未來幾週內,Google也將透過API形式將其開放給開發者與企業客戶。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

討論區