微軟 亞洲研究院近期提出名為NUWA-XL的多模自動生成式人工智慧模型,標榜能以16組描述句即可生成長達11分鐘的影片內容。
微軟亞洲研究院在2021年便提出多模自動生成式人工智慧 模型NUWA (女媧),能以自然語言描述生成文字、圖像、影片內容,後續推出的升級版NUWA-Infinity更進一步將生成圖像、影片解析度提高。
而此次提出的NUWA-XL,則是建立在「擴散疊加」 (Diffusion over Diffusion)的運作架構之上,透過全域擴散模型 (Global Diffusion)生成影片所有時間範圍內的關鍵畫面,並且透過局部擴散模型 (Local Diffusion)依據填加關鍵畫面鄰近內容,藉此加快整體內容生成效率,同時也確保生成內容連續性與完整性。
整體流程大約是先依照輸入描述句生成關鍵畫面,再依序針對關鍵畫面生成相應影片,並且透過擴散模型增加影片內容長度,讓影片最初生成的概略章節可以變成完整故事內容。在示範內容中,微軟以《摩登原始人》 (The Flintstones)動畫 為基礎,自動生成全新動畫內容。
在微軟此項技術中,原本生成1024個畫面的平均推論時間需要7.55分鐘,變成僅需花費26秒即可生成,整體速度提升高達94.26%。
不過,微軟說明影片生成背後依然需要仰賴足夠品質的影片內容訓練,此次提出的NUWA-XL主要參考專業動畫內容製作流程,藉由先生成關鍵畫面,並且持續生成關鍵畫面衍生內容,進而構成完整動畫影片,並且確保內容連續性與生成品質,進而能加速內容生成速度。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 不買iPhone 17 Pro!iPhone 18 Pro手機「2大改版願望」蘋果聽到了
📢 學生做筆記挑iPad還是三星平板?網狂推這品牌:書寫體驗極佳
📢 日本西瓜卡升級新功能!儲值上限變30萬日圓、吉祥物Suica企鵝2026下台告別
📢 Nothing Ear (3)無線耳機開箱!透明充電盒變麥克風 實測拍片很適合
📢 LINE免費貼圖!《魔法壞女巫》超Q用半年、購物失心瘋專用圖案在這
📢 Pixel Watch 4開箱!12490元起、實測睡眠追蹤驚豔 Gemini抬手輕鬆對話

登(加)入 udn 會員不只享專屬優惠,現在再送 LINE POINTS 5 點!即日起至 11/20,不論新朋友或老朋友,輕鬆加入就有獎,馬上入手點數,讓生活多一點開心回饋。