微軟提出NUWA-XL多模自動生成式人工智慧模型以16組描述句生成11分鐘長度影片

2023-04-21 09:20 聯合新聞網楊又肇

微軟亞洲研究院近期提出名為NUWA-XL的多模自動生成式人工智慧模型，標榜能以16組描述句即可生成長達11分鐘的影片內容。

微軟亞洲研究院在2021年便提出多模自動生成式人工智慧模型NUWA (女媧)，能以自然語言描述生成文字、圖像、影片內容，後續推出的升級版NUWA-Infinity更進一步將生成圖像、影片解析度提高。

而此次提出的NUWA-XL，則是建立在「擴散疊加」 (Diffusion over Diffusion)的運作架構之上，透過全域擴散模型 (Global Diffusion)生成影片所有時間範圍內的關鍵畫面，並且透過局部擴散模型 (Local Diffusion)依據填加關鍵畫面鄰近內容，藉此加快整體內容生成效率，同時也確保生成內容連續性與完整性。

整體流程大約是先依照輸入描述句生成關鍵畫面，再依序針對關鍵畫面生成相應影片，並且透過擴散模型增加影片內容長度，讓影片最初生成的概略章節可以變成完整故事內容。在示範內容中，微軟以《摩登原始人》 (The Flintstones)動畫為基礎，自動生成全新動畫內容。

在微軟此項技術中，原本生成1024個畫面的平均推論時間需要7.55分鐘，變成僅需花費26秒即可生成，整體速度提升高達94.26%。

不過，微軟說明影片生成背後依然需要仰賴足夠品質的影片內容訓練，此次提出的NUWA-XL主要參考專業動畫內容製作流程，藉由先生成關鍵畫面，並且持續生成關鍵畫面衍生內容，進而構成完整動畫影片，並且確保內容連續性與生成品質，進而能加速內容生成速度。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

📌 數位新聞搶鮮看！

　訂閱《科技玩家》YouTube頻道！
💡 追新聞》》在Google News按下追蹤，科技玩家好文不漏接！
📢 Apple Pay、信用卡搭北捷「只扣1元」是沒刷到嗎？官方曝扣款規則秒懂
 📢 iPhone來電畫面有2種！設計巧思超貼心滑動接聽、拒接方法一次看
 📢 DJI Mic Mini 2開箱！實測ASMR、降噪收音驚豔彩色磁吸前蓋可更換
 📢北捷Apple Pay信用卡嗶進站變「深蹲感應區」！官方曝設計原因：會再調整
 📢獨／STUDIO A遇蘋果漲價要求「補差價」 4關鍵自保：店家不一定免責
 📢 LINE免費貼圖4款！「蛤」字必下載爽用半年、熊大兔兔動態圖超Q

楊又肇

曾任聯合新聞網 (udn.com)數位頻道記者，目前為自由寫手與Mas...

人工智慧 AI 微軟動畫

微軟提出NUWA-XL多模自動生成式人工智慧模型以16組描述句生成11分鐘長度影片

楊又肇

推薦文章

台灣首次戰爭「行動斷網」演習！8月14縣市演練時間、規則曝光 QA一次看

用悠遊卡搭北捷…iPhone放口袋卻重複扣款！官方曝解法

LINE免費貼圖7款！LV精品款用到明年1月諧音哏「熱到兔」ㄅ級分快下載

國家級「行動斷網」演習完整指引！NCC揭3重點：勿用手機處理重要工作

住飯店YouTube忘了登出怎麼辦？教你用Google帳戶遠端強制退出

開「弱風」其實更搶錢！破解冷氣風速迷思 4方式更省電

微軟提出NUWA-XL多模自動生成式人工智慧模型 以16組描述句生成11分鐘長度影片

楊又肇

推薦文章

台灣首次戰爭「行動斷網」演習！8月14縣市演練時間、規則曝光 QA一次看

用悠遊卡搭北捷…iPhone放口袋卻重複扣款！官方曝解法

LINE免費貼圖7款！LV精品款用到明年1月 諧音哏「熱到兔」ㄅ級分快下載

國家級「行動斷網」演習完整指引！NCC揭3重點：勿用手機處理重要工作

住飯店YouTube忘了登出怎麼辦？教你用Google帳戶遠端強制退出

開「弱風」其實更搶錢！破解冷氣風速迷思 4方式更省電

微軟提出NUWA-XL多模自動生成式人工智慧模型以16組描述句生成11分鐘長度影片

LINE免費貼圖7款！LV精品款用到明年1月諧音哏「熱到兔」ㄅ級分快下載