本來是為了方便視頻剪輯,這項技術卻足以成為真相的噩夢。
最近幾年,出現了不少利用深度學習編輯視頻的技術。
最著名的必然是Deepfake,導致明星換臉視頻肆虐色情網站;以及誕生於去年的Deep Video Potrait (DVP),輕鬆生成以假亂真的演講視頻,讓新聞機構和政治人物一度恐慌。
如果你以為這些就足夠令人擔憂,那你就太小看深度學習研究者了。在他們的眼中,只要是以科學的名義,沒有任何技術是受限的——即便可能造成嚴重的道德危機。
最近,研究者開發出了一種通過深度學習去操縱視頻的全新技術,可以在一句話中增加、刪掉甚至是修改任意詞句,讓視頻中的演講者說出任意想說的話,而且看起來仍然十分自然,就好像演講者自己說出來的那樣。
比方說,財經電視台的原報導是“蘋果股價收盤於191.45美元”,研究者將數字更改為“182.25美元”,在英文中發音和口型完全不一樣的兩組數字,最終效果很難看出來是被修改過的:
可怕之處在於:操縱視頻的方法十分簡單,只需要修改視頻轉錄的文本即可。這個技術可以自己找到文本在視頻中對應的位置,自動生成語音和臉部模型,然後自動貼上去,生成新的視頻……
研究者通過調研發現,59.6%的受試者認為被這項技術編輯過的視頻是真實的視頻,反而有20%的受試者認為未經編輯過的視頻是假的。
也就是說,經過這個管道的加工生成的視頻,足以騙過大多數人的眼睛。
這項技術目前尚未對公眾開放,也沒有一個普通人可以使用的編輯軟件,因為它仍處於研究和測試階段。研究者來自斯坦福大學、德國馬克斯普朗克信息學院、普林斯頓大學和 Adobe 研究院。這份研究已經提交到了計算機圖形頂會 SIGGRAPH 2019 上,如果你感興趣也可以點擊“閱讀原文”查看論文。
你可以在下面這個視頻裡看到,這項技術的編輯效果有多好,編輯出來的視頻有多“真實”:
https://v.qq.com/x/page/a0880tc9b5g.html
這項技術實際上融合了多種深度學習方法,包括語音識別、唇形搜索、人臉識別和重建,以及語音合成。
簡單來說,研究者首先對視頻的圖像和聲音分別進行處理,將需要修改部分的畫面和音素分離出來,把修改後語句的音素組裝進去,再根據這些單詞的發音生成新的人臉模型,最後混合渲染成一個新的視頻。
分解步驟大致如下:
1)輸入視頻,要求必須是talking-head video,也即以人臉(可以包括上半身)為主要畫面,以演講為主要內容的視頻;
2)輸入需要修改的字句,以及修改後的文字;
3)使用音素對齊 (phoneme alignment) 技術對視頻裡的發言進行索引,方便後續工作。音素就是單詞的組成部分,比如“蘋果”由拼音 ping 和 guo 組成;
4)使用唇形搜索 (viseme search),在原視頻裡找到需要修改的視頻片段和對應的音素;
5.a)聽覺上,把修改後詞句的音素組裝起來,嵌入到原視頻裡;
5.b)視覺上,對視頻當中的人臉進行追踪建模,然後根據修改後詞句的發音,為視頻的每一幀重建一張下半臉的畫面(因為大部分講話時的面部動作不會涉及鼻子以上),再重新渲染出一段視頻(無聲);
6)再用視頻中演講者的語音資料合成新的語音,最後混合剪輯成一個新的視頻。
研究者找來了138名群眾參與用戶調研,讓他們觀看三組視頻然後給出真或者假,也即未經編輯和編輯過的判斷。這三組視頻分別為 A(真實),B(真實),C(用 A 作為基礎,把 B 的詞句替換進去的“假視頻”)。而且,研究者事先告訴了受試者,這次調研的主題是“視頻編輯”,因此受試者清楚自己看到的肯定會有假視頻,因此會更機警地尋找“馬腳”。
59.6%的受試者認為 C 組是真實的視頻;20%的受試者反而認為原始、未經編輯的視頻是假的。
研究者也把這項新技術和 Deepfake、MorphCut 以及 DVP 等“前輩”進行了對比。他們發現,新管道在嘴部動作、口腔內畫面合成(牙齒、舌頭等)上性能更好,而前輩生成的插入幀往往十分生硬,稍加留意就能看出漏洞。
下圖:Deepfake(Face2Face) 在插入幀上出現了牙齒幻影。
下圖:DVP 對牙齒的還原出現了高可辨的錯誤。
下圖:DVP 對畫中人上肢動作的還原出現了問題,導致了延續性漏洞(影視術語,指剪輯導致了不合邏輯的畫面,比如手舉著的兩幀之間出現了手消失的一幀)。
下圖:MorphCut(Adobe Premier Pro 裡的一個功能,在生硬的編輯中插入計算機生成的幀以使畫面順滑)讓畫中人面部出現嚴重的重影。
研究人員發現,輸入的視頻越長,最終的編輯效果越好,視覺上更自然,對40分鐘的視頻素材進行訓練,便能夠達到論文以及視頻展示的最優效果;但是,即便只使用極少量的數據,比如兩分鐘的視頻進行訓練,最終合成的人臉誤差率也才只有0.021,僅比40分鐘視頻(0.018)高了0.003。
這意味著,這項技術可以用於一段很短的視頻,並不需要大量數據也可以達到上乘效果。
論文提到,修改的詞句長短和成片質量的好壞並沒有直接相關性,但是唇形搜索和音素搜索的結果會影響最終編輯效果。比方說,如果修改詞句的口型和發音在數據集裡從來沒有出現過,效果可能就不會太好。 (研究者採用的參數混合方法也可以彌補這一情況,比如 fox 可以用 v 和 ox 組合而成,不一定需要帶 f 的詞語。)
在用時方面,論文顯示3D 人臉建模每一幀花費110毫秒,也一段長度1小時、60fps演講者一直在講話的視頻(下同)需要396分鐘或者六個半小時;音素對齊需要大約20分鐘;唇形搜索最短僅需10分鐘,最長2小時;人臉合成每幀需要132毫秒,1小時視頻需要將近8小時合成,過程中的神經網絡訓練用時最長,需要42小時左右。
完成了上述步驟後,編輯者就可以對視頻隨意修改,如果只是修改部分詞句的話,花費的時間和訓練/前期準備相比可忽略不計。
比方說某政客演講完,理論上最快兩天后網上就能出現一段意思被完全扭轉,但完全看不出任何問題的“假視頻”。
而如果放到新聞的語境當中,這項技術突然變成了最令人們擔憂的事情。這一方法對計算量有一定需求,因此路人不一定有能力完成,但如果是黑客或者敵對政治人物想要對受害者進行有組織的污衊攻擊,本篇論文所描述的這一方法簡直不能更好用。
今天,英國一家營銷機構在其 Instagram 賬號上發布了一小段祖克柏的講話。在視頻中,祖克柏戴著標誌性毫無“人味”的表情,表示“想像一下,有一個人,完全控制著數十億人被盜的數據,他們所有的秘密,他們的生活,他們的未來。我完全歸功於幽靈。幽靈告訴我,誰能掌控數據,誰就能掌控未來。“
”幽靈“是這家營銷機構正在推廣的一個裝置藝術展覽,這則視頻其實這場展覽的營銷。視頻本身也是用 Deepfake 或者類似的技術製作的,技術來自於以色列公司 Canny.ai,聲音則是找了一個跟祖克柏完全不像的人努力裝出來的。事實上,這家營銷機構還”找來了“特朗普、金·卡戴珊、摩根·弗里曼等著名人物,製作了類似的視頻。
如果說這些視頻人畜無害的話,那麼另外一則技術含量根本沒多高的剪輯視頻,則對一位美國頂級政客帶來了巨大的傷害。
前幾週,兩段美國眾議院議長南希·佩洛西“口齒不清”的視頻流傳於網上。很快,這段視頻就被人發現使用了非常無聊的剪輯手法,讓佩洛西看起來像是喝多了或者快要中風一樣。包括 Facebook 在內的一些社交網站和視頻平台拒絕取締這些視頻。
在當前社會極端化和對抗日益嚴重,以及假新聞盛行的大環境下,類似的視頻往往具有極強的傳播勢能。而更先進的技術讓視頻的質量變得更好,相應地對受害者的傷害,以及對社會造成的進一步撕裂,只會更加嚴重。
研究者在論文中指出,他們認為這項研究的主要目的是簡化視頻編輯人員(以及內容產業整體)的工作壓力。比如那些念錯台詞或者漏拍的場景,現在可以直接用深度學習算法生成精確的畫面和聲音,不再需要重新花大價錢重拍。
另一個重要的使用場景是翻譯。論文中(以及配套的視頻裡)演示了跨語言生成視頻的效果,因為本質上被剪輯的不是詞語,而是口型和音素,不受語言的限制(比如,許多歐洲國家語言共享音素)。
如果有一部電影需要譯製成西班牙語版,過去的做法是譯製廠直接後期配音。而現在有了這項技術,可以直接生成發音準確,而且口型同樣準確的譯製片了。
當然,電影只是一個極端的案例。不那麼極端的話,比方說你是一個美妝博主,想要把觀眾群擴展到海外,正好可以用這項技術生成其他語言版本的視頻,即便發音不百分之百精確也沒有關係。
最後一個使用場景,是生成二次元偶像帶視覺形象的虛擬語音助理。有了這個技術,應該就可以生成可以看見的林志玲/郭德綱導航了。研究者在論文中提到,除了用神經網絡,他們的技術也可以搭配 macOS 的語音合成器 (speech synthesizer) 使用,讓合成語音更加容易。
《原文刊登於PingWest 品玩,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 嚇慘!LINE相簿驚見「陌生人大眼鬼影照」 官方認了曝3步驟解決
📢 LINE免費貼圖7款來了!可愛動物亂鬥 馬來貘、小薩、狗幾、喔熊慶耶誕
📢 LINE內建表情貼不見了?官方大改版網嚇「變好色又變醜」 1方法恢復舊版本
📢 【開箱】ROG Phone 9 Pro Edition!LED炫砲又低調「I人不害羞」
📢 出門玩不怕迷路!教你用Google Maps看「實景」找路 每次用每次成功
📢 CASETiFY胡子碰碰手機殼2款可愛開箱!台式早餐圖案聞香 磁吸卡套支架極速感應