無影無真相的時代來了嗎?中國大陸短影音平台「抖音 」近日預先公開一篇「MagicVideo-V2:多階高美學影片生成」的論文,表示抖音即將跨越由文本生成音訊的技術門檻,更進一步讓文本直接由AI 生成影像,一舉實現從文字到影片 只需由AI產生的境界;但該篇論文讓不少專家學者聞之變色,認為還需考量AI產製的影片是否有道德上的問題。
「北京字節跳動 科技有限公司」近日搶先公開一篇名為「MagicVideo-V2:多階段高美學影片生成」的論文,由12名陸籍專家掛名,內文揭露未來抖音如何利用文本產製出高品質的影片內容,只要有一段描述文字,AI就能自動轉換成影像,還可以指定各種呈現的風格。
報告中提及的MagicVideo-V2,包括了將文本到圖像模型 、影片運動模組、參考圖像嵌入模組及插圖 模組4大類,只要套用就像是讓AI自行運用動畫 拍攝影片一般,一則影片立即就能生成。該論文還指出,為了確保影片的保真度和流暢度,MagicVideo-V2還運用了包括伸展台(Runway)、Pika 1.0(標榜為想法生影片的平台)、Morph(變形)、Moon Valley(標榜讓想法動起來的平台)和穩定視訊擴散(Stable Video Diffusion)模型技術。
但外媒憂心,儘管抖音這項技術為影片的產生提供了一個嶄新的前景,但AI產製出的內容是否還有道德上的考慮,都值得注意。