「肉眼視覺天衣無縫」史丹佛工程師開發新演算法 直接編輯影片人物說話增減台詞

史丹佛大學(Stanford University)、馬克斯.普朗克電腦科學研究所(Max Planck Institute for Informatics)、普林斯頓大學(Princeton University)和Adobe研究團隊共同開發了一種新型的演算法,能像修改文件一樣,直接編輯影片中人物「說話」的內容。

在電視和電影的拍攝中,有時會發生演員演得非常好,但漏了一句關鍵台詞,對導演和剪輯師來說,要嘛就是摸摸鼻子接受,要嘛就是再花費人力物力重拍,而且重拍演員還不見得能再演繹得好。

剪輯輕鬆增減台詞 成品完美

但現在有了一種新的演算法,可以直接修改「說話」類的動態影像。 試想一下,如果可以直接像是修改文件記錄一樣地修改影片,剪輯時可以輕鬆地增減台詞,或是根據劇情需要,重新排列台詞的順序,而且成品堪稱完美,能騙過所有人的眼睛。

來自史丹佛大學、馬克斯.普朗克電腦科學研究所、普林斯頓大學和Adobe研究團隊就創建了這樣一種能直接編輯「胸上構圖的人物說話」影片的演算法。

開發團隊認為,這項技術對剪輯師和製片人來說可能是一大福音,史丹佛大學的博士後研究學者佛萊德(Ohad Fried)說,「這樣的技術可能會讓本來就不怎麼樣的演員更加懈怠,但考慮到這技術所能催生的許多創意影片編輯和內容應用,這代價很划算。」

這個程式會記錄下從各個影像片段中提取出來的口型動作,並使用機器學習轉換成看上去非常自然的影像。

佛萊德說,「它在肉眼視覺上可以說是天衣無縫,讓我們沒必要重拍或重錄任何東西。」佛萊德是這篇研究論文的第一作者,而這篇論文在一個收集論文預印本的網站「arXiv」上發表。它也將出現在期刊《美國計算機學會圖形學彙刊》上。佛萊德在阿格拉瓦拉(Maneesh Agrawala)教授的實驗室工作,阿格拉瓦拉是電腦工程學院的教授,同時也是論文作者。這項計劃始於兩年多前,是當時佛萊德在普林斯頓大學與計算機科學家芬克爾斯坦(Adam Finkelstein)一起做的研究。

如果演員口誤 後製輕鬆修改

如果演員有口誤的情形發生,剪接師可以簡單地編輯紀錄文本,系統會自動從影片中其他片段的單詞中收集字句,並覆寫於要修改的片段上,就像作家重寫一個拼錯或不合適的單詞。這套演算法確實需要先準備至少40分鐘的原始影片作為素材庫,因此它無法使用於任何隨手拿到的影片。

在編輯腳本時,演算法會從影片中的其他地方挑出可使用的片段,再拼湊縫合出新的影像。

為了使影片看起來更自然,該演算法還將智能平滑應用於運動參數並呈現所需結果的3D動畫腳本。但光是這樣,成果仍然不夠真實。系統還得進行最後一個步驟,這是一個稱為「神經渲染」的機器學習技術,會將低擬真的數字模型轉換為完美唇形同步的逼真影像。

而為了測試系統的功能,研究人員進行了一系列複雜的編輯,包括添加、刪除、更改單詞,以及翻譯成不同的語言,甚至創建完整的句子。

在一項有138名受試者的實驗中,編輯出來的影像有60%被認為是「真實」的。影像逼真程度已經非常接近原始影像,但佛萊德表示仍有很大的改進空間。

「這對電影後期製作的影響很大」,論文的第二作者,同時也是馬克斯.普朗克電腦科學研究所學生的特瓦里(Ayush Tewari),在論文中首次提出了在沒有重新拍攝的情況下修復對話的可能性。

虛假影像引發道德問題

「儘管如此,在合成虛假影像充斥的時代,這種能力引發了重要的道德問題」,佛萊德補充。以這種方式編輯影片還是非常有價值和合理的,能省下重新拍攝或修復影片所需的花費和麻煩;或是讓觀眾能夠訂製影像內容,例如教學影片可以根據不同語言或文化背景進行微調,或者讓兒童故事可以適應不同的年齡段。

佛萊德說,「這個技術真的是要讓我們更好地講故事」。

佛萊德承認有人擔心這種技術可能被用於非法用途,但他說這種風險值得一試。當初照片編輯軟體也飽受質疑,但最終人們選擇生活在「可以使用照片編輯軟件」的世界中。

開發認證機制 確定影片是否被用於不法

作為補救措施,佛萊德說有幾種選擇,第一種是開發某種機制,在編輯過的影像加上浮水印以作為識別,並能提供編輯過程的完整紀錄。此外,研究人員也可以開發更好的認證機制,如密碼或指紋辨識,以確定影片是否被人用於不法目的。

佛萊德說,所有的解決方案都無法徹底根絕問題,因此觀眾必須隨時保持懷疑和謹慎的態度,現今已經有很多其他方式能夠假造合成影像,也許最緊迫的問題是提高大眾對媒體識讀的教育,讓人們可以更好地質疑和評估內容的真實性。

其他共同作者包括史丹佛大學客座助理教授周爾胡佛(Michael Zollhöfer)以及馬克斯.普朗克電腦科學研究所、普林斯頓大學,以及Adobe研究中心的同仁。

該研究由布朗媒體創新研究所(Brown Institute for Media Innovation)、馬克斯.普朗克視覺工程及通信中心(Center for Visual Computing and Communications)、歐洲研究理事會(European Research Council Consolidator Grant)、Adobe研究中心和普林斯頓大學研究院院長辦公室所贊助。