我們知道過去幾年,圖像編輯領域發展驚人。但在視頻領域,還有所缺陷。近日,一項視頻編輯領域的研究成果放出。讓我們先來看一下效果。
姜文變成大猩猩......
美女變成卡通人物......
是不是看起來非常不錯?這都來自于以下這篇研究。
圖像處理領域能取得如此顯著的進步,在很大程度上歸功于能夠在大規模數據集上訓練的生成式模型,后者能顯著提高圖像任務的質量和精度。然而,有關視頻內容的處理任務卻沒有取得同等的進展。視頻任務的挑戰之一在于對保持時間一致性的要求較高,而這個要求會因神經網絡固有的隨機性而變得復雜。另一個挑戰來自視頻數據集本身的性質,和圖像集相比通常質量較差,并且需要更多的計算資源。
因此,基于視頻的算法的質量明顯落后于那些專注于圖像的算法。這種落差引發了一個問題:以圖像形式表示視頻,將已建立的圖像算法無縫應用于具有高度時間一致性的視頻內容是否可行?
為了實現這一目標,在深度學習時代之前,研究人員曾建議從動態視頻中生成視頻馬賽克,而在隱式神經表征提出之后,研究人員又建議利用神經分層圖像圖集。但是這些方法存在兩個主要缺陷。首先,這些方法的表征能力是有限的,特別是在如實地重建視頻中錯綜復雜的細節時。通常,重建的視頻忽略了微妙的運動細節,如眨眼或輕微的微笑。第二個限制與估計圖集的典型扭曲性質有關,語義信息會因此受損。總而言之,現有的圖像處理算法無法發揮最佳性能,因為預測的結果缺乏足夠的自然度。
本文作者提出了一種新的視頻表征方法,該方法利用基于 2D 散列的圖像場和基于 3D 散列的時間變形場。結合多分辨率散列編碼來表示時間變化,大大提高了重建一般視頻的能力。這種方法有助于跟蹤水和煙霧等復雜實體的變形。然而,變形場能力的增強對估計自然規范圖像提出了挑戰。不自然的規范圖像也可以通過完整的重建來估計相應的變形場。
為了應對這一挑戰,本文建議在訓練期間使用退火哈希算法。先使用平滑變形網格來識別適用于所有剛性運動的粗解決方案,然后逐漸添加高頻細節。通過這種由粗到細的訓練,表征結果在規范的自然性和重建的還原性之間實現了平衡。與之前的方法相比,本文作者觀察到重建后的質量顯著提高。改進后 PSNR 大約增加 4.4,規范圖像的自然性也肉眼可見的增加。這種方法的優化過程只需要大約 300 秒來估計帶有變形場的規范圖像,而之前的隱式分層表示需要超過 10 個小時。
本文在變形場算法的基礎上,還說明了提升圖像處理任務,如提示引導圖像翻譯、超分辨率和分割 —— 到視頻內容的更動態場。在處理標準圖像時,本文使用的 prompt-guided 的視頻到視頻重建的方法,具體來說使用的網絡是 ControlNet ,然后通過學習后的變形場傳導重建的內容。重建過程在單個標準圖像上進行,無需跨所有幀,無需使用耗時的推理模型(例如擴散模型)。與基于生成模型的 sota 零拍視頻重建相比,本文的重建輸出結果在時間一致性和紋理質量方面有明顯改善。與依賴神經分層標簽的 Text2Live 相比,本文提出的模型可以說是精通處理更復雜的運動,能給產生更自然的標準圖像,從而實現卓越的重建結果。此外,本文將超分辨率、語義分割和關鍵點檢測等圖像算法的應用擴展到標準圖像,從而在視頻上下文中能給得到實際應用。這包括視頻超分辨率、視頻對象分割、視頻關鍵點跟蹤等。本文作者提出的表征算法能從始至終地保持卓越的時間一致性,生成高保真合成幀,展示了其作為視頻處理工具突破性的潛力。
給定由幀 {I1,I2,…,IN} 組成的視頻 V,對于對應的視頻任務,可以簡單地將圖像處理算法 X 單獨應用于每一幀,但是可能會出現幀之間存在不一致的內容,這是我們不希望看到的。進一步地,可以使用另一種策略:用時間模塊增強算法 X,但這需要對視頻數據進行額外的訓練。然而,簡單地引入時間模塊很難保證理論的一致性,并且可能由于訓練數據不足而導致性能下降。
受此啟發,本文作者建議使用平滑的規范圖像 Ic 和變形場 D 來表征視頻 V。通過在 Ic 上應用圖像算法 X,可以利用學習到的變形場將效果有效地應用到整個視頻。這種新穎的視頻表示是圖像算法和視頻任務之間的重要橋梁,能將最先進的圖像方法直接提升到視頻應用中。
本文提出的表征算法具有以下基本特征:
如實地視頻重建的擬合能力。表征應該具有精確擬合視頻中的大的剛性或非剛性物體變形的能力。
規范圖像的語義正確性。失真或語義不正確的規范圖像可能導致圖像處理性能下降,特別是考慮到這些訓練過程多數都是在自然圖像數據上進行的。
變形場的平滑度。保證變形場的平滑性是保證時間一致性和正確傳播的一個基本特征。
下圖 2. 顯示了本文提出的的視頻表示算法 CoDeF 的說明,其將任意視頻分解為 2D 內容規范場和 3D 時間變形場。每個字段使用高效的 MLP,用多分辨率 2D 或 3D 哈希表來實現。這種新型的表示算法天然地支持用于視頻處理任務的圖像算法,其方式是將所建立的算法直接應用于規范圖像(即,從規范內容字段渲染),然后沿著時間軸通過時間變形字段傳播結果。
重建質量
在與神經圖像圖譜的比較分析中,如圖所示,本文提出的模型對非剛性運動表現出卓越的魯棒性,能夠以更高的精度有效地重建細微的運動(例如眨眼、面部紋理)。
流媒體視頻處理
(a) 視頻到視頻的重建。定性比較包括幾種基線方法,分為三個不同的類別:(1) 使用圖像翻譯模型的逐幀推理,如 ControlNet ;(2) 分層視頻編輯,如 Text-to-live ;(3) 基于擴散模型的視頻翻譯,包括 Tune-A-Video 和 FateZero 。
如圖 4 所示,每幀圖像轉換模型可生成高保真內容,并伴有明顯的閃爍。其他基線的生成質量或時間一致性相對較低。 本文提出的流水線式方法能有效地將圖像轉換提升到視頻,保持與圖像轉換算法相關的高質量,同時確保時間一致性。
(b) 視頻關鍵點跟蹤。通過估計每個單獨幀的變形場,可以查詢規范空間內一幀中特定關鍵點的位置,然后識別所有幀中存在的對應點,如圖 5 所示。本文在項目頁面的視頻中展示了在非剛性對象(如流體)中跟蹤點的演示。
(c)視頻對象跟蹤。使用規范圖像上的分割算法,本文能夠利用內容變形場促進掩模在所有視頻序列中的傳播。如圖 6 所示,本文提出的流水線算法熟練地生成在所有幀之間保持一致性的掩碼。
(d) 視頻超分辨率算法。通過將圖像超分辨率算法直接應用于規范圖像,可以將視頻進行超分辨率處理以生成高質量視頻,如圖 7 所示。假設變形由連續場表示,那么超分辨率的應用不會產生閃爍。
(e) 用戶交互式視頻編輯。本文提出的表示算法允許用戶編輯具有獨特風格的對象,而不會影響圖像的其他部分。如圖 8 所示,用戶可以手動調整規范圖像上的內容,以在自動編輯算法可能無法實現最佳結果的區域進行精確編輯。
消融實驗
為了驗證本文所提出模塊的效果,作者進行了消融實驗研究。在用位置編碼代替 3D 散列編碼時,視頻的重建 PSNR 顯著降低了 3.1dB。在沒有退火散列的情況下,規范圖像失去了其自然外觀,如圖 9 中的顯示。此外,在不考慮流信息損失的情況下,平滑區域明顯受到閃爍的影響。要進行更廣泛的比較,請參閱項目頁面上的視頻。