Gen-1：從現(xiàn)有視頻生成新視頻的AI模型

沃卡惠
行業(yè)資訊
2023-02-13 09:09:16
105

共同開發(fā)文本到圖像AI模型Stable Diffusion的研究實驗室Runway ML推出了一種新的視頻到視頻模型：Gen-1，它可以從現(xiàn)有視頻生成新視頻。

Gen-1是一種內(nèi)容引導(dǎo)的視頻傳播模型。它根據(jù)基于所需輸出的視覺或文本描述來編輯視頻。

例如，用戶可以上傳白色皮毛狗的視頻，輸入文本提示“白色皮毛上有黑色斑點的狗”，模型將生成具有所需輸出的現(xiàn)有視頻的新版本。

Runway聲稱其新模式類似于“拍攝新事物，但根本不拍攝任何東西。沒有燈。沒有相機。所有的行動。”

Runway宣稱其最新的生成模型能夠生成視頻，同時保留原始視頻的質(zhì)量和靈活性。

根據(jù)Runway的說法，Gen-1“能夠真實、一致地將圖像或文本提示的構(gòu)圖和風(fēng)格應(yīng)用到目標(biāo)視頻中。”

視頻到視頻的方法是通過在圖像和視頻上聯(lián)合訓(xùn)練模型來實現(xiàn)的。此類訓(xùn)練數(shù)據(jù)使Gen-1能夠在推理時完全進行編輯，而無需額外的每個視頻訓(xùn)練或預(yù)處理，因為它使用示例圖像作為指導(dǎo)。

根據(jù)Runway的說法，Gen-1可以部署的用例包括定制、渲染和遮罩

目前，只有少數(shù)受邀用戶獲得了Gen-1的訪問權(quán)限，盡管Runway將在幾周內(nèi)公開發(fā)布該模型。想要訪問Gen-1的用戶必須加入候補名單。

“Runway Research致力于構(gòu)建多模態(tài)AI系統(tǒng)，以實現(xiàn)新形式的創(chuàng)造力。Gen-1代表了我們在這一使命中向前邁出的又一關(guān)鍵步驟，”Stable Diffusion制造商爭辯道。

可通過arXiv獲得全面概述該模型的論文。

用于視頻的生成AI并不是什么新鮮事。去年9月，當(dāng)全世界開始對文本到圖像的AI模型著迷時，Meta的研究人員推出了Make-A-Video，這是一種能夠根據(jù)文本提示生成視頻的AI系統(tǒng)。Make-A-Video還可以從圖像創(chuàng)建視頻，或使用現(xiàn)有視頻創(chuàng)建類似的新視頻。

上一篇：量子在ChatGPT世界中的作用

下一篇：用于改進對象跟蹤和距離測量的新型3D激光雷達系統(tǒng)