共同開發(fā)文本到圖像AI模型Stable Diffusion的研究實驗室Runway ML推出了一種新的視頻到視頻模型:Gen-1,它可以從現(xiàn)有視頻生成新視頻。
Gen-1是一種內(nèi)容引導(dǎo)的視頻傳播模型。它根據(jù)基于所需輸出的視覺或文本描述來編輯視頻。
例如,用戶可以上傳白色皮毛狗的視頻,輸入文本提示“白色皮毛上有黑色斑點的狗”,模型將生成具有所需輸出的現(xiàn)有視頻的新版本。
Runway聲稱其新模式類似于“拍攝新事物,但根本不拍攝任何東西。沒有燈。沒有相機。所有的行動。”
Runway宣稱其最新的生成模型能夠生成視頻,同時保留原始視頻的質(zhì)量和靈活性。
根據(jù)Runway的說法,Gen-1“能夠真實、一致地將圖像或文本提示的構(gòu)圖和風(fēng)格應(yīng)用到目標(biāo)視頻中。”
視頻到視頻的方法是通過在圖像和視頻上聯(lián)合訓(xùn)練模型來實現(xiàn)的。此類訓(xùn)練數(shù)據(jù)使Gen-1能夠在推理時完全進行編輯,而無需額外的每個視頻訓(xùn)練或預(yù)處理,因為它使用示例圖像作為指導(dǎo)。
根據(jù)Runway的說法,Gen-1可以部署的用例包括定制、渲染和遮罩
目前,只有少數(shù)受邀用戶獲得了Gen-1的訪問權(quán)限,盡管Runway將在幾周內(nèi)公開發(fā)布該模型。想要訪問Gen-1的用戶必須加入候補名單。
“Runway Research致力于構(gòu)建多模態(tài)AI系統(tǒng),以實現(xiàn)新形式的創(chuàng)造力。Gen-1代表了我們在這一使命中向前邁出的又一關(guān)鍵步驟,”Stable Diffusion制造商爭辯道。
可通過arXiv獲得全面概述該模型的論文。
用于視頻的生成AI并不是什么新鮮事。去年9月,當(dāng)全世界開始對文本到圖像的AI模型著迷時,Meta的研究人員推出了Make-A-Video,這是一種能夠根據(jù)文本提示生成視頻的AI系統(tǒng)。Make-A-Video還可以從圖像創(chuàng)建視頻,或使用現(xiàn)有視頻創(chuàng)建類似的新視頻。