精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業資訊

首個多視角自動駕駛場景視頻生成世界模型

筆者的一些個人思考

在自動駕駛領域,隨著BEV-based子任務/端到端方案的發展,高質量的多視圖訓練數據和相應的仿真場景構建愈發重要。針對當下任務的痛點,“高質量”可以解耦成三個方面:

不同維度上的長尾場景:如障礙物數據中近距離的車輛以及切車過程中精準的朝向角,以及車道線數據中不同曲率的彎道或較難采集的匝道/匯入/合流等場景。這些往往靠大量的數據采集和復雜的數據挖掘策略,成本高昂。

3D真值-圖像的高度一致:當下的BEV數據獲取往往受到傳感器安裝/標定,高精地圖以及重建算法本身的誤差影響。這導致了我們很難保證數據中的每一組【3D真值-圖像-傳感器參數】 的精確一致。

滿足上述條件基礎上的時序數據:連續幀的多視角圖像和相應真值,這對于當前的感知/預測/決策/端到端等任務都是必不可少的。

而對仿真來說,可以直接通過布局進行滿足上述條件的視頻生成,無疑是最直接的multi-agent傳感器輸入的構造方式。而DrivingDiffusion則從一個新的角度解決了上述問題。

什么是DrivingDiffusion?

DrivingDiffusion是一個用于自動駕駛場景生成的擴散模型框架,實現了布局控制的多視角圖像/視頻生成并分別實現了SOTA。

DrivingDiffusion-Future作為自動駕駛世界模型有根據單幀圖像預測未來場景視頻并根據語言提示影響主車/他車運動規劃的能力。

DrivingDiffusion生成效果是怎么樣的?

(1)DrivingDiffusion

布局控制的多視角圖像生成

圖片

圖中展示了以布局投影作為輸入的multi-view圖像生成效果。

調整布局:精確控制生成結果

圖片

圖中上半部分展示了生成結果的多樣性以及下文中模塊設計的重要性。下半部分展示了對正后方的車輛進行擾動的結果,包含移動,轉向,碰撞甚至懸浮在空中的場景的生成效果。

布局控制的多視角視頻生成

圖片

圖片

上:DrivingDiffusion在nuScenes數據上訓練后的視頻生成結果。下:DrivingDiffusion在大量私有真實數據上訓練后的視頻生成結果。

(2)DrivingDiffusion-Future

根據輸入幀+文本描述生成后續幀

圖片

使用單幀圖像作為輸入,根據對主車/他車的文本描述構建后續幀駕駛場景。圖中前三行和第四行分別展示了對主車和他車行為進行文本描述控制后的生成效果。(綠框為輸入,藍框為輸出)

根據輸入幀直接生成后續幀

圖片

無需其他控制,僅使用單幀圖像作為輸入,預測后續幀駕駛場景。(綠框為輸入,藍框為輸出)

DrivingDiffusion是如何解決上述問題的?

DrivingDiffusion首先人為地構造場景中的所有3D真值(障礙物/道路結構),在將真值投影為Layout圖像后,以此為模型輸入得到多相機視角下的真實圖像/視頻。之所以沒有直接使用3D真值(BEV視圖或按照編碼后的實例)作為模型輸入,而是使用參數進行投影后輸入,是為了消除系統性的3D-2D一致性誤差。(在這樣的一組數據中,3D真值車輛參數都是人為地按照實際需求構造的,前者帶來了隨意構造罕見場景數據能力,后者消除了傳統數據生產中幾何一致性的誤差。)

此時還剩下一個問題:生成的圖像/視頻質量能否滿足使用需求?

提到構造場景,大家往往會想到使用仿真引擎,然而其生成的數據和真實數據存在著較大的domain gap。GAN-based 方法的生成結果往往和實際真實數據的分布存在一定bias。而Diffusion Models基于馬爾可夫鏈通過學習噪聲來生成數據的特性,其生成結果的保真度較高,更適合替代真實數據使用。

DrivingDiffusion依照人為構造的場景車輛參數,直接生成時序multi-view視圖,不僅可以作為下游自動駕駛任務的訓練數據,還可以構建用于反饋自動駕駛算法的仿真系統。

這里的“人為構造的場景”僅包含障礙物和道路結構信息,但DrivingDiffusion的框架可以輕松引入標志牌,紅綠燈,施工區域等layout信息甚至low-level的occupancy grid/depth map等控制模式。

DrivingDiffusion方法概述

生成多視角視頻時,有幾個難點:

相較常見的圖像生成,多視角視頻生成新增了視角時序兩個維度,如何設計一個可以進行長視頻生成的框架?如何保持跨視角一致性和跨幀一致性?

從自動駕駛任務的角度,場景中的實例至關重要,如何保證生成實例的質量?

DrivingDiffusion主要設計了一個通用的訓練框架,將stable-diffusion-v1-4模型作為圖像的預訓練模型,并使用3D偽卷積將原有圖像輸入膨脹,用于處理視角/時序新增的維度后輸入3D-Unet,在得到了處理新增維度的擴散模型后,進行了交替迭代式的視頻擴展,通過關鍵幀控制微調的操作保障了短時序和長時序的整體一致性。此外,DrivingDiffusion提出了Consistency Module和Local Prompt,分別解決了跨視角/跨幀一致性和實例質量的問題。

DrivingDiffusion生成長視頻流程

圖片

單幀多視角模型:生成multi-view關鍵幀,

以關鍵幀作為額外控制,多視角共享的單視角時序模型:并行對各個view進行時序擴展,

以生成結果為額外控制的單幀多視角模型:時序并行地微調后續幀,

確定新關鍵幀并通過滑動窗口延長視頻。

跨視角模型和時序模型的訓練框架

圖片

對于multi-view模型和時序模型來說,3D-Unet的擴展維度分別為視角和時間。二者都有相同的布局控制器。作者認為后續幀可以從multi-view關鍵幀獲取場景中的信息,并隱式地學習不同目標的關聯信息。二者分別使用了不同的一致性注意力模塊和相同的Local Prompt模塊。

布局編碼:障礙物類別/實例信息和道路結構分割布局,分別以不同的固定編碼值編碼為RGB圖像,經過encode后輸出布局token。

關鍵幀控制:所有的時序擴展過程,都采用了某一關鍵幀的multi-view圖像,這是基于在短時序內的后續幀可以從關鍵幀獲取信息的假設。所有的微調過程都以關鍵幀和其生成的后續某幀的multi-view圖像作為額外控制,輸出優化該幀跨視角一致性后multi-view圖像。

基于特定視角的光流先驗:對于時序模型,訓練時只進行某個視角下數據的采樣。額外使用提前統計的該視角圖像下每個像素位置的光流先驗值,編碼后作為相機ID token,進行類似擴散過程中的time embedding對hidden層的交互控制。

Consistency Module & Local Prompt

圖片

Consistency Module分為兩部分:一致性注意力機制一致性關聯損失

一致性注意力機制關注了相鄰視角和時序相關幀的交互,具體來說對于跨幀一致性僅僅關注存在overlap的左右相鄰視角的信息交互,對于時序模型,每一幀只關注關鍵幀以及前一幀。這避免了全局交互帶來的巨大計算量。

一致性關聯損失通過像素級關聯并回歸位姿來添加幾何約束,其梯度由一個預先訓練的位姿回歸器提供。該回歸器基于LoFTR添加位姿回歸head,并在相應數據集的真實數據上使用位姿真值進行訓練。對于多視角模型和時序模型該模塊分別監督相機相對位姿和主車運動位姿。

Local PromptGlobal Prompt配合,復用了CLIP和stable-diffusion-v1-4的參數語義,對特定類別實例區域進行局部增強。如圖所示,在圖像token和全局的文字描述提示的交叉注意力機制基礎上,作者對某類別進行local prompt設計并使用該類別mask區域的圖像token對local prompt進行查詢。該過程最大程度地利用了原模型參數中在open domain的文本引導圖像生成的概念。

DrivingDiffusion-Future方法概述

圖片

對于未來場景構建任務來說,DrivingDiffusion-Future使用了兩種方式:一種是直接通過第一幀圖像預測后續幀圖像(視覺分支),并使用幀間光流作為輔助損失。這種方式較簡單,但根據文本描述對后續生成幀進行生成的效果一般。另一種方式是在前者基礎上新增了概念分支,該分支通過第一幀BEV視圖預測后續幀BEV視圖,這是因為對BEV視圖的預測有助于模型捕捉駕駛場景的核心信息和建立概念。此時文本描述同時作用于兩個分支,并通過BEV2PV的視角轉換模塊將概念分支的特征作用于視覺分支,其中視角轉換模塊的部分參數是通過使用真值圖像替代噪聲輸入預先訓練的(并在后續訓練中凍結)。值得注意的是,主車控制文本描述控制器他車控制/環境文本描述控制器是解耦的。

實驗分析

為了評估模型的性能,DrivingDiffusion采用幀級Fréchet Inception Distance (FID)來評估生成圖像的質量,相應地使用FVD來評估生成視頻質量。所有指標都是在nuScenes驗證集上計算的。如表1所示,和自動駕駛場景中的圖像生成任務BEVGen 和視頻生成任務DriveDreamer相比,DrivingDiffusion在不同設定下的性能指標都有較大優勢。

圖片

盡管FID等方法通常用于衡量圖像合成的質量,但它們并沒有完全反饋任務的設計目標,也沒有反映不同語義類別的合成質量。由于任務致力于生成與3D布局一致的多視圖圖像,DrivingDiffuison提出使用BEV感知模型指標來衡量一致性方面的性能:利用CVT和BEVFusion的官方模型作為評測器,采用與nuScenes驗證集相同的以真實3D布局為條件的生成圖像,對每組生成的圖像進行CVT和BevFusion推理,然后將預測的結果與真實結果進行比較,對其中可駕駛區域的平均交叉路口(mIoU)分數和所有對象類的NDS進行了統計,如表2所示。實驗結果表明,對合成數據評測集的感知指標和真實評測集的指標十分接近,這體現了生成結果和3D真值的高度一致性和圖像質量的高保真度。

圖片

除了上述實驗外,DrivingDiffusion針對其主要解決的問題——提升自動駕駛下游任務表現,進行了加入合成數據訓練的實驗。表3展示了合成數據增強在BEV感知任務中實現的性能改進。在原始訓練數據中,存在長尾分布的問題,特別是小目標、近距車輛和車輛定向角度。DrivingDiffusion專注于為這些樣本有限的類別生成額外的數據來解決這個問題。在增加了專注于改善障礙物朝向角度的分布的2000幀數據后,NDS略有改善,而mAOE從0.5613顯著下降到0.5295。在使用6000幀更全面,更專注于罕見場景的合成數據來輔助訓練后,可以觀察到nuScenes驗證集有顯著的增強:NDS由0.412上升至0.434, mAOE由0.5613下降至0.5130。這證明了合成數據的數據增強給感知任務帶來的顯著的提升。使用者可以根據實際需求,對數據中各個維度的分布進行統計,再針對性地使用合成數據進行補充。

DrivingDiffusion的意義和未來工作

DrivingDiffuison同時實現了多視角的自動駕駛場景視頻生成和未來預測的能力,對自動駕駛任務有著重大意義。其中布局參數全部人為構造且3D-2D之間的轉換通過投影而非依賴可學習的模型參數,這消除了在以往獲取數據過程中的幾何誤差,有較強的實用價值。同時DrivingDiffuison的可擴展性極強,支持新增場景內容layout以及額外的controller,同時也可以通過超分辨率和視頻插幀技術無損地提升生成質量。

在自動駕駛仿真中,關于Nerf的嘗試越來越多。然而在街景生成這一任務上,對動靜態內容的分離,大范圍街區重建,解耦天氣等維度的表觀控制等等,帶來了巨大工程量,此外Nerf往往需要再特定范圍場景內進行訓練后才可支持后續的仿真中的新視角合成任務。而DrivingDiffusion天然包含了一定的通識先驗,包括視覺-文字的聯系,對視覺內容的概念理解等,可以僅通過構造布局快速地根據需求建立一段場景。但正如上文所述,整個流程較為復雜,且對于長視頻的生成需要后處理的模型微調和擴展。DrivingDiffusion將繼續探索視角維度和時間維度的壓縮,以及結合Nerf進行新視角生成和轉換,持續提升生成質量以及可擴展性。

猜你喜歡