【原】Occ-BEV：通過3D場景重建實現(xiàn)多相機統(tǒng)一預(yù)訓(xùn)練

點云PCL 2023-07-03 發(fā)布于上海

展開全文

文章：Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

作者：Chen Min Peking University

編輯：點云PCL

代碼：

https://github.com/chaytonmin/Occ-BEV.git

歡迎各位加入知識星球，獲取PDF論文，歡迎轉(zhuǎn)發(fā)朋友圈。文章僅做學(xué)術(shù)分享，如有侵權(quán)聯(lián)系刪文。

公眾號致力于點云處理，SLAM，三維視覺，高精地圖等領(lǐng)域相關(guān)內(nèi)容的干貨分享，歡迎各位加入，有興趣的可聯(lián)系dianyunpcl@163.com。未經(jīng)作者允許請勿轉(zhuǎn)載，歡迎各位同學(xué)積極分享和交流。

摘要

多攝像頭3D感知已經(jīng)成為自動駕駛中一個重要的研究領(lǐng)域，能夠為基于lidar的解決方案提供了可行且經(jīng)濟有效的替代方案。然而現(xiàn)有的多攝像頭算法主要依賴于單目圖像的預(yù)訓(xùn)練，忽視了不同攝像頭視角之間的空間和時間相關(guān)性。為了解決這個限制，我們提出了第一個多攝像頭統(tǒng)一預(yù)訓(xùn)練框架，稱為Occ-BEV。該框架首先通過重建3D場景作為基礎(chǔ)階段，然后在下游任務(wù)上對模型進行微調(diào),具體而言，設(shè)計了一個3D解碼器，利用多視圖圖像中的鳥瞰圖特征來預(yù)測3D幾何占用情況，使模型能夠更全面地理解3D環(huán)境。Occ-BEV的一個重要優(yōu)勢是能夠利用大量未標(biāo)記的圖像-LiDAR對進行預(yù)訓(xùn)練。在多攝像頭3D目標(biāo)檢測和周圍語義場景完整性等關(guān)鍵任務(wù)上，所提出的多攝像頭統(tǒng)一預(yù)訓(xùn)練框架顯示出良好的結(jié)果，與nuScenes數(shù)據(jù)集上的單目預(yù)訓(xùn)練方法相比，Occ-BEV在多攝像頭3D目標(biāo)檢測方面的mAP提高了約2.0％，NDS提高了2.0％，周圍語義場景完整性方面的mIoU提高了3％。代碼開源https://github.com/chaytonmin/Occ-BEV。

主要貢獻

為了評估我們方法的有效性，在3D目標(biāo)檢測任務(wù)中，所提出的Occ-BEV與單目預(yù)訓(xùn)練方法相比，在mAP和NDS方面均取得了顯著的改進，分別提高了2.0%。這表明我們的模型更適合在3D環(huán)境中準(zhǔn)確檢測和定位物體。對于語義場景完整性任務(wù)，Occ-BEV在mIoU方面取得了約3%的顯著改進，表明我們的模型在重建和預(yù)測周圍環(huán)境的語義標(biāo)簽方面更有效。模型的優(yōu)越性能歸功于其能夠有效利用未標(biāo)記數(shù)據(jù)，并考慮到空間和時間相關(guān)性，通過整合多個攝像頭視角的信息，我們的模型可以更好地捕捉場景中豐富的上下文和時間信息，從而提高自動駕駛場景中的感知能力。本文的主要貢獻如下：

定義了多攝像頭統(tǒng)一預(yù)訓(xùn)練的任務(wù)，并提出了第一個統(tǒng)一預(yù)訓(xùn)練框架，該框架首先通過重建3D周圍場景作為基礎(chǔ)階段，然后在下游任務(wù)上進行微調(diào)。

引入了3D幾何占用預(yù)測作為預(yù)文本任務(wù)，僅通過多視圖圖像恢復(fù)了3D場景的完整占用分布。

多攝像頭預(yù)訓(xùn)練方法在學(xué)習(xí)統(tǒng)一表示方面表現(xiàn)出色，能夠有效利用多個攝像頭視角和幀的空間和時間信息，在多視圖3D目標(biāo)檢測和周圍語義場景完整性任務(wù)中超越了單目預(yù)訓(xùn)練的性能。

主要內(nèi)容

Occ-BEV的網(wǎng)絡(luò)架構(gòu)如圖2所示，首先介紹基于視覺的BEV感知方法。然后介紹提出的幾何占據(jù)預(yù)訓(xùn)練方法，并與現(xiàn)有的單目預(yù)訓(xùn)練和知識蒸餾方法進行了比較。

圖2：所提出的多攝像頭統(tǒng)一預(yù)訓(xùn)練方法Occ-BEV的總體架構(gòu)，首先將多幀大規(guī)模非規(guī)則LiDAR點云轉(zhuǎn)換為體積表示，作為幾何占用標(biāo)簽，然后在BEV編碼器中添加一個具有幾層3D卷積的占用解碼器。將二進制占用分類作為預(yù)文本任務(wù)，用于區(qū)分體素是否包含點云，在預(yù)訓(xùn)練之后，輕量級解碼器被丟棄，編碼器用于預(yù)熱下游任務(wù)的主干網(wǎng)絡(luò)。

將2D圖像轉(zhuǎn)換為3D空間的學(xué)習(xí)方法主要有兩種：基于LSS的視角轉(zhuǎn)換和基于Transformer的視角轉(zhuǎn)換，我們的方法不局限于特定的視角轉(zhuǎn)換方法。這里概述基于鳥瞰圖的多攝像頭感知算法的工作流程。多攝像頭輸入圖像表示為I = {Ii，i = 1, 2, ..., N}，首先通過圖像主干網(wǎng)絡(luò)（例如ResNet-101）進行處理，為每個攝像頭視圖生成特征圖F，然后，將這些特征輸入到2D到3D視角轉(zhuǎn)換操作中，將它們投影到統(tǒng)一的鳥瞰圖表示中，表示為Fbev ，通過結(jié)合特定的任務(wù)頭，可以在鳥瞰圖上完成各種自動駕駛感知任務(wù)，包括3D物體檢測、地圖分割、物體跟蹤等。目前的BEV感知算法主要依賴于在單目圖像上訓(xùn)練的特征提取模型（例如ImageNet）或深度估計模型（例如V2-99 ），然而，這些方法未考慮來自不同攝像頭視圖和幀的圖像之間的相互作用和相關(guān)性，因此，缺乏一個多攝像頭統(tǒng)一預(yù)訓(xùn)練模型，為了充分利用不同攝像頭視圖之間的空間和時間關(guān)系，我們提出了一個多攝像頭統(tǒng)一預(yù)訓(xùn)練模型。諸如BEVDepth 和DD3D等方法展示了深度估計對基于視覺的感知算法的重要性，然而，深度估計只能估計物體表面的位置，忽略了物體的遮擋情況，對于多攝像頭系統(tǒng)來說，精確的3D占據(jù)柵格預(yù)測有助于提高感知的準(zhǔn)確性。

目前，多攝像頭感知算法通常采用在ImageNet上進行單目圖像預(yù)訓(xùn)練或深度估計預(yù)訓(xùn)練的方法。如圖1所示，我們提出的多攝像頭統(tǒng)一預(yù)訓(xùn)練模型相對于單目預(yù)訓(xùn)練具有以下幾個優(yōu)勢：

(1) 空間-時間整合：通過利用多個攝像頭視角的空間和時間信息，模型可以更好地理解環(huán)境的動態(tài)特性并進行更準(zhǔn)確的預(yù)測。

(2) 統(tǒng)一表示：統(tǒng)一的預(yù)訓(xùn)練方法使模型能夠跨不同攝像頭視角學(xué)習(xí)共享的表示，促進更好的知識傳遞，并減少對任務(wù)特定預(yù)訓(xùn)練的需求。

(3) 對遮擋區(qū)域的感知：單目深度估計只能預(yù)測物體表面的位置，而提出的多攝像頭統(tǒng)一預(yù)訓(xùn)練方法能夠?qū)φ趽跷矬w進行整體的3D重建。

圖1：單目預(yù)訓(xùn)練與我們提出的統(tǒng)一多攝像頭預(yù)訓(xùn)練的對比，單目預(yù)訓(xùn)練僅增強了從單個視角提取特征的能力，而我們提出的多視角統(tǒng)一預(yù)訓(xùn)練通過3D場景重建使得能夠整合多視角圖像的時空信息進行預(yù)訓(xùn)練。

實驗

在nuScenes數(shù)據(jù)集上進行了大量實驗。我們采用了現(xiàn)有方法DETR3D和BEVFormer（基于Transformer的方法)，以及BEVDet、BEVDepth和BEVStereo（基于LSS的方法）的訓(xùn)練設(shè)置。對于DETR3D和BEVFormer，將體素大小設(shè)置為16×200×200；對于BEVDet、BEVDepth和BEVStereo，將體素大小設(shè)置為16×128×128，我們總共進行了24個時期的預(yù)訓(xùn)練，占用解碼器包括兩層3D卷積層，所有實驗均使用了8張Nvidia Tesla A40 GPU卡進行。

首先在nuScenes的驗證集上對Occ-BEV進行了評估，如表1所示，我們的多相機統(tǒng)一預(yù)訓(xùn)練方法在monocular FCOS3D 上展現(xiàn)了顯著的改進，它在NDS上超過了DETR3D，達到了2.7%的增長，在mAP上增長了1.1%，此外，它在NDS上超過了BEVFormer，達到了1.7%的改進，在mAP上增長了2.2%。

在圖3中展示了BEVFormer的收斂曲線，我們的統(tǒng)一預(yù)訓(xùn)練在初始時期顯著提升了BEVFormer，NDS增加了4%。這表明我們的統(tǒng)一預(yù)訓(xùn)練方法能夠從全局角度提供準(zhǔn)確的目標(biāo)位置信息，對于基于LSS的方法BEVDet和BEVDepth，它們在ImageNet上進行了monocular預(yù)訓(xùn)練，我們的多相機統(tǒng)一預(yù)訓(xùn)練方法在NDS和mAP上分別改進了約2.0%。

為了進一步驗證，我們在nuScenes的測試集上進行了額外的實驗證明了我們提出的基于三維場景重建的多相機統(tǒng)一預(yù)訓(xùn)練方法相較于基于monocular深度估計的預(yù)訓(xùn)練方法的有效性。如表2所示，與在DD3D上進行深度估計預(yù)訓(xùn)練的DETR3D 相比，我們的多相機統(tǒng)一預(yù)訓(xùn)練方法在mAP和NDS上都顯著提高了約1.8%。這凸顯了我們的預(yù)訓(xùn)練方法在提升三維感知任務(wù)性能方面的有效性和優(yōu)越性。以上結(jié)果表明，我們提出的Occ-BEV模型在自動駕駛領(lǐng)域具有良好的應(yīng)用前景。我們還將我們提出的多相機統(tǒng)一預(yù)訓(xùn)練方法與知識蒸餾方法BEVDistill 進行了比較。如表5所示，我們的方法表現(xiàn)與基于標(biāo)注的LiDAR點云數(shù)據(jù)進行訓(xùn)練的知識蒸餾方法相當(dāng)，值得注意的是，我們的方法更高效且具有更廣泛的適用性，因為它不依賴于數(shù)據(jù)注釋或LiDAR點云模型的訓(xùn)練，而BEVDistill 則依賴于這些。

圖5：三維場景重建的可視化

如圖5展示了幾個重建的三維場景，可以觀察到使用單幀點云作為占據(jù)格生成的監(jiān)督信息會導(dǎo)致不完整的重建，因為LiDAR點云的稀疏性。另一方面，使用三個關(guān)鍵幀及其對應(yīng)的非關(guān)鍵幀作為監(jiān)督信息可以更完整地重建三維場景。

局限性：雖然我們的多攝像頭統(tǒng)一預(yù)訓(xùn)練方法已經(jīng)展示出了有希望的結(jié)果，但還存在幾個限制需要考慮：

（1）解碼器中的三維卷積限制了其在需要高分辨率占據(jù)重建的任務(wù)中的適用性。我們將探索級聯(lián)細化策略。（2）目前，我們依賴于LiDAR來獲得真實的占據(jù)格數(shù)據(jù)。未來，我們將探索使用NeRF和MVS算法僅通過多視角圖像重建三維場景并獲得真實數(shù)據(jù)。

（3）動態(tài)目標(biāo)可能導(dǎo)致不準(zhǔn)確的定位，這可以通過進行四維場景重建來解決。

總結(jié)

本文定義了多攝像頭統(tǒng)一預(yù)訓(xùn)練任務(wù)，并提出了第一個統(tǒng)一預(yù)訓(xùn)練算法，該算法在多個自動駕駛?cè)蝿?wù)中展現(xiàn)了出色的性能，如多攝像頭三維物體檢測和周圍語義場景完成，通過使用無標(biāo)簽的圖像-LiDAR對進行三維場景重建的預(yù)訓(xùn)練為減少對標(biāo)注的三維數(shù)據(jù)的依賴和建立自動駕駛的基礎(chǔ)模型提供了有希望的機會，未來的工作應(yīng)集中解決上述限制，并進一步提高我們方法在實際自動駕駛場景中的性能和適用性。

資源

自動駕駛及定位相關(guān)分享

【點云論文速讀】基于激光雷達的里程計及3D點云地圖中的定位方法

自動駕駛中基于光流的運動物體檢測

基于語義分割的相機外參標(biāo)定

綜述：用于自動駕駛的全景魚眼相機的理論模型和感知介紹

高速場景下自動駕駛車輛定位方法綜述

Patchwork++：基于點云的快速、穩(wěn)健的地面分割方法

PaGO-LOAM:基于地面優(yōu)化的激光雷達里程計

多模態(tài)路沿檢測與濾波方法

多個激光雷達同時校準(zhǔn)、定位和建圖的框架

動態(tài)的城市環(huán)境中桿狀物的提取建圖與長期定位