快速獲得最新干貨 基于深度學(xué)習(xí)的定位與建圖方法綜述:面向空間機(jī)器智能時代 論文地址:https://arxiv.org/pdf/2006.12567v1.pdf 在計(jì)算機(jī)視覺life公眾號后臺回復(fù):0805,即可下載論文及翻譯全文。 摘要:基于深度學(xué)習(xí)的定位與建圖技術(shù)近年來受到了廣泛的關(guān)注。不同于利用物理模型或幾何理論的人工設(shè)計(jì)的(crating hand-designed)算法,深度學(xué)習(xí)方法提供了一種以數(shù)據(jù)驅(qū)動的方式解決問題的替代方案。得益于不斷增長的數(shù)據(jù)量和計(jì)算能力,這些方法可以生成用于跟蹤運(yùn)動和估計(jì)真實(shí)世界場景結(jié)構(gòu)的,準(zhǔn)確且魯棒的系統(tǒng),并正在快速發(fā)展成為一個新的研究領(lǐng)域。在本次工作中,我們整理出了一篇綜述,并提出了一種對于現(xiàn)有的基于深度學(xué)習(xí)的定位和建圖方法新的分類方式。我們還論述了當(dāng)前模型的局限性,并指出未來可能的發(fā)展方向。(本文)涵蓋了范圍廣泛的主題(從基于學(xué)習(xí)的里程計(jì)估計(jì)、建圖到全球定位和SLAM)。我們重新討論了車載傳感器感知自身運(yùn)動和場景時(可能存在)問題,并展示了如何通過將這些模塊集成到未來的空間機(jī)器智能系統(tǒng)(SMIS)中來解決這個問題。我們希望這項(xiàng)工作能夠?qū)碜詸C(jī)器人學(xué)、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的新興研究成果聯(lián)系起來,并為未來研究人員了解應(yīng)用深度學(xué)習(xí)技術(shù)解決定位和建圖問題的可行性方法提供指導(dǎo)。 1.介紹定位和感知周圍環(huán)境是人類和移動機(jī)器人的基本需求。舉個例子,人類能夠通過多模態(tài)感覺(multimodal sensory perception)感知自身運(yùn)動和環(huán)境信息,并依靠這種感知能力在復(fù)雜的三維空間中進(jìn)行定位和導(dǎo)航[1]。這種能力是人類空間能力的一部分。此外,對自身運(yùn)動和周圍環(huán)境的感知能力在發(fā)展認(rèn)知和運(yùn)動控制中起著至關(guān)重要的作用[2]。同樣,人工智能體或機(jī)器人也應(yīng)該能夠感知環(huán)境,并具有使用搭載的傳感器估計(jì)其系統(tǒng)狀態(tài)的能力。這些智能體可以是任何形式的機(jī)器人,例如自動駕駛汽車、運(yùn)輸無人機(jī)或家政機(jī)器人,它們可以感知周圍環(huán)境并自主做出決策。同樣,新興的增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR)技術(shù)將網(wǎng)絡(luò)空間和現(xiàn)實(shí)空間交織在了一起,機(jī)器感知能力是人機(jī)無縫交互的基礎(chǔ)。更進(jìn)一步的應(yīng)用包括移動和可穿戴設(shè)備,如智能手機(jī)、腕帶或物聯(lián)網(wǎng)(IoT)設(shè)備,可以為用戶提供大量基于定位方面的服務(wù),包括步行導(dǎo)航[4],運(yùn)動/活動監(jiān)視[5],動物跟蹤[6],以及應(yīng)急響應(yīng)功能等[7]。 這些(及其他)數(shù)字技術(shù)需要精確和魯棒的定位,并具有逐步構(gòu)建和維護(hù)世界場景模型,持續(xù)處理新的信息和適應(yīng)各種場景的能力,才可以實(shí)現(xiàn)高度的自主化。這樣的研究在我們的工作中稱為“空間機(jī)器智能系統(tǒng)(SMIS)”,或者最近在[8]中被稱為空間Al。在這項(xiàng)工作中,定位是指獲得機(jī)器人運(yùn)動的內(nèi)部系統(tǒng)狀態(tài)的能力,包括位置、方向和速度;而建圖是指感知外部環(huán)境狀態(tài)和捕捉周圍環(huán)境信息的能力,包括二維或三維場景的幾何體、外觀和語義信息。這些組件可以單獨(dú)地感知內(nèi)部或外部的狀態(tài),也可以像同時定位和建圖(SLAM)一樣,可以在全局框架內(nèi)跟蹤機(jī)器人的位姿并建立一致的環(huán)境模型。 1.1.為什么要研究用于定位和建圖的深度學(xué)習(xí)技術(shù)定位和建圖問題已經(jīng)被研究了幾十年,各種復(fù)雜的人工設(shè)計(jì)(hand-designed)模型和算法也在被不斷開發(fā)中,例如里程計(jì)估計(jì) ( 包括視覺里程計(jì)[9],[10],[11],視覺慣導(dǎo)里程計(jì)[12]、[13]、[14]、[15]以及激光里程計(jì)[16] ) ,基于圖像的定位[17]、[18]、位置識別[19]、SLAM[10]、[20]、[21]、運(yùn)動重構(gòu)(SfM)[22]、[23]。在理想的條件下,這些傳感器和模型能夠不受時間,環(huán)境的限制,準(zhǔn)確地估計(jì)出系統(tǒng)狀態(tài)。然而,在現(xiàn)實(shí)中,傳感器測量誤差,系統(tǒng)建模誤差,復(fù)雜的環(huán)境動力學(xué)和不現(xiàn)實(shí)的約束(條件)都影響著人工設(shè)計(jì)系統(tǒng)的準(zhǔn)確性和可靠性。 因?yàn)榛谀P偷慕鉀Q方案存在的局限性,加上機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)的迅速發(fā)展,促使研究人員考慮將數(shù)據(jù)驅(qū)動學(xué)習(xí)方法作為解決問題的替代方法。圖1總結(jié)了傳感器數(shù)據(jù)輸入值(例如視覺,慣導(dǎo),激光雷達(dá)數(shù)據(jù)或其他傳感器)和目標(biāo)輸出值(例如位置,方向,場景幾何或語義)之間作為一個映射功能的關(guān)系類別。傳統(tǒng)的基于模型的解決方案是通過人工設(shè)計(jì)算法來實(shí)現(xiàn)的,而基于學(xué)習(xí)的方法則通過學(xué)習(xí)大量的數(shù)據(jù)來構(gòu)造這個映射函數(shù)?;趯W(xué)習(xí)的方法有三方面的優(yōu)勢: 首先,學(xué)習(xí)方法可以利用高表達(dá)度的深度神經(jīng)網(wǎng)絡(luò)作為通用逼近器,自動發(fā)現(xiàn)與任務(wù)相關(guān)的特征。這一特性使已訓(xùn)練好的模型能夠適應(yīng)各種場景(如無特征場景、動態(tài)高速場景、動態(tài)模糊、精確的相機(jī)校準(zhǔn)),這些都是人工建模的難題[3]。舉一個典型的例子,在視覺里程計(jì)的設(shè)計(jì)過程中加入數(shù)據(jù)驅(qū)動方法[24],[25],可以在其魯棒性方面取得顯著的改進(jìn),超過最先進(jìn)的傳統(tǒng)算法。此外,學(xué)習(xí)方法能夠?qū)⒊橄笤嘏c人類可理解的術(shù)語[26]、27聯(lián)系起來,但用正式的數(shù)學(xué)方法很難對其描述。 其次,學(xué)習(xí)方法可以使空間機(jī)器智能系統(tǒng)從過去的經(jīng)驗(yàn)中得到學(xué)習(xí),并積極地開發(fā)出新的信息。通過構(gòu)建一個通用的數(shù)據(jù)驅(qū)動模型,研究人員在解決特定領(lǐng)域問題時,可以在構(gòu)建模型時不必再費(fèi)盡心思將關(guān)于數(shù)學(xué)和物理規(guī)則的全部知識指定其中。這種能力可能使基于學(xué)習(xí)的機(jī)器能夠在新的場景或面對新的環(huán)境時自動發(fā)現(xiàn)新的計(jì)算解決方案,進(jìn)一步完善自己和自身的算法模型。一個很好的例子就是利用最新的視圖合成(技術(shù))作為一個自監(jiān)督信號,機(jī)器人可以從未標(biāo)記的視頻[29],[30]中恢復(fù)自運(yùn)動和場景深度信息。此外,通過構(gòu)建任務(wù)驅(qū)動的地圖,學(xué)習(xí)到的表示法可以進(jìn)一步支持高等級任務(wù),如路徑規(guī)劃[31]和決策制定[32]。 第三個優(yōu)勢是它能充分利用不斷增長的傳感器數(shù)據(jù)和計(jì)算機(jī)性能。深度學(xué)習(xí)或深度神經(jīng)網(wǎng)絡(luò)具有被擴(kuò)展到大規(guī)模問題的能力。通過反向傳播和梯度下降算法對大型數(shù)據(jù)集進(jìn)行訓(xùn)練,DNN框架中的大量參數(shù)可以通過最小化損失函數(shù)進(jìn)行自動優(yōu)化。例如,最近發(fā)布的GPT-3[33]是最大的預(yù)訓(xùn)練語言模型,它具有驚人的1750億個參數(shù),即使不進(jìn)行微調(diào),(經(jīng)過訓(xùn)練的模型)也能在各種自然語言處理(NLP)任務(wù)上獲得最先進(jìn)的結(jié)果。此外,各種與定位和建圖相關(guān)的大型數(shù)據(jù)集已經(jīng)發(fā)布,例如在自動駕駛汽車場景中,[34],[35],[36]包含了大量傳感器數(shù)據(jù)、運(yùn)動和語義標(biāo)簽組合的數(shù)據(jù)。這給了我們一個設(shè)想,(僅)利用數(shù)據(jù)和計(jì)算的力量來解決定位和建圖是有可能實(shí)現(xiàn)的。 但是,必須指出的是,這些學(xué)習(xí)技術(shù)依賴于從大量的數(shù)據(jù)集上來提取有意義的參數(shù),并且很難推廣到數(shù)據(jù)集類型只外的環(huán)境中。模型缺乏可解釋性。此外,雖然高度可并行化,但它們通常比簡單模型的計(jì)算成本更高。更詳細(xì)的局限性會在第7節(jié)中進(jìn)行討論 1.2.與其他綜述的比較(目前,)有幾篇綜述廣泛討論了基于模型的定位和建圖方法。SLAM問題的發(fā)展在早期幾十年間已經(jīng)在[37]、[38]中得到了很好的總結(jié)。[39]是一篇具有開創(chuàng)性意義的綜述,對現(xiàn)有SLAM工作的進(jìn)行了深入討論,回顧了SLAM的發(fā)展歷史,并描繪了幾個未來的方向。盡管該文章中有一個章節(jié)簡要討論了深度學(xué)習(xí)模型,但它并沒有全面概述該領(lǐng)域。特別是在過去五年,該領(lǐng)域產(chǎn)生了大量的研究成果。其他SLAM綜述只關(guān)注于SLAM系統(tǒng)的個別方面,包括SLAM的概率公式[40]、視覺里程計(jì)[41]、位姿圖SLAM[42]和動態(tài)環(huán)境下的SLAM[43]。我們建議讀者參考這些綜述,以更好地理解傳統(tǒng)的基于模型的解決方案。另一方面,[3]討論了深度學(xué)習(xí)在機(jī)器人研究中的應(yīng)用;然而,它的主要關(guān)注點(diǎn)并不是定位和建圖,而是更全面地表達(dá)了在機(jī)器人學(xué)的廣泛背景下進(jìn)行深度學(xué)習(xí)(包括政策學(xué)習(xí)、推理和規(guī)劃)的潛力和局限性。 值得注意的是,盡管定位和建圖問題屬于機(jī)器人學(xué)的核心概念,但其與學(xué)習(xí)方法的結(jié)合是和機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺甚至自然語言處理等其他研究領(lǐng)域同步發(fā)展的。因此,由于其跨學(xué)科領(lǐng)域性質(zhì),我們在將相關(guān)工作綜合歸納成一份綜述報(bào)告時解決了不小的困難。就我們所知,這是第一篇全面而廣泛地涵蓋了現(xiàn)有的基于深度學(xué)習(xí)的定位和建圖算法工作的綜述文章。 1.3.(本篇)綜述的結(jié)構(gòu)本文的其余部分架構(gòu)如下:第2節(jié)概述了目前的基于定位和建圖深度學(xué)習(xí)方法的分類;第3,4,5,6節(jié)分別討論了目前深度學(xué)習(xí)在相對運(yùn)動(里程計(jì))估計(jì),幾何、語義和通用的建圖,全局定位和SLAM以及專注于SLAM后端的工作方法;第7節(jié)討論了現(xiàn)有工作的局限性和對未來展望;最后,第8節(jié)對本文進(jìn)行了總結(jié)。 2.現(xiàn)有方法的分類我們?yōu)楝F(xiàn)有的與定位和建圖相關(guān),連接機(jī)器人、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)等領(lǐng)域的深度學(xué)習(xí)方法提供了一種新的分類方式。大致可以分為里程計(jì)估計(jì)、建圖、全球定位和SLAM,分類形式如圖2所示: 1)里程計(jì)估計(jì)是計(jì)算兩幀或多幀傳感器數(shù)據(jù)在平移和旋轉(zhuǎn)方面的相對位姿變化。它不斷地跟蹤自我的運(yùn)動,通過將位姿變化與初始位姿相結(jié)合,從而得到全局位姿,即位置和方向。這就是所謂的航跡推算法(dead reckoning solution)。里程計(jì)估計(jì)可用于提供位姿信息,也可以作為里程計(jì)運(yùn)動模型來輔助機(jī)器人控制的反饋回路。最關(guān)鍵問題是如何從各種傳感器的測量數(shù)據(jù)中準(zhǔn)確地估計(jì)運(yùn)動變換。為此,深度學(xué)習(xí)應(yīng)用端到端的方式對運(yùn)動動力學(xué)進(jìn)行建模,或以混合的方式提取有用的特征來支持預(yù)構(gòu)建的系統(tǒng)。 2)建圖是建立或重構(gòu)一個一致的模型來描述周圍的環(huán)境。建圖可以為人工操作者和高等級機(jī)器人任務(wù)提供環(huán)境信息,約束里程計(jì)估計(jì)的漂移誤差,檢索全局定位[39]的觀測。深度學(xué)習(xí)是一個有用的工具,可以從用于映射的高維原始數(shù)據(jù)中發(fā)現(xiàn)場景幾何體和語義信息?;谏疃葘W(xué)習(xí)的映射方法分為幾何映射、語義映射和一般映射,這取決于神經(jīng)網(wǎng)絡(luò)是學(xué)習(xí)場景的顯式幾何或語義,還是將場景編碼為隱式神經(jīng)表示。 3)全局定位是利用先驗(yàn)知識檢索已知場景中移動智能體的全局位姿。這是通過將查詢輸入數(shù)據(jù)與預(yù)先構(gòu)建的二維或三維地圖、其他空間參考或以前訪問過的場景匹配來實(shí)現(xiàn)的。它可以用來減少航跡推算系統(tǒng)產(chǎn)生的位姿漂移或解決“被綁架機(jī)器人”問題[40]。深度學(xué)習(xí)被廣泛用于解決棘手的數(shù)據(jù)關(guān)聯(lián)問題,這些問題在查詢構(gòu)建地圖與數(shù)據(jù)之間的對應(yīng)關(guān)系時,會因?yàn)橐晥D、光照、天氣和動態(tài)場景的變化而變得復(fù)雜。 4) SLAM將上述里程計(jì)估計(jì)、全局定位和建圖過程作為前端,共同優(yōu)化這些模塊,提升定位和建圖性能。除上述模塊外,其他幾個SLAM模塊都是為了保證整個系統(tǒng)的一致性:局部優(yōu)化保證了相機(jī)運(yùn)動和場景幾何的局部一致性;全局優(yōu)化的目的是在全局范圍內(nèi)約束全局軌跡的漂移;關(guān)鍵幀檢測用于基于關(guān)鍵幀的SLAM,以實(shí)現(xiàn)更有效的推理,而一旦通過回環(huán)檢測檢測到回環(huán),則可以通過全局優(yōu)化來改善系統(tǒng)的漂移誤差;不確定性估計(jì)提供了一種對所學(xué)位姿和映射的置信度,對于SLAM系統(tǒng)中的概率傳感器融合和后端優(yōu)化至關(guān)重要。 盡管各個組件的設(shè)計(jì)目標(biāo)不同,但上述組件可以集成到空間機(jī)器智能系統(tǒng)(SMIS)中,以解決現(xiàn)實(shí)世界中的挑戰(zhàn),從而實(shí)現(xiàn)魯棒的操作和在野外的長期自主能力。圖3顯示了基于深度學(xué)習(xí)的集成定位和建圖系統(tǒng)的概念圖,以及這些組件之間的關(guān)系。在下面的部分中,我們將詳細(xì)討論這些組件。 3.里程計(jì)估計(jì)我們從里程計(jì)估算開始,它可以連續(xù)跟蹤相機(jī)的運(yùn)動并輸出相對位姿。在給定初始狀態(tài)下,通過整合這些相對姿態(tài)位姿可以重建全局軌跡,因此保持運(yùn)動變換估計(jì)足夠精確對于確保全局尺度下的高精度定位是至關(guān)重要的。本節(jié)討論了從各種傳感器數(shù)據(jù)中實(shí)現(xiàn)里程計(jì)估計(jì)的深度學(xué)習(xí)方法,這些傳感器數(shù)據(jù)在數(shù)據(jù)屬性和應(yīng)用場景上有著根本性的不同。討論主要集中于視覺、慣導(dǎo)和點(diǎn)云數(shù)據(jù)的里程計(jì)估計(jì),因?yàn)樗鼈兪且苿訖C(jī)器人上常見的感知方式。 3.1.視覺里程計(jì)視覺里程計(jì)(VO)可以估計(jì)相機(jī)的自運(yùn)動,并將圖像間的相對運(yùn)動整合到全局位姿中。深度學(xué)習(xí)方法能夠從圖像中提取高級的特征表示,從而提供一種解決VO問題的替代方法,而不需要人工制作的特征提取器?,F(xiàn)有基于深度學(xué)習(xí)的VO模型可以分為端到端VO和混合VO,這取決于它們是純粹的基于神經(jīng)網(wǎng)絡(luò)的模型還是經(jīng)典VO算法和深度神經(jīng)網(wǎng)絡(luò)結(jié)合的模型。根據(jù)訓(xùn)練階段是否使用了真值標(biāo)簽,端到端VO系統(tǒng)可以進(jìn)一步分為有監(jiān)督VO和無監(jiān)督VO。 3.1.1.VO的監(jiān)督學(xué)習(xí)我們首先介紹有監(jiān)督VO,它是最主要的基于學(xué)習(xí)的里程計(jì)方法之一,可以通過在標(biāo)記數(shù)據(jù)集上訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)模型,直接構(gòu)造從連續(xù)圖像到運(yùn)動變換的映射函數(shù),而不是像傳統(tǒng)的VO系統(tǒng)那樣利用圖像的幾何結(jié)構(gòu)[41](進(jìn)行構(gòu)造)。從本質(zhì)上說,深度神經(jīng)網(wǎng)絡(luò)的輸入是一對連續(xù)的圖像,輸出是兩幀圖像之間估計(jì)的平移和旋轉(zhuǎn)。 Konda等人[44]的研究成果是該領(lǐng)域最早的研究成果之一。該方法將視覺里程計(jì)作為一個分類問題,并使用卷積神經(jīng)網(wǎng)絡(luò)(ConvNet)預(yù)測輸入圖像的方向和速度的離散變化。Costante等人[45]使用了一個卷積神經(jīng)網(wǎng)絡(luò)(ConvNet)從密集光流中提取視覺特征,并基于這些視覺特征,輸出幀到幀的運(yùn)動估計(jì)。盡管如此,這兩項(xiàng)工作沒有實(shí)現(xiàn)從圖像到運(yùn)動估計(jì)的端到端學(xué)習(xí),它們的性能仍然是有限的。 DeepVO[24]利用了卷積神經(jīng)網(wǎng)絡(luò)(ConvNet)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的組合來實(shí)現(xiàn)視覺里程計(jì)的端到端學(xué)習(xí)。由于其端到端學(xué)習(xí)的特殊性性,成為實(shí)現(xiàn)VO監(jiān)督學(xué)習(xí)的典型選擇。圖4(a)給出了基于RNN+ConvNet的VO系統(tǒng)的架構(gòu),該系統(tǒng)通過ConvNet從成對的圖像中提取視覺特征,并通過RNNs對特征進(jìn)行時間相關(guān)性建模。它的卷積神經(jīng)網(wǎng)絡(luò)編碼器基于FlowNet結(jié)構(gòu)可以提取適合光流和自運(yùn)動估計(jì)的視覺特征。使用基于FlowNet的編碼器可以看作是在學(xué)習(xí)過程中引入了光流的先驗(yàn)知識,可以潛在地防止DeepVO被過度擬合到訓(xùn)練數(shù)據(jù)集上。當(dāng)前模型會將歷史信息歸納為其隱藏狀態(tài),從而根據(jù)過去經(jīng)驗(yàn)和當(dāng)前傳感器觀測的卷積神經(jīng)網(wǎng)絡(luò)特征推斷輸出。它是在大規(guī)模數(shù)據(jù)集上訓(xùn)練的,基于真實(shí)的相機(jī)位姿作為標(biāo)簽。為了恢復(fù)系統(tǒng)的最優(yōu)參數(shù),系統(tǒng)的優(yōu)化目標(biāo)是估計(jì)平移與基于歐拉角旋轉(zhuǎn)的最小化均方誤差(MSE) (1) 其中,為t時刻相對位姿的估計(jì)值,為對應(yīng)的真實(shí)值,為DNN框架的參數(shù),N為樣本的總數(shù)目。 DeepVO報(bào)告顯示,即使在未見過的場景中,該模型對駕駛車輛位姿的估計(jì)也取得了非常不錯的結(jié)果。在KITTI測程數(shù)據(jù)集[46]的實(shí)驗(yàn)中,這種數(shù)據(jù)驅(qū)動的解決方案優(yōu)于傳統(tǒng)的代表性單目VO,如VISO2[47]和(沒有回環(huán)的)ORB-SLAM[21]。另一個優(yōu)點(diǎn)是,有監(jiān)督的VO算法可以從單目相機(jī)自然生成具有絕對尺度的軌跡,而經(jīng)典的VO算法僅利用單目信息所產(chǎn)生的軌跡是具有尺度模糊的。這是因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)可以隱式地從大量的圖像中學(xué)習(xí)和保持全局尺度,這可以被視為從過去的經(jīng)驗(yàn)中學(xué)習(xí),以預(yù)測當(dāng)前的尺度度量。 在經(jīng)典的有監(jiān)督VO模型的基礎(chǔ)上,許多工作對該方法進(jìn)行了進(jìn)一步的拓展,以提高模型的性能。為了提高有監(jiān)督VO的泛化能力,[48]結(jié)合力課程學(xué)習(xí)(即通過增加數(shù)據(jù)復(fù)雜度來訓(xùn)練模型)和幾何損失約束,在有監(jiān)督的VO框架中應(yīng)用了知識蒸餾(即通過訓(xùn)練(teaching)一個較小的模型來壓縮大規(guī)模模型),從而大大減少了網(wǎng)絡(luò)參數(shù)的數(shù)量,使其更易于在移動設(shè)備上進(jìn)行實(shí)時操作[49]。此外,Xue等人[50]引入了一個存儲全局信息的存儲模塊,以及一個利用保留的前后數(shù)據(jù)信息改進(jìn)位姿估計(jì)的細(xì)化模塊。 總之,得益于機(jī)器學(xué)習(xí)技術(shù)和計(jì)算能力的最新進(jìn)展,這些端到端學(xué)習(xí)方法可以直接從原始圖像中自動學(xué)習(xí)(如何進(jìn)行)位姿變換,從而解決富有挑戰(zhàn)的現(xiàn)實(shí)世界里程估計(jì)問題。 3.1.2.VO的無監(jiān)督學(xué)習(xí)探索VO的無監(jiān)督學(xué)習(xí)越來越引起人們的興趣。無監(jiān)督解決方案能夠利用未標(biāo)記的傳感器數(shù)據(jù),可以節(jié)省了人為標(biāo)記數(shù)據(jù)的工作量,并且在沒有標(biāo)記數(shù)據(jù)的新場景下具有更好的適應(yīng)性和泛化能力。這已經(jīng)在自監(jiān)督框架中被實(shí)現(xiàn)了,該框架可以利用視圖合成作為監(jiān)督信號,從視頻序列中獲得了深度和相機(jī)的自運(yùn)動[29]信息。 如圖4 (b)所示,典型的無監(jiān)督VO由預(yù)測深度圖的深度網(wǎng)絡(luò)和生成圖像之間運(yùn)動變化的位姿網(wǎng)絡(luò)組成。整個框架以連續(xù)圖像為輸入,基于新視點(diǎn)(給定源圖像)合成監(jiān)控信號.視圖合成任務(wù)是生成合成目標(biāo)圖像{t} 。源圖像的像素通過以下方式投影到目標(biāo)視圖上: (2) 其中,K是相機(jī)內(nèi)參矩陣,為相機(jī)從目標(biāo)幀到源圖像幀的運(yùn)動矩陣,{t}\left(p_{t}\right) 表示目標(biāo)幀中的每像素的深度圖。訓(xùn)練目標(biāo)是通過優(yōu)化真實(shí)目標(biāo)圖像和合成目標(biāo)圖像之間的光度重建損失來保證場景幾何的一致性: (3) 其中,p表示像素坐標(biāo),表示目標(biāo)圖像,{s} 表示由源圖像生成的合成目標(biāo)圖像。 然而,在最初的工作中[29],有兩個主要的問題仍然沒有解決:1)這種基于單目圖像的方法無法在一致的全局尺度下提供位姿估計(jì)。由于尺度模糊,該系統(tǒng)無法重建具有物理意義的全局軌跡,這也限制了其實(shí)際應(yīng)用。2)光度損失假設(shè)場景是靜態(tài)的,沒有相機(jī)遮擋。雖然作者提出可以使用可解釋的掩模(mask)去除動態(tài)場景,但這些環(huán)境因素的影響仍未完全解決,這違背了假設(shè)。為了解決這些問題,越來越多的工作[53]、[55]、[56]、[58]、[59] 、[61]、[64]、[76]、[77]對這種無監(jiān)督框架進(jìn)行了擴(kuò)展,以獲得更好的性能。 為了解決全局尺度問題,[53],[56]提出利用雙目圖像對,來恢復(fù)位姿估計(jì)的絕對尺度。他們在左右圖像之間引入了額外的空間光度損失。因?yàn)殡p目基線(即左右圖像之間的運(yùn)動變換)是固定的,并且在整個數(shù)據(jù)集中是已知的。一旦訓(xùn)練完成后,該網(wǎng)絡(luò)僅使用單目設(shè)備生來完成位姿預(yù)測。由于在訓(xùn)練和測試中所使用的數(shù)據(jù)集不同,網(wǎng)絡(luò)在沒有GT的情況下成為了無監(jiān)督網(wǎng)絡(luò)。[30]通過引入幾何一致性損失來解決尺度問題,從而加強(qiáng)預(yù)測深度圖和重建深度圖之間的一致性。該框架將預(yù)測的深度圖轉(zhuǎn)換為三維空間,并將其投影回來用于生成重建的深度圖。這樣,深度預(yù)測能夠在連續(xù)幀上保持尺度一致,從而使位姿估計(jì)也能保持尺度一致。 光度一致性約束假設(shè)了整個場景只包含剛性靜態(tài)結(jié)構(gòu),例如建筑物和車道。然而,在實(shí)際應(yīng)用中,環(huán)境動力學(xué)(例如行人和車輛)會扭曲光度投影,降低位姿估計(jì)的精度。為了解決這個問題,GeoNet[551]將其學(xué)習(xí)過程分為兩個子任務(wù),分別通過一個剛性結(jié)構(gòu)重建器和一個非剛性運(yùn)動定位器估計(jì)靜態(tài)場景結(jié)構(gòu)和運(yùn)動動力學(xué)。此外,GeoNet加強(qiáng)了幾何一致性損失,以減輕相機(jī)遮擋和非朗伯曲面(non-Lambertian surfaces)引起的問題。[59]添加了一個2D 流生成器以及一個深度網(wǎng)絡(luò)來生成3D流。得益于對環(huán)境更好的三維理解,他們的框架能夠產(chǎn)生更精確的相機(jī)位姿及點(diǎn)云圖。GANVO[61]采用生成的對抗性學(xué)習(xí)范式(adversarial learning paradigm)進(jìn)行深度生成,并引入了時間遞歸模塊(temporal recurrent module)進(jìn)行位姿回歸(計(jì)算)。Li等人[76]也使用了生成對抗神經(jīng)網(wǎng)絡(luò)(GAN)用來生成更真實(shí)的深度圖和位姿,并進(jìn)一步在目標(biāo)幀中生成了更精確的合成圖像,使用了鑒別器代替人工制作的度量標(biāo)準(zhǔn)來評估合成圖像生成的質(zhì)量。在此過程中,生成的對抗性設(shè)置使得生成的深度地圖紋理更加豐富和清晰。通過這種方式,高層次的場景感知和表現(xiàn)被準(zhǔn)確地捕獲,同時也能夠在動態(tài)環(huán)境中工作。 如圖5所示,盡管無監(jiān)督的VO在性能上仍無法與有監(jiān)督的VO競爭,但它所關(guān)注的尺度度量和場景動力學(xué)問題已經(jīng)基本解決。無監(jiān)督VO具有自監(jiān)督學(xué)習(xí)和性能不斷提高的優(yōu)點(diǎn),將成為空間機(jī)器智能系統(tǒng)中與其他模塊緊密耦合的一種很有前途的位姿信息提供解決方案。 3.1.3.混合VO與端到端的VO僅僅依靠深度神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中提取位姿不同,混合VO集成了經(jīng)典的幾何模型和深度學(xué)習(xí)框架。基于成熟的幾何理論,他們使用了深度神經(jīng)網(wǎng)絡(luò)替換了幾何模型部分的表達(dá)。 一種直接的方法是將學(xué)習(xí)到的深度估計(jì)值合并到傳統(tǒng)的視覺里程計(jì)算法中,以恢復(fù)位姿的絕對尺度度量值[52]。學(xué)習(xí)深度估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的一個研究熱點(diǎn)。例如,[78]、[79]、[80]、[81]通過使用經(jīng)過訓(xùn)練的深度神經(jīng)模型,在全局范圍內(nèi)提供每個像素的深度值,從而緩解了傳統(tǒng)VO的所謂尺度問題。Barnes等人[54]將預(yù)測的深度圖和短暫掩模(mask)(即移動對象的區(qū)域)輸入VO系統(tǒng)中,以提高其對運(yùn)動目標(biāo)的魯棒性。Zhan等人[67]將學(xué)習(xí)到的深度和光流預(yù)測整合到一個傳統(tǒng)的視覺里程計(jì)測量模型中,獲得了比其他基線更具競爭力的性能表現(xiàn)。其他工作將物理運(yùn)動(例如可微卡爾曼濾波器[82]和粒子濾波器[83]模型)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合。物理模型在學(xué)習(xí)過程中充當(dāng)了算法的先驗(yàn)。此外,D3VO[25]將深度、位姿和不確定性的深度預(yù)測納入了直接視覺里程計(jì)中。 結(jié)合幾何理論和深度學(xué)習(xí)的優(yōu)點(diǎn),混合模型在現(xiàn)階段通常比端到端VO更精確,如表1所示。值得注意的是,混合模型的性能甚至超過了目前最先進(jìn)的傳統(tǒng)單目VO或視覺慣導(dǎo)里程計(jì)(VIO)系統(tǒng),例如,D3VO[25]擊敗了幾個熱門的傳統(tǒng)VO/VIO系統(tǒng),如DSO[84]、ORB-SLAM[21]、VINS Mono[15]。這表明了這一領(lǐng)域的迅速發(fā)展。 3.2.視覺慣導(dǎo)里程計(jì)將視覺和慣導(dǎo)數(shù)據(jù),集成為視覺慣導(dǎo)測程(VIO)是移動機(jī)器人中一個明確定義的問題。相機(jī)和慣導(dǎo)傳感器成本相對較低,節(jié)能且被廣泛使用。這兩種傳感器是互補(bǔ)的:單目相機(jī)捕捉三維場景的外觀和結(jié)構(gòu),但它們的比例不明確,對具有挑戰(zhàn)性的場景(例如強(qiáng)烈的燈光變化、缺少紋理和高速運(yùn)動的場景)不太魯棒;相比之下,IMU完全以自我為中心,與場景無關(guān),可以提供絕對的度量尺度。不過缺點(diǎn)是慣導(dǎo)測量數(shù)據(jù)(特別是來自低成本設(shè)備的慣導(dǎo)測量數(shù)據(jù))會受到測量過程中噪聲和偏差的干擾。兩個互補(bǔ)傳感器測量值的有效融合對于精確的位姿估計(jì)至關(guān)重要。根據(jù)傳統(tǒng)的基于模型的視覺慣導(dǎo)信息融合方法大致分為三類:濾波方法[12]、固定滯后平滑器[13]和全平滑方法[14]。 直接從視覺和慣導(dǎo)測量學(xué)習(xí)6自由度位姿而無需人工干預(yù)或校準(zhǔn)的數(shù)據(jù)驅(qū)動的方法已經(jīng)出現(xiàn)。VINet[68]是第一個將視覺慣導(dǎo)里程計(jì)定義為順序?qū)W習(xí)問題的工作,并提出了一個深度神經(jīng)網(wǎng)絡(luò)框架,以端到端方式實(shí)現(xiàn)VIO。ViNet使用了基于ConvNet的視覺編碼器從兩個連續(xù)的RGB圖像中提取視覺特征,同時使用了長短期記憶(LSTM)網(wǎng)絡(luò)從IMU數(shù)據(jù)序列中提取慣導(dǎo)特征。在這里,LSTM的目的是模擬慣導(dǎo)數(shù)據(jù)的時間狀態(tài)演化。根據(jù)系統(tǒng)狀態(tài)歷史,視覺和慣導(dǎo)特征被連接在一起,作為進(jìn)一步LSTM模塊的輸入,以預(yù)測(相機(jī))相對位姿。這種學(xué)習(xí)方法的優(yōu)點(diǎn)是對校準(zhǔn)和相對定時偏移誤差具有更強(qiáng)的魯棒性。然而,VINet并沒有完全解決學(xué)習(xí)有意義的傳感器融合策略的問題。 為了解決深度傳感器融合問題,Chen等人[70]提出了選擇性傳感器融合(方法),這是一種有選擇地學(xué)習(xí)前后數(shù)據(jù)相關(guān)表示的視覺慣導(dǎo)位姿估計(jì)框架。他們的思路是,根據(jù)外部(即環(huán)境)和內(nèi)部(即設(shè)備/傳感器)動力學(xué)來考慮不同模式特征的重要性,充分利用兩個傳感器的互補(bǔ)特性。他們的方法比那些沒有融合策略的(系統(tǒng)),例如VINet,更容易避免重大的失敗。 與無監(jiān)督VO類似,視覺慣導(dǎo)里程計(jì)也可以通過新的視圖合成以自監(jiān)督的方式求解。VIOLearner[69]可以從原始慣導(dǎo)數(shù)據(jù)構(gòu)造運(yùn)動變換,并通過第3.1.2節(jié)中提到的方程2,利用相機(jī)矩陣和深度圖將源圖像轉(zhuǎn)換為目標(biāo)圖像。此外,系統(tǒng)中還有一個在線糾錯模塊,可以對框架的中間錯誤進(jìn)行糾錯。VIOLearner通過優(yōu)化光度損失來恢復(fù)網(wǎng)絡(luò)參數(shù)。類似地,DeepVIO [71]將慣導(dǎo)數(shù)據(jù)和雙目圖像合并到了這個無監(jiān)督的學(xué)習(xí)框架中,并通過專門的損失訓(xùn)練來重建全局范圍內(nèi)(相機(jī))的軌跡。 基于學(xué)習(xí)的VIO無法在性能上擊敗最先進(jìn)的基于經(jīng)典模型的VIO系統(tǒng),但由于DNNs在特征提取和運(yùn)動建模方面的強(qiáng)大能力,它們通常對實(shí)際問題[68]、[70]、[71](例如測量噪聲、錯誤的時間同步)更具有魯棒性。 3.3.慣導(dǎo)里程計(jì)除了視覺里程計(jì)和視覺慣導(dǎo)里程計(jì)外,還有一種只使用慣導(dǎo)的解決方案,即慣導(dǎo)里程計(jì),(同樣)為解決里程計(jì)估計(jì)問題提供了一個通用的替代方案。與視覺方法相比,慣導(dǎo)傳感器具有成本低、體積小、節(jié)能、保密性好等優(yōu)點(diǎn)。它對環(huán)境因素(例如照明條件和存在移動物體)免疫。然而,廣泛應(yīng)用于機(jī)器人和移動設(shè)備上的低成本MEMS慣性測量單元(IMU)存在傳感器偏差大、噪聲大的缺點(diǎn),如果對慣導(dǎo)數(shù)據(jù)進(jìn)行二次積分,會導(dǎo)致捷聯(lián)慣導(dǎo)導(dǎo)航系統(tǒng)(strapdown inertial navigation system (SINS))產(chǎn)生無限的誤差漂移。 Chen等人[85]將慣導(dǎo)里程計(jì)定義為一個序列學(xué)習(xí)問題,其關(guān)鍵是可以從分段慣導(dǎo)數(shù)據(jù)的獨(dú)立窗口中學(xué)習(xí)到極坐標(biāo)(即極向量)的二維運(yùn)動位移。方法的關(guān)鍵是,當(dāng)跟蹤人和輪式結(jié)構(gòu)時,它們的振動頻率與移動速度相關(guān),而運(yùn)動速度是可以通過慣導(dǎo)測量反映出來的。基于此,他們提出了一種基于LSTM的框架——IONet,用于從慣導(dǎo)序列中進(jìn)行相對位姿的端到端學(xué)習(xí)測量。軌跡通過運(yùn)動位移積分產(chǎn)生。[86]利用深度生成模型和域自適應(yīng)技術(shù)(domain adaptation technique),提高了深度慣導(dǎo)里程計(jì)在新領(lǐng)域中的泛化能力。[87]通過改進(jìn)的三通道LSTM網(wǎng)絡(luò)擴(kuò)展了這個框架,以從慣導(dǎo)數(shù)據(jù)和采樣時間中預(yù)測出無人機(jī)定位的極向量。RIDI[88]訓(xùn)練了一個深度神經(jīng)網(wǎng)絡(luò)來從慣導(dǎo)數(shù)據(jù)中回歸線性速度,校準(zhǔn)收集到的加速度以滿足學(xué)習(xí)速度的約束,并將加速度加倍集成到了一個傳統(tǒng)的物理模型中。類似地,[89]通過學(xué)習(xí)速度補(bǔ)償了經(jīng)典SINS模型的誤差漂移。其他研究也探索了利用深度學(xué)習(xí)來檢測行人[90]和車輛導(dǎo)航的零速度相位[91]。零速度相位通過卡爾曼濾波為校正系統(tǒng)誤差漂移提供了前后數(shù)據(jù)信息。 只有慣導(dǎo)的解決方案可以作為在極端環(huán)境中(在這些環(huán)境中,視覺信息不可用或高度失真)提供姿態(tài)信息的備用方案。深度學(xué)習(xí)已經(jīng)證明了它能夠從存在噪聲的IMU數(shù)據(jù)中學(xué)習(xí)有用的特征,并補(bǔ)償傳統(tǒng)算法中難以解決的慣導(dǎo)航跡推算誤差漂移問題。 3.4. 激光雷達(dá)里程計(jì)激光雷達(dá)傳感器提供高頻范圍測量,其優(yōu)點(diǎn)是能夠在復(fù)雜的照明條件和無光學(xué)特性的情況下持續(xù)工作。移動機(jī)器人和自動駕駛車輛通常配備有激光雷達(dá)傳感器以獲得相對自運(yùn)動(即激光雷達(dá)里程計(jì))和相對于三維地圖的全局位姿(激光雷達(dá)重定位)。激光雷達(dá)里程計(jì)的性能對非平滑運(yùn)動引起的點(diǎn)云配準(zhǔn)誤差非常敏感。此外,激光雷達(dá)測量的數(shù)據(jù)質(zhì)量也會受到極端天氣條件(例如大雨或起霧)的影響。 傳統(tǒng)的激光雷達(dá)里程計(jì)依靠點(diǎn)云配準(zhǔn)來檢測特征點(diǎn),如線/面等,并使用匹配算法通過最小化兩個連續(xù)點(diǎn)云掃描之間的距離來獲得位姿變換。數(shù)據(jù)驅(qū)動方法考慮以端到端的方式解決激光雷達(dá)里程計(jì)問題,通過利用深度神經(jīng)網(wǎng)絡(luò)從點(diǎn)云掃描序列中構(gòu)建的映射函數(shù),來進(jìn)行位姿估計(jì)[72],[73],[74]。由于點(diǎn)云數(shù)據(jù)稀疏和不規(guī)則的采樣格式,使得點(diǎn)云數(shù)據(jù)很難被神經(jīng)網(wǎng)絡(luò)直接使用,這些方法通常通過柱面投影將點(diǎn)云轉(zhuǎn)換為規(guī)則矩陣,并采用ConvNets從連續(xù)點(diǎn)云掃描中提取特征。這些網(wǎng)絡(luò)可以回歸相對位姿,并通過帶有真值標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練。LO-Net[73]報(bào)告的性能優(yōu)于傳統(tǒng)的先進(jìn)算法(即激光雷達(dá)里程計(jì)和建圖(LOAM)算法[16])的性能。 3.5. 里程計(jì)估計(jì)的比較表1比較了現(xiàn)有的里程計(jì)估計(jì)工作,包括傳感器類型、模型、是否產(chǎn)生具有絕對尺度的軌跡以及它們在KITTI數(shù)據(jù)集上的性能評估。由于深度慣導(dǎo)里程計(jì)尚未在KITTI數(shù)據(jù)集上進(jìn)行評估,因此我們不將慣導(dǎo)里程計(jì)包括在表格中。KITTI數(shù)據(jù)集[46]是里程估計(jì)的一個常用基準(zhǔn),它由汽車駕駛場景中的傳感器數(shù)據(jù)集合組成。由于大多數(shù)數(shù)據(jù)驅(qū)動方法采用KITTI數(shù)據(jù)集的軌跡09和軌跡10來評估模型性能,我們使用KITTI VO/SLAM官方評估指標(biāo)提供的所有長度(100、200…、800米)的位移平均均方根誤差(RMSE)(對這些里程計(jì)性能)進(jìn)行了比較。 我們以視覺里程計(jì)為例。圖5展示了深度視覺里程計(jì)模型在KITTI數(shù)據(jù)集10號軌跡上隨時間變化的位移漂移。顯然,混合VO比有監(jiān)督VO和無監(jiān)督VO表現(xiàn)出了更好的性能,因?yàn)榛旌蟅O既有傳統(tǒng)VO算法成熟的幾何模型,又有強(qiáng)大的深度學(xué)習(xí)特征提取能力。雖然有監(jiān)督VO仍然優(yōu)于無監(jiān)督VO,但是隨著無監(jiān)督VO的局限性逐漸得到解決,它們之間的性能差距會逐漸縮小。例如,(研究人員)目前已經(jīng)發(fā)現(xiàn)無監(jiān)督VO可以從單目圖像中恢復(fù)全局尺度[30]。總體而言,數(shù)據(jù)驅(qū)動的視覺里程計(jì)顯示出的模型性能正在顯著提高,這表明了深度學(xué)習(xí)方法在未來實(shí)現(xiàn)更精確的里程計(jì)估計(jì)的潛力。 4.建圖建圖是指移動機(jī)器人構(gòu)建一致的環(huán)境模型來描述周圍場景的能力。深度學(xué)習(xí)生成了一套用于場景感知和理解的工具,應(yīng)用范圍從深度預(yù)測到語義標(biāo)記,再到三維幾何重建。本節(jié)概述了與現(xiàn)有的基于深度學(xué)習(xí)建圖方法相關(guān)的工作。我們將它們分為幾何映射、語義映射和一般映射。表2總結(jié)了現(xiàn)有的基于深度學(xué)習(xí)的地圖繪制方法。 4.1.幾何映射一般來說,幾何映射會捕捉場景的形狀和結(jié)構(gòu)描述。幾何映射中使用的場景表示的典型選擇包括深度、體素、點(diǎn)和網(wǎng)格。我們遵循這一具象分類法,并將用于幾何映射的深度學(xué)習(xí)分為上述四類。圖6展示了斯坦福兔子基準(zhǔn)測試中的這些幾何表示。 4.1.1.深度表示深度圖在理解場景的幾何和結(jié)構(gòu)信息中扮演著關(guān)鍵的作用。通過融合深度圖像和RGB圖像可以實(shí)現(xiàn)密集場景重建[119],[120]。傳統(tǒng)的SLAM系統(tǒng)用密集的深度圖(即2.5D)來表示場景幾何信息,例如DTAM[121]。此外,精確的深度估計(jì)有助于視覺SLAM恢復(fù)絕對尺度。 從原始圖像中學(xué)習(xí)深度是計(jì)算機(jī)視覺中一個快速發(fā)展的領(lǐng)域。最早的工作是將深度估計(jì)作為單輸入圖像的映射函數(shù),由多尺度深度神經(jīng)網(wǎng)絡(luò)構(gòu)造[78],以從單個圖像中輸出每像素的深度映射。這些有監(jiān)督的學(xué)習(xí)方法[78]、[79]、[92]可以通過在具有相應(yīng)深度標(biāo)簽的大數(shù)據(jù)集上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來預(yù)測每個像素的深度。盡管它們的性能優(yōu)于傳統(tǒng)的基于結(jié)構(gòu)的方法,如[122],但它們的有效性很大程度上依賴于訓(xùn)練模型,并且在缺乏標(biāo)記數(shù)據(jù)的情況下很難推廣到新的場景中。 另一方面,該領(lǐng)域的最新進(jìn)展集中在無監(jiān)督的解決方案上,研究人員將深度預(yù)測重新定義為了一個新的視圖綜合問題。[80],[81]利用光度一致性損失作為訓(xùn)練神經(jīng)模型的自監(jiān)督信號。利用雙目圖像和已知的相機(jī)基線,[80],[81]從右視圖合成了左視圖信息,并(成功)預(yù)測了左視圖的深度地圖。通過最小化合成圖像與真實(shí)圖像之間的距離,即空間一致性,以端到端自監(jiān)督的方式恢復(fù)了神經(jīng)網(wǎng)絡(luò)的參數(shù)。除了空間一致性外,[29]還提出將時間一致性作為自監(jiān)督信號,從源時間幀合成了目標(biāo)時間幀中的圖像。同時,在深度估計(jì)的基礎(chǔ)上,實(shí)現(xiàn)了自運(yùn)動的恢復(fù)。這個框架僅需要單目圖像就可以學(xué)習(xí)深度圖和自運(yùn)動。許多后續(xù)研究[53]、55]、[56]、[58]、[59]、[61]、[64]、[76]、[77]、[93]擴(kuò)展了該框架,并在深度和自運(yùn)動估計(jì)方面取得了更好的性能。我們請讀者參閱第3.1.2節(jié),其中討論了各種附加約束。 基于學(xué)習(xí)的SLAM系統(tǒng)可以利用ConvNets預(yù)測的深度圖集成深度信息,以解決傳統(tǒng)單目方案的一些局限性。例如,CNN-SLAM[123]嘗試了把從單個圖像中學(xué)習(xí)的深度集成到單目SLAM框架中(即LSD-SLAM[124])。他們的實(shí)驗(yàn)表明,學(xué)習(xí)的深度圖有助于改善位姿估計(jì)和場景重建中的絕對比例恢復(fù)問題。CNN-SLAM甚至可以在無紋理的區(qū)域中實(shí)現(xiàn)密集場景的預(yù)測,這個問題對于傳統(tǒng)的SLAM系統(tǒng)來說通常是很困難的。 4.1.2. 體素表示基于體素的公式是表示三維幾何體的一種常用方法。與圖像中的像素(即2D元素)類似,體素是三維空間中的體積元素。以前的工作已經(jīng)探索了使用多個輸入視圖來重建場景[94]、[95]和物體[96]的體積表示的問題。例如,SurfaceNet[94]通過學(xué)習(xí)預(yù)測體素的置信度,以確定它是否在表面上,并重建了一個場景的2D曲面。RayNet[95]通過提取視圖不變特征,同時施加幾何約束重建了場景幾何。最近的工作集中在了(如何)生成高分辨率三維體積模型[97],[98]。例如,Tatarchenko等人[97]設(shè)計(jì)了一種基于八叉樹公式的卷積解碼器,使場景重建具有了更高的分辨率。==其他工作可以在場景完成后從RGB D數(shù)據(jù)中[99],[100]找到==。體素表示的一個局限性是計(jì)算量大,尤其是在試圖重建一個高分辨率場景時(這一局限性更加顯著)。 4.1.3. 點(diǎn)表示基于點(diǎn)的公式由三維空間中點(diǎn)的三維坐標(biāo)(x, y, z)組成。點(diǎn)表示易于理解和操作,但存在歧義問題,即不同形式的點(diǎn)云可以表示相同的幾何圖形。具有開創(chuàng)性意義的工作有:PointNet[125]使用單一對稱函數(shù)——最大池化層來處理無序的點(diǎn)數(shù)據(jù),通過聚集點(diǎn)特征用于分類和分割。Fan等人[101]開發(fā)了一種深度生成模型,可以從單個圖像生成基于點(diǎn)的三維幾何圖形。在他們的工作中,為了解決點(diǎn)云的無序性問題, 引入了一種基于移動距離的損失函數(shù)。但是,他們的方法只在單個目標(biāo)的重建任務(wù)上得到驗(yàn)證。目前還沒有發(fā)現(xiàn)用于場景重建的點(diǎn)生成方法。 4.1.4. 網(wǎng)格表示基于網(wǎng)格的公式對三維模型的底層結(jié)構(gòu)(如邊、頂點(diǎn)和面)進(jìn)行了編碼。它是一種非常強(qiáng)大的表示方式,可以自然地捕捉三維形狀的表面。一些工作考慮從圖像[102]、[103]或點(diǎn)云數(shù)據(jù)[104]、[105]中學(xué)習(xí)網(wǎng)格生成的問題。然而,這些方法只能重構(gòu)單個對象,并且僅限于用簡單的結(jié)構(gòu)或從熟悉的類中生成模型。為了解決網(wǎng)格表示中的場景重建問題,[106]將單目SLAM的稀疏特征與ConvNet的稠密深度圖相結(jié)合,對三維網(wǎng)格表示進(jìn)行了更新。該系統(tǒng)將深度預(yù)測融合到了單目SLAM系統(tǒng)中,用于恢復(fù)位姿和場景特征估計(jì)的絕對尺度。為了實(shí)現(xiàn)高效的計(jì)算和靈活的信息融合,[107]使用2.5D網(wǎng)格來表示場景幾何體。該方法利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)網(wǎng)格頂點(diǎn)的圖像平面坐標(biāo),并將深度映射作為自由變量進(jìn)行了優(yōu)化。 4.2. 語義映射語義映射將語義概念(如對象分類、材料組成等)與環(huán)境的幾何結(jié)構(gòu)聯(lián)系了起來。這被視為一個數(shù)據(jù)關(guān)聯(lián)問題。深度學(xué)習(xí)的發(fā)展極大地促進(jìn)了對象識別和語義分割的發(fā)展。具有語義意義的映射使移動機(jī)器人能夠在純幾何的基礎(chǔ)上對其環(huán)境產(chǎn)生更高層次的理解,并允許其擁有更為廣泛的功能和自主性。 SemanticFusion[26]是將深度卷積神經(jīng)網(wǎng)絡(luò)(deep ConvNet)的語義分割標(biāo)簽與SLAM系統(tǒng)中的密集場景幾何相結(jié)合的早期工作之一。它通過將二維幀與三維地圖進(jìn)行概率關(guān)聯(lián),將每幀的語義分割預(yù)測逐步集成到一個密集的三維地圖中。這種組合不僅生成了具有正確語義信息的地圖,其結(jié)果也表明了與SLAM系統(tǒng)的集成有助于增強(qiáng)單幀分割的效果。這兩個模塊在語義融合中是松耦合的。[27]提出了一種自監(jiān)督網(wǎng)絡(luò),通過對多個視圖中語義預(yù)測的一致性施加約束,來預(yù)測地圖語義標(biāo)簽的一致性。DA-RNN[108]將遞歸模型引入語義分割框架中,以學(xué)習(xí)多視圖框架上的時間連接,從KinectFusion[127]中為體積圖生成了更準(zhǔn)確和一致的語義標(biāo)記。但是這些方法沒有提供對象實(shí)例的信息,這意味著它們不能區(qū)分同一類別的不同對象。 隨著實(shí)例分割技術(shù)的發(fā)展,語義映射逐漸發(fā)展到實(shí)例級。一個很好的例子是[109]通過bounding box檢測模塊和無監(jiān)督的幾何分割模塊識別單個對象來提供對象級語義映射。與其他密集語義映射方法不同,F(xiàn)usion++[110]構(gòu)建了一個基于語義圖的映射,它只預(yù)測對象實(shí)例,并通過回環(huán)檢測、位姿圖優(yōu)化和進(jìn)一步細(xì)化來保持一致的映射。[111]提出了一個實(shí)現(xiàn)實(shí)例感知語義映射的框架,并允許發(fā)現(xiàn)新的對象。近年來,全景分割[126]引起了廣泛的關(guān)注。PanopticFusion[112]將語義映射提高到了可以映射物體和物品的等級,系統(tǒng)將靜態(tài)物體(如墻、門、車道)劃分為“物體”類,將其他可說明對象劃分為“物品”類,如移動的車輛、人和桌子。圖7比較了語義分割、實(shí)例分割和全景分割的區(qū)別。 4.3. 一般映射除了顯式的幾何和語義地圖表示之外,深度學(xué)習(xí)模型能夠?qū)ⅰ罢麄€場景”編碼為隱式表示,即一種捕獲底層場景幾何和外觀信息的一般地圖的表示形式。 利用深度自動編碼器可以自動發(fā)現(xiàn)高維數(shù)據(jù)的高級緊湊表示。一個值得注意的例子是CodeSLAM [113],它將觀察到的圖像編碼成一個緊湊且可優(yōu)化的表示,以包含密集場景的基本信息。這種一般的表示進(jìn)一步地被用于基于關(guān)鍵幀的SLAM系統(tǒng),以推斷位姿估計(jì)和關(guān)鍵幀深度圖。由于縮小了學(xué)習(xí)表示的大小,CodeSLAM允許高效優(yōu)化跟蹤相機(jī)運(yùn)動和場景幾何的生成全局一致性。 神經(jīng)繪制模型(Neural rendering models)是另一類通過將視圖合成作為自監(jiān)督信號來學(xué)習(xí)隱式三維場景結(jié)構(gòu)建模的工作。神經(jīng)繪制任務(wù)的目標(biāo)是從一個未知的視角重建一個新的場景。生成查詢網(wǎng)絡(luò)(GQN)[128]可以學(xué)習(xí)捕捉(場景)表示形式并繪制一個新的場景。GQN由一個表示網(wǎng)絡(luò)和一個生成網(wǎng)絡(luò)組成:表示網(wǎng)絡(luò)將來自參考視圖的觀測值編碼成一個場景表示;生成網(wǎng)絡(luò)基于遞歸模型,根據(jù)場景表示和一個隨機(jī)的潛在變量從新視角對場景進(jìn)行重建。GQN將多個視點(diǎn)的觀測圖像和新視點(diǎn)的相機(jī)位姿作為輸入,從而預(yù)測新視點(diǎn)的物理場景。直觀地說,通過端到端的訓(xùn)練,表示網(wǎng)絡(luò)可以通過生成網(wǎng)絡(luò)捕捉場景重建任務(wù)所需的、重要的三維環(huán)境因素。GQN通過引入幾何感知的注意機(jī)制對系統(tǒng)進(jìn)行了擴(kuò)展,使得系統(tǒng)可以將用于場景推斷的多模態(tài)數(shù)據(jù)[115]作為輸出值,且可以生成更復(fù)雜的環(huán)境建模[114]。場景表示網(wǎng)絡(luò)(SRN)[116]通過學(xué)習(xí)一種連續(xù)場景表示來解決場景渲染問題,該場景表示將相機(jī)的位姿與其相應(yīng)的觀察(數(shù)據(jù))聯(lián)系了起來。(研究人員)在SRN中引入了一種可微射線推進(jìn)算法(differentiable Ray Marching algorithm),以增強(qiáng)網(wǎng)絡(luò)對三維結(jié)構(gòu)建模的一致性。然而,由于現(xiàn)實(shí)環(huán)境的復(fù)雜性,這些框架只能應(yīng)用于合成的數(shù)據(jù)集中。 最后,在“無地圖”導(dǎo)航的探索中,任務(wù)驅(qū)動地圖成為了一種新穎的地圖表示。這個表示法通過將深度神經(jīng)網(wǎng)絡(luò)與當(dāng)前任務(wù)聯(lián)合建模生成。通常,這些任務(wù)需要利用位置信息,如導(dǎo)航或路徑規(guī)劃,這就要求移動機(jī)器人可以理解環(huán)境的幾何和語義信息。在這些工作中,非結(jié)構(gòu)化環(huán)境(即使在城市規(guī)模中)中的導(dǎo)航問題被定義為一個策略學(xué)習(xí)問題[31]、[32]、[117]、[118],通過深度強(qiáng)化學(xué)習(xí)來解決,這與傳統(tǒng)的解決方案不同,后者遵循建立明確的地圖、規(guī)劃路徑和決策的程序。而這些基于學(xué)習(xí)的技術(shù)以端到端的方式直接從傳感器觀測值中預(yù)測控制信號,無需顯式地對環(huán)境進(jìn)行建模。模型參數(shù)通過稀疏的獎勵信號進(jìn)行優(yōu)化,例如,當(dāng)機(jī)器人到達(dá)目的地時,會給于一個正信號來調(diào)整神經(jīng)網(wǎng)絡(luò)。一旦對模型進(jìn)行了訓(xùn)練,(該模型)就可以根據(jù)當(dāng)前對環(huán)境的觀察(即圖像),來確定機(jī)器人的行為。在這種情況下,所有的環(huán)境因素,如場景的幾何、外觀和語義信息,都被嵌入到了一個深度神經(jīng)網(wǎng)絡(luò)的神經(jīng)元中,使其更適合于解決當(dāng)前的任務(wù)。有趣的是,在一個通過強(qiáng)化學(xué)習(xí)進(jìn)行導(dǎo)航訓(xùn)練的神經(jīng)模型中,其可視化神經(jīng)元與人類大腦中的網(wǎng)格和定位細(xì)胞有著相似的模式。這為神經(jīng)地圖表征的有效性提供了認(rèn)知信息。 5.全局定位全局定位涉及在已知場景中檢索移動機(jī)器人的絕對位姿。與依賴于對內(nèi)部動力學(xué)模型進(jìn)行估計(jì)并能在無視野的場景中使用的里程計(jì)估計(jì)不同,全局定位使用的是二維和三維模型場景提供和開發(fā)的場景先驗(yàn)知識。從廣義上來說,它通過匹配查詢圖像或視圖與預(yù)先構(gòu)建的模型,以及返回全局位姿的估計(jì)值,來描述傳感器觀測值與地圖之間的關(guān)系。 根據(jù)查詢數(shù)據(jù)和地圖的類型,我們將基于深度學(xué)習(xí)的全局定位分為三類:2D到2D的定位根據(jù)地理參考圖像的顯式數(shù)據(jù)庫或隱式神經(jīng)網(wǎng)絡(luò)圖查詢二維圖像;2D到3D的定位建立了圖像的二維像素和場景模型三維點(diǎn)之間的對應(yīng)關(guān)系;3D到3D的定位將三維掃描與預(yù)先構(gòu)建的三維地圖進(jìn)行了匹配。表3、表4、表5分別總結(jié)了現(xiàn)有的基于深度學(xué)習(xí)的2D到2D,2D到3D,3D到3D的全局定位方法。 5.1.2D到2D的定位2D到2D定位可以根據(jù)二維地圖回歸圖像的相機(jī)位姿。這種二維地圖是由地理參考數(shù)據(jù)庫顯式建立或隱式編碼在神經(jīng)網(wǎng)絡(luò)中的。 5.1.1.基于顯示地圖的定位基于顯式地圖的2D到2D定位通常通過一個帶有地理標(biāo)記的圖像數(shù)據(jù)庫來表示場景(參考文獻(xiàn)[152],[153],[154]。圖8(a)說明了使用二維參考圖像進(jìn)行定位的兩個階段:圖像檢索用于確定參考圖像表示場景中與視覺查詢值最相關(guān)的部分;位姿回歸用于獲得查詢圖像相對于參考圖像的相對位姿。 這里的一個問題是如何找到合適的圖像描述子進(jìn)行圖像檢索?;谏疃葘W(xué)習(xí)的方法[155]和[156]是基于預(yù)先訓(xùn)練的ConvNet模型提取圖像級特征,然后使用這些特征來評估與其他圖像的相似性。在具有挑戰(zhàn)性的場景中,首先提取場景局部描述子,然后進(jìn)行聚合以獲得健壯的全局描述子。一個很好的例子是NetVLAD[157],它設(shè)計(jì)了一個可訓(xùn)練的廣義VLAD(局部聚集描述子向量(the Vector of Locally Aggregated Descriptors))層。這個VLAD層可以插入到現(xiàn)成的ConvNet體系結(jié)構(gòu)中,以實(shí)現(xiàn)更好的描述子學(xué)習(xí)來進(jìn)行圖像檢索。 為了獲得更精確的查詢位姿,需要對檢索到的圖像進(jìn)行額外的相對位姿估計(jì)。對于傳統(tǒng)方法而言,相對位姿估計(jì)是通過對極幾何來處理的,依賴于由局部描述子確定的2D到2D對應(yīng)關(guān)系[158],[159]。相比之下,深度學(xué)習(xí)方法可以直接從成對圖像中回歸相對位姿。例如,NN-Net[131]可以利用神經(jīng)網(wǎng)絡(luò)估計(jì)查詢幀和排名前N位的參考幀之間的相對位姿,基于三角融合算法將預(yù)測的N個相對位姿和三維幾何體位姿的真值進(jìn)行結(jié)合,自然地計(jì)算出絕對查詢位姿。此外,Relocnet[129]引入了一個截頭重疊損失(frustum overlap loss ),來幫助學(xué)習(xí)適合相機(jī)定位的全局描述子?;诖耍珻amNet[134]采用基于圖像的粗檢索和基于位姿的精細(xì)檢索兩個階段來選擇最相似的參考幀進(jìn)行最終的精確位姿估計(jì),無需針對特定場景進(jìn)行訓(xùn)練,基于參考的方法具有自然的可擴(kuò)展性和靈活性,可以在新的場景中使用。由于基于參考的方法(只)需要維護(hù)一個地理標(biāo)記圖像的數(shù)據(jù)庫,因此與基于結(jié)構(gòu)的方法相比,它們更容易被擴(kuò)展到大規(guī)模場景中。總體而言,這些基于圖像檢索的方法實(shí)現(xiàn)了準(zhǔn)確性和可擴(kuò)展性之間的平衡。 5.1.2.基于隱式地圖的定位隱式地圖定位通過將整個場景的結(jié)構(gòu)隱含在一個深度神經(jīng)網(wǎng)絡(luò)中,直接從單個圖像中回歸了相機(jī)姿態(tài)。圖8(b)展示了常見的轉(zhuǎn)換方式——神經(jīng)網(wǎng)絡(luò)的輸入是單個圖像,而輸出的是圖像的全局位置和方向。 PoseNet[130]是第一個通過訓(xùn)練ConvNet從單個RGB圖像中以端到端的方式預(yù)測相機(jī)位姿來解決相機(jī)重定位問題的工作,PoseNet基于GoogleNet[160]的主要結(jié)構(gòu)來提取視覺特征,但刪除了最后的softmax層,引入了一個全連接層來輸出一個分別由3維的位置向量和4維的方向向量組成的7維全局位姿。然而,PoseNet的設(shè)計(jì)沒有考慮幾何因素,而是采用了一個樸素的回歸損失函數(shù),其中的超參數(shù)需要繁雜的人工調(diào)節(jié)。此外,由于特征嵌入的維數(shù)過高且訓(xùn)練用的數(shù)據(jù)有限,該算法還存在過擬合問題。因此,有許多工作對PoseNet進(jìn)行了拓展:[140]利用了LSTM單元來降低(特征嵌入的)維度,[136]、[139]、[144]應(yīng)用了合成生成(synthetic generation)來增加訓(xùn)練數(shù)據(jù),[141]用ResNet34替換了PoseNet的主干,[135]、[145]對位姿不確定性進(jìn)行了建模,[138]引入了幾何感知損失函數(shù)。此外,Atloc[150]將空間域中的特征與注意機(jī)制相關(guān)聯(lián),從而促進(jìn)網(wǎng)絡(luò)聚焦于圖像中具有時間一致性和魯棒性的部分。同樣地,RVL[148]中還采用了先驗(yàn)的引導(dǎo)丟失掩模(guided dropout mask),以進(jìn)一步消除動態(tài)目標(biāo)引起的不確定性。不同于只考慮空間連接的方法,VidLoc[137]結(jié)合圖像序列的時間約束,對輸入圖像的時間連接進(jìn)行建模,應(yīng)用于視覺定位中。此外,MapNet[143]還利用了其他運(yùn)動約束,包括空間約束和其他來自GPS或SLAM系統(tǒng)的傳感器約束,以增強(qiáng)預(yù)測位姿之間的運(yùn)動一致性。通過聯(lián)合優(yōu)化重定位網(wǎng)絡(luò)和視覺里程計(jì)網(wǎng)絡(luò),也增加了類似的運(yùn)動約束[142],[147]。但是,由于是應(yīng)用于特殊程序,從定位任務(wù)中學(xué)習(xí)到的場景表示可能會忽略一些不適用于它們的有用特性。此外,VLocNet++[146]和FGSN[161]還利用了語義學(xué)習(xí)和姿態(tài)回歸之間的任務(wù)關(guān)系,取得了極好的效果。 基于隱式建、地圖的定位方法利用了深度學(xué)習(xí)在自動提取特征方面的優(yōu)勢,在無特征環(huán)境下可以較好地實(shí)現(xiàn)全局定位,而傳統(tǒng)的定位方法則容易失敗。然而,由于特定場景訓(xùn)練的要求,它不能在未經(jīng)訓(xùn)練的情況下將其泛化到之前未經(jīng)歷過的場景中。此外,目前基于隱式地圖的方法無法表現(xiàn)出與其他基于顯示地圖的方法性能相當(dāng)?shù)谋憩F(xiàn)[162]。 5.2.2D到3D的定位2D到3D定位是指恢復(fù)二維圖像相對于三維場景節(jié)點(diǎn)的相機(jī)位姿。這個三維地圖是在執(zhí)行全局定位之前通過諸如運(yùn)動結(jié)構(gòu)(SfM)[43]等方法預(yù)先構(gòu)建的。如圖9所示,2D到3D的(定位)方法通過局部描述子匹配[163,[164],[165]或從像素塊[151]、[166]、[167]、[168]回歸三維坐標(biāo)在查詢圖像的二維像素和場景模型的三維點(diǎn),之間建立2D到3D的對應(yīng)關(guān)系。然后通過應(yīng)用PnP算法求解器[169],[170]和RANSAC循環(huán)[171],使用2D到3D的匹配對計(jì)算出相機(jī)的位姿。 5.2.1.基于描述子匹配的定位描述子匹配方法主要依靠特征檢測器和描述子,建立二維輸入特征與三維模型特征之間的對應(yīng)關(guān)系。根據(jù)檢測器和描述子在學(xué)習(xí)過程中的作用,將其進(jìn)一步分為三種類型:先檢測后描述(detect-then-describe),同時檢測和描述(detect-and-describe),先描述再檢測(describe-to-detect)。 先檢測后描述(detect-then-describe)方法首先執(zhí)行特征檢測,然后從以每個關(guān)鍵點(diǎn)為中心的塊(patch)中提取特征描述子[200],[201]。關(guān)鍵點(diǎn)檢測器通常負(fù)責(zé)提供魯棒性或不變性,以防止可能出現(xiàn)的實(shí)際問題,如縮放變換、旋轉(zhuǎn)或視點(diǎn)變化,并相應(yīng)對塊進(jìn)行規(guī)范化。然而,描述子也可以對這些問題提供優(yōu)化。常見的方法不同于使用人工制作的檢測器[202]、[203]和描述子[204]、[205],而是用學(xué)習(xí)的替代方法替換描述子[179]、[206]、[207]、[208]、[209]、[210]或描述子[211]、[212]、[213],或者同時學(xué)習(xí)檢測器和描述子[214]、[215]。為了提高效率,特征檢測器通常只考慮較小的圖像區(qū)域,并且聚焦于低層次結(jié)構(gòu),例如角點(diǎn)或斑點(diǎn)(blobs)[216]。然后,描述子會在關(guān)鍵點(diǎn)周圍的一個較大的塊中捕獲更高級的信息。 相比之下,同時檢測和描述方法優(yōu)化了描述階段。SuperPoint[177]、UnSuperPoint[181]和R2D2[188]通過共享深度神經(jīng)網(wǎng)絡(luò)的表示,嘗試學(xué)習(xí)了密集特征描述子和特征檢測器。然而,它們依賴于不同的譯碼器分支,這些分支是獨(dú)立訓(xùn)練的,有特定的損耗。相反,D2-net[182]和ASLFeat[189]共享檢測和描述之間的所有參數(shù),并使用聯(lián)合公式,同時對兩個任務(wù)進(jìn)行優(yōu)化。 類似地,先描述再檢測方法(例如D2D[217])同樣會將檢測階段推遲到后期,但該方法會將這種檢測器應(yīng)用于預(yù)先學(xué)習(xí)的密集描述子中,以提取出稀疏的關(guān)鍵點(diǎn)集和相應(yīng)的描述子。密集特征提取優(yōu)先于檢測階段,并在整個圖像上密集地執(zhí)行描述階段[176]、[218]、[219]、[220]。在實(shí)踐中,這種方法比稀疏特征匹配得到了更好的匹配效果,特別是在光照強(qiáng)度變化較大的情況下[221],[222]。與這些純粹依賴圖像特征的工作不同,2D3D MatchNet[180]提出了允許在二維圖像和三維點(diǎn)云上學(xué)習(xí)直接匹配關(guān)鍵點(diǎn)的局部描述子。同樣地。LCD[223]引入了一種雙自動編碼器架構(gòu)來提取跨域局部描述子。但是,它們?nèi)匀恍枰A(yù)先定義的二維和三維關(guān)鍵點(diǎn),而關(guān)鍵點(diǎn)選擇規(guī)則不一致會導(dǎo)致匹配結(jié)果不佳。 5.2.2.基于場景坐標(biāo)回歸的定位場景坐標(biāo)回歸方法不同于基于匹配的方法,會在在計(jì)算位姿之前建立二維到三維的對應(yīng)關(guān)系,場景坐標(biāo)回歸方法是從世界坐標(biāo)系中的查詢圖像中估計(jì)出每個像素的三維坐標(biāo),即場景坐標(biāo)。它可以被看作是學(xué)習(xí)查詢圖像到場景的全局坐標(biāo)的轉(zhuǎn)換。DSAC[190]使用ConvNet模型來回歸場景坐標(biāo),然后使用一種新的可微RANSAC對整個系統(tǒng)進(jìn)行端到端的訓(xùn)練。常見的方法通過引入重投影損失[191]、[192]、[232]或多視圖幾何約束[197]實(shí)現(xiàn)無監(jiān)督學(xué)習(xí),聯(lián)合學(xué)習(xí)觀測置信度[173]、[195]以提高采樣效率和精度,利用混合專家(Mixture of Experts (MoE))策略[194]或由粗到細(xì)的分層方法[198]以消除歧義的環(huán)境信息。與這些不同的是,KFNet[199]將場景坐標(biāo)回歸問題擴(kuò)展到時域,從而彌合了整個時域與一次性重定位方法之間的性能差距。但是,它們?nèi)匀皇轻槍μ囟▓鼍斑M(jìn)行訓(xùn)練的,如果不進(jìn)行再一次的訓(xùn)練,就不能將其推廣到其他的場景中。為了建立一個與場景無關(guān)的方法,SANet[196]通過插值與檢索到的場景圖像相關(guān)聯(lián)的三維點(diǎn)來回歸查詢的場景坐標(biāo)圖。與上述基于塊訓(xùn)練的方法不同,Dense SCR[193]提出以全幀的方式進(jìn)行場景坐標(biāo)回歸,以提高測試時的計(jì)算效率,更重要的是,在回歸過程中添加更多的全局?jǐn)?shù)據(jù),以提高系統(tǒng)的魯棒性。 5.3.3D到3D的定位3D到3D定位(或激光雷達(dá)定位)是指通過建立3D-3D對應(yīng)匹配,對預(yù)先構(gòu)建的三維地圖恢復(fù)三維點(diǎn)(即激光雷達(dá)點(diǎn)云)的全局位姿。圖10顯示了3D到3D定位的流程:在線掃描或(使用)預(yù)測的粗略位姿用于查詢最相似的三維地圖數(shù)據(jù),這些數(shù)據(jù)通過計(jì)算預(yù)測位姿與真值之間的偏移量或估計(jì)在線掃描與查詢場景之間的相對位姿,可以實(shí)現(xiàn)進(jìn)一步地精確定位。 通過將激光雷達(dá)定位定義為遞歸貝葉斯推理問題,[227]將激光雷達(dá)強(qiáng)度地圖和在線點(diǎn)云掃描嵌入到共享空間中,以實(shí)現(xiàn)完全可微的位姿估計(jì)。LocNet[225]沒有直接對三維數(shù)據(jù)進(jìn)行操作,而是將點(diǎn)云掃描轉(zhuǎn)換為二維旋轉(zhuǎn)不變性表示,用于搜索全局先驗(yàn)地圖中的相似幀,并執(zhí)行迭代最近點(diǎn)(ICP)的方法來計(jì)算全局位姿。為了提出一個直接處理點(diǎn)云的基于學(xué)習(xí)的激光雷達(dá)定位框架,L3-Net[224]使用PointNet[125]處理點(diǎn)云數(shù)據(jù),以提取某些有用的特征描述子,并通過遞歸神經(jīng)網(wǎng)絡(luò)對運(yùn)動動力學(xué)的時間連接進(jìn)行建模。它通過最小化點(diǎn)云輸入與三維地圖的匹配距離,優(yōu)化了預(yù)測位姿與真值之間的損失。一些技術(shù),如Point NetVLAD[226]、PCAN[228]和D3Feat[231]在開始時嘗試了檢索參考場景,而其他技術(shù)如DeepICP[229]和DCP[230]允許從三維掃描中估計(jì)相對運(yùn)動變換。與基于圖像的重定位(2D-to-3D和2D-to-2D)相比,對于3D到3D的定位方面的研究相對較少。 6.SLAM同時跟蹤自運(yùn)動并估計(jì)周圍環(huán)境的結(jié)構(gòu),構(gòu)成了一個同時定位與建圖(SLAM)系統(tǒng)。上述章節(jié)中討論的定位和建圖的各個模塊可以看作是一個完整的SLAM系統(tǒng)的各個模塊。本節(jié)概述了使用深度學(xué)習(xí)的SLAM系統(tǒng),主要關(guān)注有助于SLAM系統(tǒng)集成的模塊,包括局部/全局優(yōu)化、關(guān)鍵幀/回環(huán)檢測和不確定性估計(jì)。表6總結(jié)了本節(jié)討論的現(xiàn)有的基于深度學(xué)習(xí)的SLAM方法。 6.1.局部優(yōu)化當(dāng)使用聯(lián)合優(yōu)化估計(jì)相機(jī)運(yùn)動和場景幾何時,SLAM系統(tǒng)會強(qiáng)制它們滿足一定的約束條件。這是通過最小化幾何或光度損失來實(shí)現(xiàn)的,以確保它們在局部區(qū)域(相機(jī)位姿的周圍)的一致性,這可以看作是一個光束法平差(BA)問題[233]。基于學(xué)習(xí)的方法通過在大數(shù)據(jù)集上訓(xùn)練兩個獨(dú)立的網(wǎng)絡(luò)來預(yù)測深度圖和自運(yùn)動[29]。在在線部署的測試過程中,需要對其進(jìn)行強(qiáng)制預(yù)測以滿足局部約束。為了實(shí)現(xiàn)局部優(yōu)化,傳統(tǒng)上,會使用二階解算器(例如Gauss-Newton(GN)方法或Levenberg-Marquadt(LM)算法[234])來優(yōu)化運(yùn)動變換和逐像素深度建圖。 為此,LS-Net[235]通過一個基于學(xué)習(xí)的優(yōu)化器,將分析求解器集成到其學(xué)習(xí)過程中解決了這個問題。它學(xué)習(xí)了數(shù)據(jù)驅(qū)動的先驗(yàn)知識,然后用分析優(yōu)化器細(xì)化DNN預(yù)測,以確保光度一致性。BA-Net[236]將可微二階優(yōu)化器(LM算法)集成到一個深度神經(jīng)網(wǎng)絡(luò)中,以實(shí)現(xiàn)端到端的學(xué)習(xí)。不同于最小化幾何或光度誤差,BA-Net在特征空間上執(zhí)行,以優(yōu)化從ConvNets提取的多視點(diǎn)圖像特征的一致性損失。此特征級優(yōu)化器可以較少幾何或光度解決方案的基本問題帶來的影響,即在幾何優(yōu)化過程中系統(tǒng)可能會丟失一些信息,而環(huán)境動力學(xué)和光照變化則可能會影響系統(tǒng)的光度優(yōu)化等。這些基于學(xué)習(xí)的優(yōu)化器為解決復(fù)雜的調(diào)整問題提供了一種可選方案。 6.2.全局優(yōu)化由于路徑積分的基本問題,即系統(tǒng)誤差的累積沒有有效約束,在長期運(yùn)行中,里程計(jì)估計(jì)會出現(xiàn)累積誤差漂移。為了解決這個問題,graphSLAM[42]構(gòu)造了一個拓?fù)鋱D,將相機(jī)位姿或場景特征表示為圖形節(jié)點(diǎn),通過邊(由傳感器測量)連接,以約束位姿。對于這種基于圖的公式可以進(jìn)行優(yōu)化,以保證圖的節(jié)點(diǎn)和邊的全局一致性,減少可能的位姿估計(jì)誤差和固有的傳感器測量噪聲。一個常用的全局優(yōu)化求解器是Levenberg-Marquardt(LM)算法。 在深度學(xué)習(xí)的時代,深度神經(jīng)網(wǎng)絡(luò)擅長從觀察到的位姿和場景表征中提取特征和構(gòu)造函數(shù)。在DNN預(yù)測的基礎(chǔ)上進(jìn)行全局優(yōu)化是減少全局軌跡漂移和支持大規(guī)模建圖的必要條件。與經(jīng)典SLAM中各種深入研究的解決方案相比,全局優(yōu)化深度預(yù)測的研究還不夠深入。 現(xiàn)有的工作嘗試了將學(xué)習(xí)模塊與不同層次的經(jīng)典SLAM系統(tǒng)相結(jié)合,在前端,DNNs會生成先驗(yàn)預(yù)測,然后將這些深度預(yù)測合并到后端,以便進(jìn)行下一步的優(yōu)化和改進(jìn)。一個很好的例子是CNN-SLAM[123],它將學(xué)習(xí)的每像素深度整合到了LSD-SLAM [124]中,實(shí)現(xiàn)了一個支持回環(huán)檢測和圖形優(yōu)化的完整SLAM系統(tǒng)。通過將相機(jī)位姿和場景表示與深度地圖聯(lián)合優(yōu)化,可以生成一致的比例度量。在DeepTAM[237]中,深度神經(jīng)網(wǎng)絡(luò)的深度和位姿預(yù)測都被引入了經(jīng)典DTAM系統(tǒng)[121]中,由后端對其進(jìn)行全局優(yōu)化,以實(shí)現(xiàn)更精確的場景重建和相機(jī)運(yùn)動跟蹤。在將無監(jiān)督VO與圖優(yōu)化后端集成方面,也可以找到類似的工作[64]。DeepFactors[238]反之亦然,將學(xué)習(xí)到的可優(yōu)化場景表示(它們所謂的代碼表示)集成到了一種不同風(fēng)格的后端概率因子圖中,同樣實(shí)現(xiàn)了全局優(yōu)化?;谝蜃訄D公式的優(yōu)點(diǎn)是它可以靈活地包含傳感器測量、狀態(tài)估計(jì)和約束信息。在因子圖框架中,很容易將新的傳感器模式、成對約束和系統(tǒng)狀態(tài)添加到圖中進(jìn)行優(yōu)化。然而,這些后端優(yōu)化器還不能對其區(qū)分。 6.3.關(guān)鍵幀和回環(huán)檢測關(guān)鍵幀和回環(huán)的檢測是SLAM系統(tǒng)后端優(yōu)化的關(guān)鍵。 關(guān)鍵幀選擇有助于SLAM系統(tǒng)更加高效。在基于關(guān)鍵幀的SLAM系統(tǒng)中,只有在檢測到關(guān)鍵幀時,才會對位姿和場景估計(jì)進(jìn)行優(yōu)化。[77]提供了一種檢測關(guān)鍵幀的學(xué)習(xí)解決方案,以及對自運(yùn)動跟蹤和深度估計(jì)的無監(jiān)督學(xué)習(xí)[29]方法。一幀圖像是否為關(guān)鍵幀是通過比較其特征與現(xiàn)有關(guān)鍵幀的相似度來確定的(即,如果相似度低于閾值,則該圖像將被視為新的關(guān)鍵幀)。 回環(huán)檢測或位置識別也是用于SLAM后端減少開環(huán)錯誤的重要模塊。傳統(tǒng)的工作是基于詞袋(BoW)來存儲和使用人工制作的探測器的視覺特征來實(shí)現(xiàn)的。然而,現(xiàn)實(shí)場景中的光照、天氣、視角和移動物體的變化會使這個問題變得復(fù)雜。為了解決這個問題,以前的研究人員(如[239])建議使用ConvNet的特征來代替,這些特征來自于一個通用的大規(guī)模圖像處理數(shù)據(jù)集上的預(yù)訓(xùn)練模型。由于深度神經(jīng)網(wǎng)絡(luò)提取了高層次的表示,這些方法對視點(diǎn)和條件的變化具有更強(qiáng)的魯棒性。其他有代表性的作品(如[240]、241]、[242])都是基于深度自動編碼結(jié)構(gòu)的,以一種無監(jiān)督的方式壓縮場景來提取一個緊湊的表示。基于深度學(xué)習(xí)的回環(huán)檢測具有更魯棒、更高效的視覺特征,可以實(shí)現(xiàn)最先進(jìn)的位置識別性能,適合集成在SLAM系統(tǒng)中。 6.4.不確定性估計(jì)安全性和可解釋性是在日常生活中實(shí)際部署移動機(jī)器人的關(guān)鍵要素:前者使機(jī)器人能夠可靠地與人類一起生活和行動,而后者允許用戶能夠更好地理解“模型行為”。雖然深度學(xué)習(xí)模型在廣泛的回歸和分類任務(wù)中取得了最先進(jìn)的性能,但一些極端情況也應(yīng)給予足夠的重視。在這些故障情況下,來自一個組件的錯誤會傳播到其他下游模塊,從而導(dǎo)致災(zāi)難性的后果。為此,需要對深度神經(jīng)網(wǎng)絡(luò)的不確定性進(jìn)行估計(jì),以確保安全性并提供可解釋性。 深度學(xué)習(xí)模型通常只生成預(yù)測的平均值,例如,基于DNN的視覺里程計(jì)模型的輸出是一個6維相對位姿向量,即平移和旋轉(zhuǎn)。為了捕捉深度模型的不確定性,可以將學(xué)習(xí)模型擴(kuò)充為貝葉斯模型[244],[245]。貝葉斯模型的不確定性大致分為任意不確定性和認(rèn)知不確定性:任意不確定性反映了觀測噪聲,如傳感器測量或運(yùn)動的噪聲;認(rèn)知不確定性用于捕捉模型的不確定性[245]。在本次綜述中,我們重點(diǎn)研究了定位和建圖這一具體任務(wù)的不確定性估計(jì)工作,以及它們的使用情況,即它們捕捉不確定性的目的是用于運(yùn)動跟蹤還是場景理解。 [243],[246]探討了基于DNN的里程估計(jì)的不確定性。他們采用了一種常見的策略,使用位姿估計(jì)的平均值及其協(xié)方差將目標(biāo)預(yù)測值轉(zhuǎn)化為高斯分布。利用均值和協(xié)方差相結(jié)合的損失函數(shù)對框架內(nèi)的參數(shù)進(jìn)行了優(yōu)化。通過最小化誤差函數(shù)尋找最佳組合,以無監(jiān)督的方式自動學(xué)習(xí)不確定性。通過這種方法,(他們的模型有效)恢復(fù)了運(yùn)動變換的不確定性。運(yùn)動不確定性在概率傳感器融合或SLAM系統(tǒng)后端優(yōu)化中起著至關(guān)重要的作用。為了驗(yàn)證SLAM系統(tǒng)中不確定性估計(jì)的有效性,[243]將學(xué)習(xí)到的不確定性作為里程計(jì)邊緣的協(xié)方差整合到一個圖形SLAM中。然后基于這些協(xié)方差進(jìn)行全局優(yōu)化以減少系統(tǒng)漂移。它也證實(shí)了不確定性估計(jì)在固定的預(yù)定義協(xié)方差的基線上可以有效提高SLAM系統(tǒng)的性能。如[135],[137]所示,深度模型的不確定性能夠反映全局定位的誤差,其中不可靠的位姿估計(jì)可以用置信度來避免。 除了運(yùn)動/再定位的不確定性,估計(jì)場景理解的不確定性也有助于(提高)SLAM系統(tǒng)(的可信度)。這種不確定性為環(huán)境感知和場景結(jié)構(gòu)的可信度提供了一個依據(jù)。例如,在語義分割和深度估計(jì)任務(wù)中,不確定性估計(jì)可以為DNN預(yù)測提供每像素的不確定性值[245]、[247]、[248]、[249]。此外,運(yùn)用場景不確定性也適用于構(gòu)建混合SLAM系統(tǒng)。例如,可以學(xué)習(xí)光度不確定性來捕捉每個圖像像素上的強(qiáng)度變化,從而增強(qiáng)SLAM系統(tǒng)對于噪聲觀測的魯棒性[25]。 7.開放性問題盡管深度學(xué)習(xí)為定位和建圖的研究帶來了巨大的成功,但如前文所述,現(xiàn)有的模型還不夠成熟,無法完全解決當(dāng)前的問題。目前的深度解決方案仍處于初級階段。為了在野外獲得極大的自主性,未來研究人員將面臨許多挑戰(zhàn)。這些技術(shù)的實(shí)際應(yīng)用應(yīng)該被看做是一個系統(tǒng)的研究課題。我們討論了幾個可能導(dǎo)致該領(lǐng)域進(jìn)一步發(fā)展的開放性問題。 1)端到端模型 VS 混合模型 端到端學(xué)習(xí)模型能夠直接從原始數(shù)據(jù)中預(yù)測自運(yùn)動和場景,無需任何人工操作。得益于深度學(xué)習(xí)的進(jìn)步,端到端模型正在快速發(fā)展,以實(shí)現(xiàn)在準(zhǔn)確性、效率和魯棒性方面不斷提高的性能。同時,這些模型更容易與其他高級學(xué)習(xí)任務(wù)(如路徑規(guī)劃和導(dǎo)航)相結(jié)合[31]。從根本上講,存在著底層的物理或幾何模型用來管理定位和建圖系統(tǒng)。我們是應(yīng)該僅僅依靠數(shù)據(jù)驅(qū)動的方法來開發(fā)端到端模型,還是將深度學(xué)習(xí)模塊作為混合模型集成到預(yù)先構(gòu)建的物理/幾何模型中,是未來研究的關(guān)鍵問題。正如我們所見,混合模型已經(jīng)在許多任務(wù)中(例如視覺里程計(jì)[25]和全局定位[191])取得了最先進(jìn)的成果。因此,研究如何更好地利用深度學(xué)習(xí)的先驗(yàn)經(jīng)驗(yàn)知識對混合模型進(jìn)行拓展是必要的。另一方面,存粹的端到端模型存在數(shù)據(jù)匱乏問題?,F(xiàn)有模型的性能會受到訓(xùn)練數(shù)據(jù)集大小的限制,因此需要創(chuàng)建大而多樣化的數(shù)據(jù)集來擴(kuò)大數(shù)據(jù)驅(qū)動模型的容量 2) 統(tǒng)一評價基準(zhǔn)和指標(biāo) 尋找合適的評價基準(zhǔn)和指標(biāo)一直是SLAM系統(tǒng)所關(guān)注的問題。尤其是基于DNN的系統(tǒng)?;贒NN的系統(tǒng)的預(yù)測受訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的特性影響,包括數(shù)據(jù)集大小、超參數(shù)(批量大小、學(xué)習(xí)率等),以及測試場景的差異,因此考慮到每項(xiàng)工作所采用的數(shù)據(jù)集、訓(xùn)練/測試配置、評價指標(biāo)的差異,很難對它們進(jìn)行公正的比較。例如,KITTI數(shù)據(jù)集是評價視覺里程計(jì)的常用方法,但以前的工作以不同的方式分割訓(xùn)練和測試數(shù)據(jù)(例如[24]、[48]、[50]使用序列00、02、08、09作為訓(xùn)練集,序列03、04、05、06、07、10作為測試集,而[25]、[30]則使用序列00、08作為訓(xùn)練集,剩下的09和10作為測試集)。其中有些甚至基于不同的評估指標(biāo)(例如[24]、[48]、[50]采用了KITTI官方評估指標(biāo),而[29]、[56]則采用了絕對軌跡誤差(ATE)作為評估指標(biāo))。所有這些因素都為直接公正地比較它們帶來了困難。此外,KITTI數(shù)據(jù)集相對簡單(車輛僅在實(shí)現(xiàn)了二維平移)且體積較小。如果只提供KITTI基準(zhǔn)的結(jié)果而沒有在長期的真實(shí)世界實(shí)驗(yàn)中進(jìn)行全面的評估,這是不令人信服的。事實(shí)上,現(xiàn)在越來越需要建立一個涵蓋各種環(huán)境、自運(yùn)動和動力學(xué)系統(tǒng)的評估基準(zhǔn)。 3) 實(shí)際部署 在現(xiàn)實(shí)環(huán)境中部署深度學(xué)習(xí)模型是一個系統(tǒng)的研究問題。在現(xiàn)有的研究中,預(yù)測精度一直是必須遵循的“黃金法則”,而其他關(guān)鍵問題,如模型結(jié)構(gòu)和框架的參數(shù)是否最優(yōu)等都被忽略了。對于資源受限的系統(tǒng),如低成本機(jī)器人或虛擬現(xiàn)實(shí)可穿戴設(shè)備,必須考慮計(jì)算和能量消耗。為了更好地利用GUP,應(yīng)該利用卷積濾波器或其他并行神經(jīng)網(wǎng)絡(luò)模塊等實(shí)現(xiàn)并行化。需要考慮的例子包括在什么情況下應(yīng)該返回反饋來微調(diào)系統(tǒng),如何將自監(jiān)督模型合并到系統(tǒng)中,以及系統(tǒng)是否允許實(shí)時在線學(xué)習(xí)等。 4) 長期學(xué)習(xí) 到目前為止,我們討論的之前大多數(shù)的工作只是在簡單的封閉數(shù)據(jù)集上得到了驗(yàn)證,例如視覺里程計(jì)和深度預(yù)測是在KITTI數(shù)據(jù)集上進(jìn)行的。然而,在一個開放的世界中,移動機(jī)器人將面臨不斷變化的環(huán)境因素和動態(tài)移動的影響。這就要求DNN模型能夠持續(xù)、連貫地學(xué)習(xí)和適應(yīng)世界的變化。此外,還會出現(xiàn)一些新的概念和對象,這就要求機(jī)器人更新到一個可以實(shí)行對象發(fā)現(xiàn)和新知識擴(kuò)展的階段。 5) 新的傳感器 除了常見的機(jī)載傳感器,如相機(jī)、IMU和激光雷達(dá)之外,新型傳感器為構(gòu)建更精確和更魯棒的多模式系統(tǒng)提供了一種替代方案。與主流的SLAM傳感器(如相、IMU和LIDAR)相比,包括事件相機(jī)( event camera)[250]、熱相機(jī)[251]、毫米波設(shè)備[252]、無線電信號[253]、磁傳感器[254]在內(nèi)的新型傳感器都具有著不同的特性和數(shù)據(jù)格式。然而,處理這些不同尋常的傳感器的有效學(xué)習(xí)方法仍有待探索。 6) 可擴(kuò)展性 基于學(xué)習(xí)的定位和建圖模型在評估基準(zhǔn)上都取得了良好的效果。但是,它們僅限于某些場景。例如,里程計(jì)估計(jì)通常是在市區(qū)或道路上進(jìn)行評估的。這些技術(shù)是否適用于其他環(huán)境,如農(nóng)村地區(qū)或森林地區(qū),仍然是一個未能解決的問題。此外,現(xiàn)有場景重建的工作僅限于單目標(biāo)、合成數(shù)據(jù)或室內(nèi)水平。這些學(xué)習(xí)方法是否能夠擴(kuò)展到更復(fù)雜和大規(guī)模的重建仍是值得探索的。 7) 安全性、可靠性和可解釋性 安全性和可靠性對于實(shí)際應(yīng)用(例如自動駕駛汽車)至關(guān)重要。在這些場景中,即使是位姿或場景估計(jì)的一個小錯誤都會對整個系統(tǒng)造成災(zāi)難性后果。長期以來,深度神經(jīng)網(wǎng)絡(luò)被批評為“黑箱”,加劇了關(guān)鍵任務(wù)的安全性問題。一些初步的努力探索了深度模型的可解釋性[255]。例如,不確定性估計(jì)244],[245]可以提供一個信任度,表示我們在多大程度上信任我們的模型。這樣就避免了不可靠的預(yù)測(低不確定性),以確保系統(tǒng)的安全和可靠。 8. 結(jié)論本文全面介紹了用于定位和建圖的深度學(xué)習(xí)領(lǐng)域,涵蓋了機(jī)器人技術(shù)、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)社區(qū)的現(xiàn)有相關(guān)方法,并提出了一種新的分類方式。學(xué)習(xí)模型被整合到了定位和建圖系統(tǒng)中,通過從原始數(shù)據(jù)中自動提取有用的特征,可以將輸入的傳感器數(shù)據(jù)和目標(biāo)值連接起來,而無需任何人工操作。到目前為止,基于深度學(xué)習(xí)的技術(shù)已經(jīng)在各種任務(wù)中(從視覺里程計(jì)、全局定位到密集場景重建)取得了最先進(jìn)的性能。由于深度神經(jīng)網(wǎng)絡(luò)具有高度表達(dá)能力,這些模型能夠隱式地模擬環(huán)境動力學(xué)或傳感器噪聲等難以人工建模的因素,因此在實(shí)際應(yīng)用中相對更為健壯。此外,通過基于學(xué)習(xí)的模型,移動機(jī)器人可以更容易地實(shí)現(xiàn)高層次的理解和交互。深度學(xué)習(xí)的快速發(fā)展為解決經(jīng)典的定位和建圖問題提供了一種數(shù)據(jù)驅(qū)動的替代方案,同時也為下一代研究基于人工智能的空間感知的解決方案鋪平了道路。 文獻(xiàn)插圖:圖1:空間機(jī)器智能系統(tǒng)利用機(jī)載傳感器感知自我運(yùn)動,全局位姿,場景幾何和語義信息。(a)傳統(tǒng)的基于模型的解決方案是建立人工設(shè)計(jì)的算法,將輸入的傳感器數(shù)據(jù)轉(zhuǎn)換為目標(biāo)值。(c)數(shù)據(jù)驅(qū)動的解決方案是利用學(xué)習(xí)模型來構(gòu)造這種映射函數(shù)。(b)混合方法結(jié)合了人工制作的算法和學(xué)習(xí)模型。本篇綜述主要討論了(b)和(c)兩種類型的方法。 圖2:現(xiàn)有的基于深度學(xué)習(xí)的定位和建圖方法的分類(圖示)。 圖3:空間機(jī)器智能系統(tǒng)的高級概念圖(即基于深度學(xué)習(xí)的定位和建圖)。圓角矩形表示一個功能模塊,箭頭線連接著這些模塊的輸入數(shù)據(jù)和輸出數(shù)據(jù)。執(zhí)行這個系統(tǒng)沒有必要包含所有的模塊。 圖4:視覺里程計(jì)監(jiān)督學(xué)習(xí)的典型結(jié)構(gòu),即DeepVO[24],和視覺里程計(jì)無監(jiān)督學(xué)習(xí)的典型結(jié)構(gòu),即SfmLearner[29]。 表一:現(xiàn)有的基于深度學(xué)習(xí)的里程計(jì)估計(jì)方法綜述。
圖5:基于深度學(xué)習(xí)的視覺里程計(jì)性能與KITTI數(shù)據(jù)集軌跡10評估的比較(結(jié)果)。 圖6:斯坦福兔基準(zhǔn)測試中的場景表示示意圖:(a)原始模型,(b)深度表示,(c)體素表示,(d)點(diǎn)表示,(e)網(wǎng)格表示。 表二:現(xiàn)有的基于深度學(xué)習(xí)的建圖方法綜述。 圖7:(b)語義分割,(c)實(shí)例分割,(d)語義建圖的全景分割[126]. 圖8:通過(a)顯式建圖,即RelocNet[129]和(b)隱式建圖(例如PoseNet[130])實(shí)現(xiàn)了基于2D到2D定位的典型架構(gòu) 表三:現(xiàn)有的基于深度學(xué)習(xí)的2D到2D全局定位方法綜述。
圖9:通過(a)描述子匹配,即HF-Net[172]和(b)場景坐標(biāo)回歸,即Confidence SCR,實(shí)現(xiàn)基于2D 到 3D定位的典型架構(gòu)[173]. 表四:現(xiàn)有的基于深度學(xué)習(xí)的2D到3D全局定位方法綜述
圖10:3D到3D定位的典型架構(gòu),如L3-Net[224]。 表5:現(xiàn)有的基于深度學(xué)習(xí)的3D到3D全局定位方法綜述
表6:現(xiàn)有的基于深度學(xué)習(xí)的SLAM方法綜述 |
|