泡泡點(diǎn)云時(shí)空,帶你精讀點(diǎn)云領(lǐng)域頂級(jí)會(huì)議文章 標(biāo)題:3D map-guided single indoor image localization refinement 作者:Qing Li, Jiasong Zhu , Jun Liu, Rui Cao , Hao Fu , Jonathan M. Garibaldi , Qingquan Li, Bozhi Liu , Guoping Qiu, 來(lái)源:ISPRS 2020 編譯:Lionheart 審核:王志勇 歡迎個(gè)人轉(zhuǎn)發(fā)朋友圈;其他機(jī)構(gòu)或自媒體如需轉(zhuǎn)載,后臺(tái)留言申請(qǐng)授權(quán) 摘要 在室內(nèi)場(chǎng)景中,圖像定位是基于GPS定位方法的重要補(bǔ)充,傳統(tǒng)方法依賴圖像檢索或者運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)技術(shù),定位精度差,甚至在弱紋理或者重復(fù)室內(nèi)場(chǎng)景中失敗,隨著深度傳感器的發(fā)展,在室內(nèi)場(chǎng)景中3D無(wú)紋理地圖能夠容易的構(gòu)建,如何有效利用3D無(wú)紋理地圖來(lái)提升單張圖像定位精度是一個(gè)尚未解決的問(wèn)題,這篇文章中,我們提出了一個(gè)新的策略來(lái)通過(guò)從單個(gè)影像中估計(jì)3D幾何信息來(lái)完成定位,其中3D幾何信息來(lái)自深度神經(jīng)網(wǎng)絡(luò)方法,用于恢復(fù)影像初始6自由度。相較于之前的方法,通過(guò)多視圖圖像或視頻來(lái)生成稀疏點(diǎn)云,我們的方法能夠從單張圖像中生產(chǎn)密集點(diǎn)云,我們通過(guò)評(píng)估輸入圖像的深度地圖并執(zhí)行3D空間匹配來(lái)完成姿態(tài)恢復(fù)。我們提出了一種新穎使用3D地圖以及RGB-D圖像的深度估計(jì)方法,具體的使用RGB圖像來(lái)評(píng)估深度圖,使用3D地圖引導(dǎo)深度估計(jì),我們將展示RGB圖像在室內(nèi)外場(chǎng)景中深度圖估計(jì)的出色表現(xiàn),我們同樣展示使用深度圖估計(jì)方法進(jìn)行單張室內(nèi)圖像定位能夠顯著的提升定位和定向精度。 補(bǔ)充閱讀 直接進(jìn)行2D圖像和3D模型進(jìn)行匹配是非常有挑戰(zhàn)性的一件事情,因?yàn)閳D像幾何信息相較于3D模型存在歧義性,解決策略有二: 1)在2D空間中匹配 這種方法類似與圖像索引,即在2D和3D空間中使用SIFT特征索引匹配,使用PNP的方法來(lái)進(jìn)行姿態(tài)恢復(fù)。 2)在3D空間中匹配 重要的是估計(jì)3D圖像的深度信息,生成3D點(diǎn)云匹配3D地圖,傳統(tǒng)的方法使用sfm來(lái)評(píng)估圖像的深度,輸入是多張圖像,但在弱紋理場(chǎng)景失效,而且深度估計(jì)需要消耗很長(zhǎng)的時(shí)間。 論文主要方法 圖1基于3D地圖的圖像定位流程,包括四個(gè)階段(1)初始姿態(tài)估計(jì)(2)局部地圖定位(3)點(diǎn)云生成(4)幾何匹配 1)姿態(tài)初始估計(jì) 初始姿態(tài)估計(jì)是方法流程中的一個(gè)重要步驟,方法從全部的3D地圖中確定初始的局部3D地圖,ICP算法嚴(yán)重依賴獲得好的結(jié)果。姿態(tài)初始估計(jì)也是基于學(xué)習(xí)的方法,利用圖像在特征空間和標(biāo)記空間中的相對(duì)幾何特征。網(wǎng)絡(luò)由兩個(gè)共享加權(quán)的ResNet50、兩個(gè)全局位姿回歸單元和一個(gè)相對(duì)位姿回歸單元組成,它們由三個(gè)完全連接的層組成。結(jié)合全局位姿損失函數(shù)設(shè)計(jì)了三種損失函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò)。 2)局部3D地圖提取 全局地圖包含大量的點(diǎn),與全局地圖進(jìn)行匹配影響配準(zhǔn)效率,為了保證ICP配準(zhǔn)效率與準(zhǔn)確性,基于初始姿態(tài)估計(jì)結(jié)果來(lái)提取局部3D地圖。 3)點(diǎn)云生成 使用兩步方法來(lái)生成RGB圖像點(diǎn)云,首先使用深度學(xué)習(xí)網(wǎng)絡(luò)生成深度圖進(jìn)而轉(zhuǎn)換成點(diǎn)云,第二步基于密集分布策略來(lái)刪除不正確的點(diǎn),第二步對(duì)六自由度估計(jì)至關(guān)重要,錯(cuò)誤的深度估計(jì)嚴(yán)重影像3D幾何配準(zhǔn)。 4)基于ICP配準(zhǔn)的幾何匹配 給定局部3D地圖和從單張圖像中預(yù)測(cè)的點(diǎn)云,使用ICP方法配準(zhǔn)他們,從而獲得坐標(biāo)系下絕對(duì)位置和姿態(tài)。 主要實(shí)驗(yàn) 圖 2 NYU-Depth-v2數(shù)據(jù)集上深度估計(jì)結(jié)果對(duì)比展示 圖3 深度估計(jì)方法定量對(duì)比結(jié)果 圖 4 基于CNN的定位結(jié)果定量化對(duì)比 結(jié)論與討論 我們還在7個(gè)場(chǎng)景數(shù)據(jù)集上評(píng)估了定位方法,實(shí)驗(yàn)結(jié)果證明了方法在提高定位精度方面的有效性。原則上,我們的方法同樣適用于單一的戶外圖像定位。我們已經(jīng)在戶外數(shù)據(jù)集上測(cè)試了算法,由于難以獲得精確的三維地圖,性能不如室內(nèi)圖像。我們未來(lái)的工作將集中于將這種方法應(yīng)用到戶外場(chǎng)景中。大內(nèi)存消耗是該方法的一個(gè)問(wèn)題,因?yàn)樗蕾囉趫?chǎng)景。ICP在配準(zhǔn)花費(fèi)了大量的時(shí)間。在我們的實(shí)驗(yàn)中,最初的姿態(tài)估計(jì)幾乎不需要花費(fèi)時(shí)間,大約需要0.01秒來(lái)估計(jì)姿態(tài)。從局部地圖生成初始深度圖的平均成本約為0.5。深度圖細(xì)化需要0.02秒。優(yōu)化定位花費(fèi)了大量的時(shí)間,這取決于ICP的迭代次數(shù)。時(shí)間范圍從0.1到0.7秒。 Abstract Image localization is an important supplement to GPS-based methods, especially in indoor scenes. Traditional methods depending on image retrieval or structure from motion (SfM) techniques either suffer from low accuracy or even fail to work due to the texture-less or repetitive indoor surfaces. With the development of range sensors, 3D colourless maps are easily constructed in indoor scenes. How to utilize such a 3D colourless map to improve single image localization performance is a timely but unsolved research problem. In this paper, we present a new approach to addressing this problem by inferring the 3D geometry from a single image with an initial 6DOF pose estimated by a neural network based method. In contrast to previous methods that rely multiple overlapping images or videos to generate sparse point clouds, our new approach can produce dense point cloud from only a single image. We achieve this through estimating the depth map of the input image and performing geometry matching in the 3D space. We have developed a novel depth estimation method by utilizing both the 3D map and RGB images where we use the RGB image to estimate a dense depth map and use the 3D map to guide the depth estimation. We will show that our new method significantly outperforms current RGB image based depth estimation methods for both indoor and outdoor datasets. We also show that utilizing the depth map predicted by the new method for single indoor image localization can improve both position and orientation localization accuracy over state-of-the-art methods. |
|
來(lái)自: taotao_2016 > 《機(jī)器人》