一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

劉瑾: 基于深度學(xué)習(xí)的航空遙感影像密集匹配

 沐沐閱覽室 2019-10-18

基于深度學(xué)習(xí)的航空遙感影像密集匹配

劉瑾, 季順平     

武漢大學(xué)遙感信息工程學(xué)院, 湖北 武漢 430079

收稿日期:2018-05-26;修回日期:2018-12-04

基金項(xiàng)目:國(guó)家自然科學(xué)基金(41471288)

第一作者簡(jiǎn)介:劉瑾(1996-), 女, 碩士生, 研究方向?yàn)榛谏疃葘W(xué)習(xí)的密集匹配。E-mail:liujinwhu@whu.edu.cn

通信作者:季順平, E-mail:jishunping@whu.edu.cn

摘要:本文探討了深度學(xué)習(xí)在航空影像密集匹配中的性能,并與經(jīng)典方法進(jìn)行了比較,對(duì)模型泛化能力進(jìn)行了評(píng)估。首先,實(shí)現(xiàn)了MC-CNN(matching cost convolutional neural network)、GC-Net(geometry and context network)、DispNet(disparity estimation network)3種代表性卷積神經(jīng)元網(wǎng)絡(luò)在航空立體像對(duì)上的訓(xùn)練和測(cè)試,并與傳統(tǒng)方法SGM(semi-global matching)和商業(yè)軟件SURE進(jìn)行了比較。其次,利用直接遷移學(xué)習(xí)方法,評(píng)估了各模型在不同數(shù)據(jù)集間的泛化能力。最后,利用預(yù)訓(xùn)練模型和少量目標(biāo)數(shù)據(jù)集樣本,評(píng)估了模型微調(diào)的效果。試驗(yàn)包含3套航空影像、2套開(kāi)源街景影像。試驗(yàn)表明:①與傳統(tǒng)的遙感影像密集匹配方法相比,目前深度學(xué)習(xí)方法略有優(yōu)勢(shì);②GC-Net與MC-CNN表現(xiàn)了良好的泛化能力,在開(kāi)源數(shù)據(jù)集上訓(xùn)練的模型可以直接應(yīng)用于遙感影像,且3PE(3-pixel-error)精度沒(méi)有明顯下降;③在訓(xùn)練樣本不足時(shí),利用預(yù)訓(xùn)練模型做初值并進(jìn)行參數(shù)微調(diào)可以得到比直接訓(xùn)練更好的結(jié)果。

關(guān)鍵詞:立體匹配    密集匹配    航空影像    卷積神經(jīng)元網(wǎng)絡(luò)    深度學(xué)習(xí)    

Deep learning based dense matching for aerial remote sensing images

LIU Jin, JI Shunping     

School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China

Foundation support: The National Natural Science Foundation of China (No. 41471288)

First author: LIU Jin(1996—), female, postgraduate, majors in dense matching based on deep learning.E-mail:liujinwhu@whu.edu.cn.

Corresponding author: JI Shunping, E-mail: jishunping@whu.edu.cn.

Abstract: This work studied that the application of deep learning based stereo methods in aerial remote sensing images, including its performance evaluation, the comparison with classical methods and generalization ability estimation.Three convolution neural networks are applied, MC-CNN(matching cost convolutional neural network), GC-Net(geometry and context network) and DispNet(disparity estimation network), on aerial stereo image pairs. The results are compared with SGM (semi-global matching) and a commercial software SURE. Secondly, the generalization ability of the MC-CNN and GC-Net are evaluated with models pretrained on other datasets. Finally, fine tuning on a small number of target training data with pretrained models are compared to direct training. Three sets of aerial images and two open-source street data sets are used for test. Experiments show that:firstly, deep learning methods perform slightly better than traditional methods; secondly, both GC-Net and MC-CNN have demonstrated good generalization ability, and can get satisfactory 3PE (3-pixel-error) results on aerial images using a model pretrained on available stereo benchmarks; thirdly, when the training samples in target dataset are insufficient, the strategy of fine-tuning on a pretrained model can improve the effect of direct training.

Key words: stereo matching    dense matching    aerial images    convolutional neural network    deep learning    

從立體或多視航空航天遙感圖像重建地面三維場(chǎng)景一直是攝影測(cè)量與遙感中的核心問(wèn)題。自動(dòng)獲取立體像對(duì)中每個(gè)像素的同名點(diǎn)是:三維重建的關(guān)鍵技術(shù),通常稱(chēng)為“圖像密集匹配”。圖像密集匹配可分為4個(gè)過(guò)程[1]。第1步是匹配代價(jià)的計(jì)算。像素值的亮度差、相關(guān)系數(shù)及互信息是一些經(jīng)典的匹配代價(jià)。這些代價(jià)主要基于灰度、梯度或信息熵,以待匹配圖像塊作為模板,按照給定的相似性度量在搜索區(qū)域內(nèi)逐像素遍歷計(jì)算。這些匹配代價(jià)雖然實(shí)現(xiàn)簡(jiǎn)單,但易受無(wú)紋理區(qū)域、表面鏡反射、單一結(jié)構(gòu)和重復(fù)圖案的影響[2]。第2步是匹配代價(jià)聚合。代價(jià)聚合通常是對(duì)匹配點(diǎn)鄰域內(nèi)所有匹配代價(jià)加權(quán)求和。代價(jià)聚合能達(dá)到局部濾波的效果。但傳統(tǒng)的算法中,包括半全局匹配法和圖割法(GraphCut)[3],都對(duì)代價(jià)聚合做了不同程度的簡(jiǎn)化。第3步是視差值計(jì)算。最小匹配代價(jià)對(duì)應(yīng)的視差值即為最優(yōu)結(jié)果。通常采用能量函數(shù)的方法計(jì)算最優(yōu)視差值。最后一步是視差精化。該步驟是對(duì)視差值執(zhí)行優(yōu)化的過(guò)程,包括一系列后處理技術(shù),如左右一致性檢驗(yàn)、中值濾波、子像素增強(qiáng)等。最后可由密集匹配獲得視差圖,轉(zhuǎn)換為深度信息,從而重建三維場(chǎng)景。

在各個(gè)階段,經(jīng)典匹配算法都或多或少地采用了經(jīng)驗(yàn)性的方法而非嚴(yán)格的數(shù)學(xué)模型,如設(shè)計(jì)特征、測(cè)度、聚合方式等,并做了不同程度的簡(jiǎn)化,如認(rèn)為鄰域內(nèi)像素的匹配代價(jià)獨(dú)立,因此難以達(dá)到數(shù)學(xué)上的最優(yōu)。采用深度學(xué)習(xí)算法,是否能夠克服上述傳統(tǒng)方法中的難點(diǎn)、進(jìn)一步提高匹配精度,是值得深入研究的問(wèn)題。

密集匹配作為三維重建的核心內(nèi)容,受到廣泛的重視。圖割法[3]是一種經(jīng)典的全局立體匹配算法。利用圖論的思想,將求解圖的最小割算法作為核心技術(shù),以求解二維區(qū)域的能量最小問(wèn)題。PMVS(patch-based multi-view stereo)算法[4]首先提取特征點(diǎn)并進(jìn)行匹配,然后以特征點(diǎn)為中心擴(kuò)張到周?chē)鎵K,對(duì)面塊匹配,得到準(zhǔn)密集匹配點(diǎn)。在效率上,圖割法等全局匹配算法采用近似最優(yōu)的優(yōu)化方法,計(jì)算量大,運(yùn)行時(shí)間過(guò)長(zhǎng),不太適合大容量的遙感影像。2008年提出了效率更高的半全局匹配方法(semi-global matching, SGM)[5]。SGM將匹配點(diǎn)鄰域的二維代價(jià)聚合替代為多個(gè)簡(jiǎn)單的一維代價(jià)聚合,對(duì)當(dāng)前區(qū)域的16個(gè)一維方向進(jìn)行動(dòng)態(tài)規(guī)劃計(jì)算,以求解最小代價(jià)。影像塊匹配算法[6](patch-match method)利用圖像的局部相關(guān)性,認(rèn)為匹配點(diǎn)周?chē)膮^(qū)域也相互匹配。文獻(xiàn)[7]開(kāi)發(fā)的SURE軟件是基于SGM的多視影像匹配算法。

隨著機(jī)器學(xué)習(xí)的普及,深度學(xué)習(xí)[8-11]在各個(gè)研究領(lǐng)域都得到了廣泛的應(yīng)用。尤其是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN),不僅提高了圖像識(shí)別和分類(lèi)的準(zhǔn)確性,提升了在線運(yùn)算效率,更關(guān)鍵的是它避免了各類(lèi)特征設(shè)計(jì)。一些研究者逐漸將深度學(xué)習(xí)引入到立體匹配中,在計(jì)算機(jī)視覺(jué)標(biāo)準(zhǔn)測(cè)試集上的匹配結(jié)果逐漸超過(guò)傳統(tǒng)匹配方法,展示了一定的優(yōu)越性。

基于深度學(xué)習(xí)的密集匹配有兩種策略:只學(xué)習(xí)立體匹配4個(gè)標(biāo)準(zhǔn)步驟中的一部分和端到端學(xué)習(xí)。前者的例子包括MC-CNN網(wǎng)絡(luò)[12],只用于學(xué)習(xí)匹配代價(jià),以及SGM-Net網(wǎng)絡(luò)[13],在SGM中引入CNN學(xué)習(xí)懲罰項(xiàng),以解決懲罰參數(shù)調(diào)整困難的問(wèn)題。

端到端的學(xué)習(xí)策略是直接從立體像對(duì)預(yù)測(cè)視差圖。DispNet[14]是一種用于視差圖預(yù)測(cè)的普適的全卷積網(wǎng)絡(luò)。GC-Net(geometry and context network)[2]利用像素間的幾何信息和語(yǔ)義信息構(gòu)建3D張量,從3D特征中學(xué)習(xí)視差圖。PSM-Net(pyramid stereo matching network)[15]是由空間金字塔池和三維卷積層組成的網(wǎng)絡(luò),將全局的背景信息納入立體匹配中,以實(shí)現(xiàn)遮擋區(qū)域、無(wú)紋理或重復(fù)區(qū)域的可靠估計(jì)。CRL(cascade residual learning)[16]串聯(lián)了兩個(gè)改進(jìn)的DispNet[14]網(wǎng)絡(luò),第1個(gè)網(wǎng)絡(luò)得到立體像對(duì)間的初始化視差值,第2個(gè)網(wǎng)絡(luò)利用第1個(gè)網(wǎng)絡(luò)的殘差值進(jìn)一步精化。文獻(xiàn)[17]提出一種Highway網(wǎng)絡(luò)結(jié)構(gòu),引入多級(jí)加權(quán)殘差的跳接,利用復(fù)合損失函數(shù)進(jìn)行訓(xùn)練。以上方法均在監(jiān)督方式下運(yùn)行。文獻(xiàn)[18]設(shè)計(jì)了一種卷積神經(jīng)元網(wǎng)絡(luò),利用左右圖像(和右左圖像)的視差一致性學(xué)習(xí)視差圖,無(wú)需真實(shí)視差圖作為訓(xùn)練。

深度學(xué)習(xí)方法已經(jīng)較成功地應(yīng)用于計(jì)算機(jī)視覺(jué)標(biāo)準(zhǔn)測(cè)試集的立體匹配,但是應(yīng)用于遙感影像的處理尚不成熟。本文研究了深度學(xué)習(xí)的方法在航空遙感影像密集匹配上的性能,并在多個(gè)數(shù)據(jù)集上與經(jīng)典方法和商業(yè)軟件進(jìn)行比較。此外,本文還評(píng)估了深度學(xué)習(xí)在航空遙感圖像匹配中的泛化能力,即在計(jì)算機(jī)視覺(jué)標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練的模型,是否能直接應(yīng)用到航空遙感影像中。

1 方法1.1 MC-CNN

MC-CNN通過(guò)深度卷積神經(jīng)元網(wǎng)絡(luò)的自我學(xué)習(xí),得到最優(yōu)的相似性測(cè)度,用于匹配代價(jià)的計(jì)算,而取代相關(guān)系數(shù)、灰度差等經(jīng)驗(yàn)設(shè)計(jì)的方法。

MC-CNN中包括兩種不同結(jié)構(gòu)的網(wǎng)絡(luò):Fast結(jié)構(gòu)和Slow結(jié)構(gòu),前者比后者的處理速度更快,但得到的視差值精度稍遜于后者。兩種結(jié)構(gòu)均利用一系列卷積層從輸入圖塊中提取特征向量,依據(jù)特征向量計(jì)算圖塊間的相似性。Fast結(jié)構(gòu)采用固定的余弦度量(即點(diǎn)積)比較提取出的兩個(gè)特征向量是否相似,Slow結(jié)構(gòu)嘗試用一系列全連接層學(xué)習(xí)出特征向量間的相似性分?jǐn)?shù)。由于Slow網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)集容量和內(nèi)存均有較高要求,本文采用Fast網(wǎng)絡(luò)作為試驗(yàn)網(wǎng)絡(luò)。網(wǎng)絡(luò)框架如圖 1所示。

圖 1 MC-CNN Fast網(wǎng)絡(luò)框架Fig. 1 The structure of Fast MC-CNN

圖選項(xiàng)

Fast結(jié)構(gòu)是一種連體(siamese)網(wǎng)絡(luò),兩個(gè)子網(wǎng)絡(luò)分別由多個(gè)卷積層組成,且共享參數(shù),分別用于提取左圖塊和右圖塊中的特征向量。在本文中,卷積層數(shù)設(shè)置為4,卷積核大小為3×3。兩個(gè)歸一化特征向量通過(guò)點(diǎn)積得到相似性分?jǐn)?shù)。MC-CNN每次輸入一對(duì)正負(fù)樣本,計(jì)算損失值,并通過(guò)最小化Hinge Loss函數(shù)訓(xùn)練網(wǎng)絡(luò)。設(shè)s+s-分別為正負(fù)樣本的輸出,限差為m,則Hinge Loss定義為max(0, m+s--s+)。在本文試驗(yàn)中,m設(shè)置為0.2。

MC-CNN只用于學(xué)習(xí)代價(jià)函數(shù),諸如代價(jià)聚合[19]、半全局匹配、左右一致性檢驗(yàn)、子像素增強(qiáng)、中值濾波和雙邊濾波等后處理步驟參考了SGM的相關(guān)流程。

1.2 GC-Net

GC-Net采用端到端的學(xué)習(xí)策略,直接學(xué)習(xí)從核線立體像對(duì)到深度圖的可微映射函數(shù)。GC-Net將視差看作第3維,構(gòu)建圖像-視差張量。由3D卷積學(xué)習(xí)特征,得到最優(yōu)視差圖(即3D張量中的一個(gè)曲面)。在圖 2中,立體像對(duì)首先通過(guò)一系列共享的2D卷積核提取特征圖。第2步,將特征圖串聯(lián)并構(gòu)建代價(jià)立方體(cost volume)。具體的,以左片特征圖為例,設(shè)其寬度和長(zhǎng)度分別為wh,右片相對(duì)于左片的最大視差為n。將對(duì)應(yīng)的右片特征圖每次平移一個(gè)像素,即共生成n張圖。左片特征圖與平移后的n張右片特征圖逐個(gè)串聯(lián),得到w×h×(n+1)的3D張量。第3步,利用3D卷積和3D反卷積學(xué)習(xí)一系列的3D特征圖,其最終的大小為W×H×nHW分別為原始圖像的長(zhǎng)寬。第4步,通過(guò)定義一個(gè)SoftArgmin函數(shù),將3D特征圖壓縮為2D視差圖d′。最后,采用d′與參考視差圖d之間的一次范式誤差作為代價(jià)函數(shù),反向傳播并迭代得到最優(yōu)參數(shù)。

圖 2 GC-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 The structure of GC-Net

圖選項(xiàng)

在試驗(yàn)中,2D卷積部分包含18個(gè)卷積層,每一層含32個(gè)卷積核,其中第1層的卷積核大小為5×5,剩余17層均為3×3。3D卷積部分包含14個(gè)卷積層,卷積核大小均為3×3×3。前兩層的卷積核個(gè)數(shù)為32,后3層為128,剩余3D卷積層的卷積核個(gè)數(shù)為64。反卷積部分由5層反卷積組成,反卷積核大小為3×3×3,每一層的反卷積核個(gè)數(shù)分別為64/64/64/32/1。

1.3 DispNet

DispNet網(wǎng)絡(luò)以FlowNet(flow estimation network)[20]網(wǎng)絡(luò)為基礎(chǔ),是一種通用的全卷積神經(jīng)元網(wǎng)絡(luò),由編碼和解碼兩階段組成,以核線影像對(duì)為輸入,直接輸出對(duì)應(yīng)的視差圖。其中編碼階段由6個(gè)卷積層組成,前兩層的卷積核大小分別為7×7和5×5,其余層均為3×3。解碼部分由5個(gè)上卷積層組成,卷積核大小為4×4。每一尺度的特征圖都與真實(shí)視差圖比較,得到對(duì)應(yīng)的損失值。在訓(xùn)練過(guò)程中采用加權(quán)的方式賦予這些損失值不同的重要程度。DispNet網(wǎng)絡(luò)的示意圖如圖 3所示。DispNet網(wǎng)絡(luò)采用Adam優(yōu)化器調(diào)整模型中的權(quán)值,學(xué)習(xí)速率設(shè)置為1e-4,且每200 k次迭代學(xué)習(xí)速率減半。

圖 3 DispNet網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 The structure of DispNet

圖選項(xiàng)


1.4 遷移學(xué)習(xí)

遷移學(xué)習(xí)(transfer learning)[21]是一種將從源數(shù)據(jù)集學(xué)習(xí)的模型應(yīng)用于新的目標(biāo)數(shù)據(jù)集的策略。如果已有模型能夠直接應(yīng)用于目標(biāo)數(shù)據(jù)集上,將避免大量工作,特別是在目標(biāo)集樣本不充足的情況下。遷移學(xué)習(xí)可分為直推式遷移和模型微調(diào)(fine-tuning)。

直推式遷移學(xué)習(xí)使用源數(shù)據(jù)集的訓(xùn)練模型,在不進(jìn)行任何參數(shù)調(diào)整的情況下,直接對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行預(yù)測(cè)。該方法要求模型本身具有良好的泛化能力,且要求源任務(wù)和目標(biāo)任務(wù)是同一類(lèi)問(wèn)題。

利用少量目標(biāo)數(shù)據(jù)集樣本進(jìn)行模型微調(diào)是另一種常見(jiàn)的遷移學(xué)習(xí)模式。將預(yù)訓(xùn)練模型的參數(shù)作為初值,用目標(biāo)數(shù)據(jù)集的樣本進(jìn)行精調(diào)整,以減少新模型訓(xùn)練需要的迭代次數(shù),并彌補(bǔ)樣本量不足帶來(lái)的弊端。

參數(shù)遷移可分為兩種:一種是微調(diào)所有層的參數(shù);另一種是僅調(diào)整最后幾層,并凍結(jié)具有普遍性和重用性底層特征。由于本文涉及的網(wǎng)絡(luò)層數(shù)較淺,統(tǒng)一采用前一種方式。

圖 4 參數(shù)遷移Fig. 4 Parameter transfer

圖選項(xiàng)


2 數(shù)據(jù)集

為全面評(píng)價(jià)深度學(xué)習(xí)方法在航空遙感立體像對(duì)密集匹配中的性能,本文試驗(yàn)中共采用5套數(shù)據(jù)集,其中KITTI、Driving是開(kāi)源的近景數(shù)據(jù)集,Hangzhou、München、Vaihingen 3套是采集自無(wú)人機(jī)平臺(tái)和傳統(tǒng)航攝平臺(tái)的完整航空遙感數(shù)據(jù)集。

2.1 KITTI數(shù)據(jù)集

KITTI街景數(shù)據(jù)集[22]采集自汽車(chē)車(chē)頂上安裝的兩個(gè)高分辨率立體相機(jī)。真實(shí)深度值是由一個(gè)旋轉(zhuǎn)激光掃描儀記錄所得,點(diǎn)云密度約為影像像素的30%。KITTI數(shù)據(jù)集包括KITTI2012和KITTI2015。KITTI2012數(shù)據(jù)集為灰度核線影像,平均大小為1240×376像素,包含194對(duì)訓(xùn)練圖像和195對(duì)測(cè)試圖像。KITTI2015數(shù)據(jù)集包含灰度影像和彩色影像,平均大小為1242×375像素;包括200對(duì)訓(xùn)練圖像和200對(duì)測(cè)試圖像。KITTI數(shù)據(jù)集只提供訓(xùn)練集的真實(shí)深度圖參考,因此,本文將訓(xùn)練集中的80%作為訓(xùn)練集,剩余20%作為測(cè)試集以統(tǒng)計(jì)精度。這也是其他文獻(xiàn)通行的方法。

2.2 Driving數(shù)據(jù)集

Driving數(shù)據(jù)集[23]是一套虛擬的街景影像集。它是由一個(gè)汽車(chē)模型動(dòng)態(tài)行駛在虛擬街景模型中,每一幀獲取一對(duì)立體像對(duì)。Driving數(shù)據(jù)集提供多種參數(shù)設(shè)置下的共超過(guò)4000對(duì)數(shù)據(jù),并提供密集的真實(shí)視差圖。其數(shù)據(jù)量比現(xiàn)有的其他數(shù)據(jù)集多幾個(gè)數(shù)量級(jí),有效促進(jìn)了大型卷積神經(jīng)元網(wǎng)絡(luò)的訓(xùn)練。Driving數(shù)據(jù)集中的左右像對(duì)為核線影像,影像大小固定為960×540。本文試驗(yàn)中選取了300對(duì)數(shù)據(jù),其中80%作為測(cè)試集,其余20%作為測(cè)試集。

2.3 Hangzhou數(shù)據(jù)集

Hangzhou數(shù)據(jù)集由無(wú)人機(jī)采集。無(wú)人機(jī)在距地面約640 m的低空拍攝,記錄了2017年8月杭州附近山村地區(qū)的場(chǎng)景。包括4條航帶20張9000×6732像素的像片,具有80%的航向重疊度和60%的旁向重疊度。影像中包括高速公路、低矮房屋、工業(yè)廠房、裸露田地、樹(shù)林,以及裸露山體等地物類(lèi)型。由LiDAR獲得的該地區(qū)的激光點(diǎn)云作為地面真實(shí)深度值。

本文在空中三角測(cè)量解算后,將原始影像兩兩糾正為核線影像,并由激光點(diǎn)云得到對(duì)應(yīng)每個(gè)同名像素點(diǎn)的視差值。受計(jì)算機(jī)顯卡容量的限制,原始大小的航空影像不能直接用于訓(xùn)練,因此將核線影像裁剪為1325×354像素的子圖像。通過(guò)手工挑選的方式去除一部分山區(qū)不理想的影像對(duì)(主要是LiDAR點(diǎn)云誤差),剩余的328對(duì)影像作為訓(xùn)練集,40對(duì)作為測(cè)試集。

2.4 München與Vaihingen數(shù)據(jù)集

München數(shù)據(jù)集和Vaihingen數(shù)據(jù)集采集自航攝飛機(jī)拍攝的標(biāo)準(zhǔn)航空遙感影像。兩套影像均為德國(guó)地區(qū)的場(chǎng)景。其中München包含3條航帶15張14 114×15 552像素的航空影像,具有80%的航向重疊度和80%的旁向重疊度。影像中的主要地物類(lèi)型為城市建筑、道路、綠化帶等。Vaihingen為3條航帶36張鄉(xiāng)村影像,大小為9420×14 430像素;航向重疊度60%,旁向重疊度60%。影像中的地物多為平坦的種植區(qū),其余為密集低矮的房屋以及樹(shù)林、河流等。兩套數(shù)據(jù)分辨率高,地物清晰,分別作為城市和鄉(xiāng)村的典型,具有較強(qiáng)的代表性。

兩套數(shù)據(jù)中,作為參考的地面高程信息以半密集的DSM形式提供。該DSM由7種商業(yè)軟件生成,取中值作為最終深度值,目視精度較高。

與Hangzhou數(shù)據(jù)處理過(guò)程類(lèi)似,將糾正后的核線影像分別裁剪為1150×435像素和955×360像素大小的子圖像。經(jīng)篩選后,最終得到由540對(duì)影像構(gòu)成的München數(shù)據(jù)集以及由740對(duì)影像構(gòu)成的Vaihingen數(shù)據(jù)集。訓(xùn)練集和測(cè)試集的比例設(shè)置為4:1。

3 試驗(yàn)與結(jié)果分析

為全面評(píng)價(jià)深度學(xué)習(xí)在航空遙感影像中的性能和泛化能力,本文設(shè)計(jì)了兩類(lèi)試驗(yàn)。第1類(lèi)是利用3套航空數(shù)據(jù)集Hangzhou、München、Vaihingen測(cè)試各種深度學(xué)習(xí)方法的性能,并與經(jīng)典的SGM和主流攝影測(cè)量軟件SURE作對(duì)比。第2類(lèi)是測(cè)試深度學(xué)習(xí)模型的泛化性能。包括將計(jì)算機(jī)視覺(jué)標(biāo)準(zhǔn)測(cè)試集上訓(xùn)練的模型直接應(yīng)用于航空影像,以及測(cè)試基于目標(biāo)集小樣本訓(xùn)練的遷移學(xué)習(xí)。

所有試驗(yàn)均以訓(xùn)練后的網(wǎng)絡(luò)模型在測(cè)試集上的結(jié)果作為評(píng)價(jià)依據(jù)。本文采用三像素誤差(three-pixel-error,3PE)和一像素誤差(one-pixel-error,1PE)作為評(píng)價(jià)標(biāo)準(zhǔn)。如3PE指點(diǎn)位誤差小于3個(gè)像素的個(gè)數(shù)占所有像素的百分比。

所有的深度學(xué)習(xí)算法均在Linux系統(tǒng)下實(shí)現(xiàn)。其中MC-CNN在深度學(xué)習(xí)框架torch下實(shí)現(xiàn),采用Lua語(yǔ)言編寫(xiě)核心代碼。GC-Net模型和DispNet模型分別在Keras和Tensorflow下實(shí)現(xiàn),采用Python作為主要語(yǔ)言。所有模型的訓(xùn)練和測(cè)試均在NVIDIA Titan Xp 12 G GPU上運(yùn)行。

3.1 深度學(xué)習(xí)方法與傳統(tǒng)方法的比較

試驗(yàn)評(píng)估了3種網(wǎng)絡(luò)模型MC-CNN、GC-Net、DispNet在密集匹配上的表現(xiàn),并與SGM、商業(yè)軟件SURE比較。各種方法/軟件的設(shè)定如下:

(1) MC-CNN:MC-CNN的訓(xùn)練輸入是以匹配點(diǎn)為中心的9×9窗口。在訓(xùn)練階段,模型每次輸入128對(duì)正負(fù)樣本,采用小批量梯度下降法最小化損失,動(dòng)量設(shè)置為0.9。所有數(shù)據(jù)迭代14次,學(xué)習(xí)速率設(shè)置為0.002。第11次迭代后,學(xué)習(xí)速率調(diào)整至0.000 2。預(yù)測(cè)階段,輸入一對(duì)核線立體像對(duì),輸出相似性分?jǐn)?shù),通過(guò)一系列后處理過(guò)程得到最終的視差圖。

(2) GC-Net:訓(xùn)練輸入為整幅核線像對(duì)及對(duì)應(yīng)的視差圖。GC-Net在稀疏的視差圖上訓(xùn)練效果較差,因此只在3套密集型的數(shù)據(jù)集上訓(xùn)練模型(不能處理的數(shù)據(jù)集在表 1中統(tǒng)一以“—”表示)。輸入數(shù)據(jù)的批量大小設(shè)置為1,所有數(shù)據(jù)迭代50次,學(xué)習(xí)速率設(shè)置為0.001。測(cè)試階段直接輸出視差圖及精度。

表 1 傳統(tǒng)方法和深度學(xué)習(xí)方法的密集匹配結(jié)果比較Tab. 1 Comparison of dense matching results between traditional and deep learning methods

methods精度(3PE/1PE)
KITTI2015DrivingHangzhouMünchenVaihingen
MC-CNN0.960/0.7780.953/0.8160.965/0.8670.992/0.932
GC-Net0.926/0.8570.984/0.9530.997/0.980
DispNet0.937/0.7370.835/0.5470.923/0.5910.883/0.5320.950/0.710
SGM0.893/0.7320.713/0.5050.896/0.7390.921/0.8590.987/0.925
SURE0.968/0.8310.932/0.8790.990/0.969

表選項(xiàng)

(3) DispNet:整幅核線影像對(duì)作為輸入。批量大小設(shè)置為32。所有數(shù)據(jù)迭代1500次,學(xué)習(xí)速率設(shè)置為0.000 1,并在訓(xùn)練過(guò)程中逐漸下降。輸出視差圖及精度。

(4) SGM:采用Opencv3.0庫(kù)中自帶函數(shù),并附加高斯平滑、中值濾波等后處理過(guò)程。以批處理的方式對(duì)每一套測(cè)試集進(jìn)行處理,由生成的視差圖和真實(shí)視差圖比較計(jì)算點(diǎn)位誤差并統(tǒng)計(jì)精度。

(5) SURE:作為商業(yè)軟件,輸入為所有原始影像及外方位元素信息,輸出為OSGB格式的三維模型。因此只在3套航空影像數(shù)據(jù)集上進(jìn)行試驗(yàn)。該軟件輸出的三維模型反映的是地物點(diǎn)的真實(shí)坐標(biāo),為了參與精度評(píng)定,由三維坐標(biāo)計(jì)算每個(gè)點(diǎn)在核線影像上對(duì)應(yīng)的視差值,并與真實(shí)視差值比較。

傳統(tǒng)方法和深度學(xué)習(xí)方法在5套數(shù)據(jù)集上的表現(xiàn)見(jiàn)表 1。

從表 1可見(jiàn),第1,在3種深度學(xué)習(xí)方法中,端到端的GC-Net模型表現(xiàn)最好。在3套數(shù)據(jù)集上均優(yōu)于其他方法,在地勢(shì)平坦的Vaihingen數(shù)據(jù)集上精度達(dá)到99.7%(98.0%)。在地物高差變化較大的München數(shù)據(jù)集上,3PE比第2名的MC-CNN模型高2%左右,1PE高出近9%。在效果較差的Driving數(shù)據(jù)集上,92.6%的測(cè)試精度遠(yuǎn)超其他方法。

第2,MC-CNN模型表現(xiàn)良好且穩(wěn)定,在各套數(shù)據(jù)集上的精度均遠(yuǎn)超SGM,在KITTI2015和Hangzhou數(shù)據(jù)集上優(yōu)勢(shì)最明顯。在München和Vaihingen兩套航空影像數(shù)據(jù)集上,與基于多視匹配的SURE相當(dāng)。在Hangzhou數(shù)據(jù)集上稍遜色于SURE。

第3,DispNet模型在遙感影像數(shù)據(jù)集上表現(xiàn)最差,甚至弱于SGM。DispNet網(wǎng)絡(luò)結(jié)構(gòu)屬于通用架構(gòu),而非專(zhuān)門(mén)為立體匹配設(shè)計(jì)。在1PE標(biāo)準(zhǔn)上較差的結(jié)果反映了通用模型架構(gòu)在密集匹配任務(wù)上的局限性。

第4,GC-Net在所有方法中表現(xiàn)最優(yōu);MC-CNN與基于多視匹配的商業(yè)軟件SURE相當(dāng),且遠(yuǎn)優(yōu)于SGM;DispNet表現(xiàn)最差。本文預(yù)測(cè):若在GC-Net或MC-CNN中加入多視約束,基于深度學(xué)習(xí)的方法將可能明顯超越傳統(tǒng)方法。

圖 5分別展示了兩種深度學(xué)習(xí)方法和一種傳統(tǒng)方法在3套航空影像數(shù)據(jù)集上的預(yù)測(cè)視差圖。從上到下分別是立體像對(duì)的左圖、右圖、參考深度圖、MC-CNN、GC-Net、SGM方法的預(yù)測(cè)結(jié)果??梢?jiàn)GC-Net表現(xiàn)最為優(yōu)秀,與參考圖最為相似;而傳統(tǒng)方法SGM效果略差。

圖 5 3種方法在3套數(shù)據(jù)集上的預(yù)測(cè)視差圖Fig. 5 Disparity maps of 3 methods used on the 3 data sets

圖選項(xiàng)

圖 6是由4種方法的視差圖恢復(fù)得到的三維立體場(chǎng)景。從上到下分別是左圖、參考三維場(chǎng)景、MC-CNN、GC-Net、SGM和SURE的預(yù)測(cè)結(jié)果。由圖 6可見(jiàn),SURE在Hangzhou數(shù)據(jù)集上有一定的扭曲,其他方法則表現(xiàn)相對(duì)較好。在München數(shù)據(jù)集上,各種方法均較為接近參考三維場(chǎng)景,但SURE的側(cè)面紋理更加細(xì)致。在地勢(shì)平坦的Vaihingen數(shù)據(jù)集上,所有方法都達(dá)到了很好的水平。

圖 6 由4種方法的密集視差圖恢復(fù)出的三維場(chǎng)景Fig. 6 3D scenes recovered from disparity maps of 4 methods

圖選項(xiàng)


3.2 遷移學(xué)習(xí)

3.2.1 直接遷移學(xué)習(xí)

直接遷移學(xué)習(xí)是將預(yù)訓(xùn)練得到的模型,直接應(yīng)用于目標(biāo)數(shù)據(jù)集的預(yù)測(cè)。表 2是基于MC-CNN的預(yù)訓(xùn)練模型在目標(biāo)集上的測(cè)試結(jié)果。訓(xùn)練集表示用于模型訓(xùn)練的源數(shù)據(jù)集,測(cè)試集表示目標(biāo)數(shù)據(jù)集。例如,對(duì)于Hangzhou目標(biāo)數(shù)據(jù)集,若用自身作為源數(shù)據(jù)集訓(xùn)練,其精度為95.3%(加粗的對(duì)角線元素);若采用KITTI2012作為源數(shù)據(jù)集,則其精度為94.4%。

表 2 MC-CNN的訓(xùn)練模型在目標(biāo)集上的直接測(cè)試結(jié)果Tab. 2 Test accuracy of MC-CNN model on target datasets

測(cè)試集精度(3PE/1PE)
訓(xùn)練集
KITTI2012KITTI2015HangzhouMünchenVaihingen
KITTI20120.963/0.8660.957/0.8480.941/0.8560.945/0.7970.946/0.813
KITTI20150.958/0.7680.960/0.7780.951/0.7610.955/0.7510.953/0.750
Hangzhou0.944/0.8080.942/0.8050.953/0.8160.948/0.7700.940/0.760
München0.960/0.8540.960/0.8510.960/0.8440.965/0.8670.959/0.850
Vaihingen0.988/0.9190.987/0.9120.987/0.9160.989/0.9220.992/0.932

表選項(xiàng)

試驗(yàn)的測(cè)試精度同樣由3PE和1PE評(píng)價(jià)??傮w而言,基于MC-CNN的深度學(xué)習(xí)方法具有良好的泛化能力,3PE標(biāo)準(zhǔn)上其模型退化程度(即采用其他數(shù)據(jù)源進(jìn)行訓(xùn)練導(dǎo)致的精度降低)為0.2%~2.2%,在1PE標(biāo)準(zhǔn)上為0.8%~5.6%。即使用預(yù)訓(xùn)練的模型直接預(yù)測(cè)而不進(jìn)行任何新的學(xué)習(xí),MC-CNN依然遠(yuǎn)超SGM,并與SURE軟件幾乎相當(dāng)。

表 3是基于GC-Net直接遷移學(xué)習(xí)的結(jié)果。由于只有Driving、München、Vaihingen 3套數(shù)據(jù)具有密集的深度圖標(biāo)簽,因此將這3套數(shù)據(jù)作為源數(shù)據(jù)集訓(xùn)練模型。其數(shù)據(jù)的表示方法與表 2相同。

表 3 基于GC-Net的訓(xùn)練模型在目標(biāo)集上的測(cè)試結(jié)果Tab. 3 Test accuracy of GC-Net model on target dataset

測(cè)試集精度(3PE/1PE)
訓(xùn)練集
DrivingMünchenVaihingen
Driving0.926/0.8570.895/0.8080.895/0.793
München0.969/0.8930.984/0.9530.964/0.922
Vaihingen0.980/0.8810.979/0.9430.997/0.980
KITTI20150.934/0.7390.881/0.7050.942/0.743
Hangzhou0.911/0.7790.940/0.7990.949/0.841

表選項(xiàng)

GC-Net同樣具有很強(qiáng)的泛化能力,但稍弱于MC-CNN。遷移學(xué)習(xí)時(shí),3PE標(biāo)準(zhǔn)下模型退化程度約為1.5%~3%(1PE標(biāo)準(zhǔn)下為3.1%~9.9%)。測(cè)試精度平均下降2%,而MC-CNN只有0.6%。這是可以預(yù)料的,因?yàn)镸C-CNN只用來(lái)學(xué)習(xí)更底層的相似測(cè)度。

3.2.2 參數(shù)微調(diào)

在目標(biāo)集含有少量樣本的前提下,可以采用第2種遷移學(xué)習(xí)策略:以預(yù)訓(xùn)練模型作為初值,利用目標(biāo)樣本進(jìn)一步微調(diào)。

表 4和表 5分別為基于MC-CNN方法和基于GC-Net方法的參數(shù)微調(diào)結(jié)果?!澳繕?biāo)訓(xùn)練集”表示參與訓(xùn)練的目標(biāo)集樣本數(shù)量,DT方法表示直接在目標(biāo)集上的訓(xùn)練,模型參數(shù)隨機(jī)初始化;TL方法表示參數(shù)遷移學(xué)習(xí)并微調(diào)?!跋鄬?duì)提升”是在同樣大小的訓(xùn)練集下,TL相對(duì)于DL的精度提高。在表 4中,KITTI2015為源數(shù)據(jù)集,預(yù)訓(xùn)練了MC-CNN模型,Hangzhou為目標(biāo)集;在表 5中,Vaihingen為源數(shù)據(jù)集,預(yù)訓(xùn)練了GC-Net模型,München為目標(biāo)集。

表 4 MC-CNN方法在不同數(shù)量訓(xùn)練樣本下的預(yù)測(cè)結(jié)果Tab. 4 Prediction results on different number of training samples using MC-CNN method

數(shù)據(jù)集大小/對(duì)2550100200300
方法DTTLDTTLDTTLDTTLDTTL
3PE0.9430.9490.9440.9480.9460.9480.9510.9520.9520.953
相對(duì)提升/(%)0.500.370.140.120.11

表選項(xiàng)

表 5 GC-Net方法在不同數(shù)量訓(xùn)練樣本的預(yù)測(cè)結(jié)果Tab. 5 Prediction results on different number of training samples using GC-Net method

數(shù)據(jù)集大小/對(duì)2550100200250
方法DTTLDTTLDTTLDTTLDTTL
3PE0.7830.9650.9020.9470.9280.9610.9590.9770.9720.978
相對(duì)提升/(%)18.14.53.21.80.6

表選項(xiàng)

表 4中,當(dāng)用25對(duì)訓(xùn)練集直接訓(xùn)練模型時(shí),可達(dá)到94.4%的精度;樣本量增加一倍時(shí),測(cè)試精度提高0.09%左右??梢?jiàn),MC-CNN方法對(duì)訓(xùn)練樣本的數(shù)量要求不高,少量樣本的微調(diào)也能得到較好的訓(xùn)練模型。當(dāng)采用遷移學(xué)習(xí)策略時(shí),25對(duì)訓(xùn)練樣本可達(dá)到94.9%的精度,相比于隨機(jī)初值的直接訓(xùn)練,具有0.5%的優(yōu)勢(shì)。

在表 5的GC-Net方法中,只用25對(duì)訓(xùn)練樣本時(shí),直接訓(xùn)練模型(DT)僅有78.3%的測(cè)試精度;樣本量增加一倍時(shí),測(cè)試精度達(dá)到90.2%,提高11.9%。當(dāng)樣本量逐漸增加,最終達(dá)到97.2%??梢?jiàn),相比于MC-CNN,端到端的GC-Net需要更多的訓(xùn)練樣本。而采用遷移學(xué)習(xí)并微調(diào)的策略(TL),25對(duì)訓(xùn)練樣本即可達(dá)到96.5%的精度。

從以上統(tǒng)計(jì)結(jié)果可見(jiàn),遷移學(xué)習(xí)并微調(diào)對(duì)于模型精度的提高提供了較好的幫助。樣本量越少,遷移學(xué)習(xí)的作用越大。同時(shí)在試驗(yàn)中發(fā)現(xiàn),遷移學(xué)習(xí)不僅能提高精度,還可以減少在目標(biāo)集上訓(xùn)練新模型的迭代次數(shù),以更短的時(shí)間得到更優(yōu)的結(jié)果。因此,本文建議:在基于深度學(xué)習(xí)的密集匹配中,盡量以訓(xùn)練好的模型作為目標(biāo)數(shù)據(jù)集的初值,以得到效率和精度上的提升。

4 結(jié)論

本文將深度學(xué)習(xí)方法引入到航空影像的密集匹配中,在多個(gè)數(shù)據(jù)集上與傳統(tǒng)方法做了詳細(xì)的比較,并分析了深度學(xué)習(xí)的泛化能力。首先,驗(yàn)證了深度學(xué)習(xí)方法與商業(yè)軟件SURE相比略有優(yōu)勢(shì),且遠(yuǎn)遠(yuǎn)好于SGM。其次,在深度學(xué)習(xí)方法中,GC-Net作為端到端的方法,取得了最好的效果,只學(xué)習(xí)相似性測(cè)度的MC-CNN次之。最后,測(cè)試了深度學(xué)習(xí)在立體密集匹配中的泛化能力并發(fā)現(xiàn):MC-CNN和GC-Net具有較強(qiáng)的泛化能力,在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)上訓(xùn)練的模型,可直接用于航空數(shù)據(jù)集,且3PE精度下降并不明顯,尤其以MC-CNN表現(xiàn)最佳。這種泛化能力來(lái)自圖像匹配只依賴(lài)于底層特征,而這些特征無(wú)論在近景、航空甚至模擬場(chǎng)景都是通用的。此外,通過(guò)遷移學(xué)習(xí)和參數(shù)微調(diào),深度學(xué)習(xí)方法可實(shí)現(xiàn)效率和性能的同時(shí)提升。

【引文格式】 劉瑾, 季順平. 基于深度學(xué)習(xí)的航空遙感影像密集匹配. 測(cè)繪學(xué)報(bào),2019,48(9):1141-1150. DOI: 10.11947/j.AGCS.2019.20180247

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多

    夫妻性生活动态图视频| 日本深夜福利在线播放| 99久久国产综合精品二区| 欧美色欧美亚洲日在线| 亚洲欧美国产中文色妇| 操白丝女孩在线观看免费高清| 九九九热在线免费视频| 超薄丝袜足一区二区三区| 好吊日成人免费视频公开 | 91精品国产综合久久不卡| 中文字幕乱码一区二区三区四区| 色涩一区二区三区四区| 三级高清有码在线观看| 熟女少妇久久一区二区三区| 国产真人无遮挡免费视频一区| 亚洲香艳网久久五月婷婷| 一区二区三区18禁看| 99久久精品免费精品国产| 激情图日韩精品中文字幕| 日韩国产亚洲一区二区三区| 欧美精品女同一区二区| 少妇视频一区二区三区| 国产精品视频一区麻豆专区| 我要看日本黄色小视频| 久久精品中文字幕人妻中文| 色婷婷视频在线精品免费观看| 欧美日韩综合综合久久久| 在线免费不卡亚洲国产| 青青免费操手机在线视频| 国产不卡在线免费观看视频| 欧美大黄片在线免费观看| 99热九九在线中文字幕| 亚洲av一区二区三区精品| 在线视频三区日本精品| 欧美多人疯狂性战派对| 国产精品十八禁亚洲黄污免费观看| 青青操成人免费在线视频| 国产伦精品一区二区三区高清版| 欧美尤物在线观看西比尔| 亚洲精品国产精品日韩| 精品日韩欧美一区久久|