(更多精彩請留意文末推薦) 攝影測量與深度學(xué)習(xí) 龔健雅 , 季順平 武漢大學(xué)遙感信息工程學(xué)院, 湖北 武漢 430079 收稿日期:2017-11-30;修回日期:2018-03-28 基金項(xiàng)目:國家自然科學(xué)基金 第一作者簡介:龔健雅, 男, 博士, 教授, 中國科學(xué)院院士, 長期從事地理信息理論和幾何遙感基礎(chǔ)研究。 E-mail:gongjy@whu.edu.cn 通信作者:季順平 E-mail: jishunping@whu.edu.cn 摘要:深度學(xué)習(xí)正逐漸占領(lǐng)與“學(xué)習(xí)”相關(guān)的諸多研究領(lǐng)域,也對攝影測量這門學(xué)科造成沖擊和促進(jìn)。根據(jù)攝影測量學(xué)的定義:“利用光學(xué)像片研究被攝物體的形狀、位置、大小、特性及相互位置關(guān)系”,其研究對象包括幾何與語義。本文從這兩個(gè)方面回顧和探討深度學(xué)習(xí)目前的應(yīng)用現(xiàn)狀,并對其影響下的攝影測量的發(fā)展進(jìn)行展望。在幾何上,基于卷積神經(jīng)元網(wǎng)絡(luò)的學(xué)習(xí)架構(gòu)已經(jīng)廣泛用于圖像匹配、SLAM及三維重建,取得了較好的效果,但仍需進(jìn)一步改進(jìn)。在語義上,由于傳統(tǒng)的手工設(shè)計(jì)方法未能將語義信息以工程化的形式確定并生成類似4D產(chǎn)品的各類語義“專題圖”,語義部分長期受到忽視。深度學(xué)習(xí)強(qiáng)大的泛化能力、對任意函數(shù)的擬合能力及極高的穩(wěn)定性,正使得專題圖的自動(dòng)制作成為可能。筆者通過道路網(wǎng)、建筑物、作物分類等應(yīng)用實(shí)例,回顧已經(jīng)取得的研究成果,并預(yù)計(jì):利用光學(xué)像片生成高精度的語義專題圖,在不遠(yuǎn)的未來即將實(shí)現(xiàn);并可能成為攝影測量的一類標(biāo)準(zhǔn)產(chǎn)品。最后,針對幾何和語義,分別介紹了筆者的兩個(gè)相關(guān)研究:基于深度學(xué)習(xí)的航空圖像匹配以及基于3D卷積神經(jīng)元網(wǎng)絡(luò)的精細(xì)農(nóng)作物分類專題圖自動(dòng)提取。 關(guān)鍵詞:深度學(xué)習(xí) 卷積神經(jīng)元網(wǎng)絡(luò) 攝影測量 立體匹配 專題圖 Photogrammetry and Deep Learning GONG Jianya , JI Shunping Abstract: Deep learning has become popular and the mainstream in types of researches related to learning, and has shown its impact on photogrammetry.According to the definition of photogrammetry, a subject that researches shapes, locations, sizes, characteristics and inter-relationships of real objects from optical images, photogrammetry considers two aspects, geometry and semantics.From the two aspects, we review the history of deep learning and discuss its current applications on photogrammetry, and forecast the future development of photogrammetry.In geometry, the deep convolutional neural network (CNN) has been widely applied in stereo matching, SLAM and 3D reconstruction, and has made some effect but needs more improvement.In semantics, conventional empirical and handcrafted methods have failed to extract the semantic information accurately and failed to produce types of 'semantic thematic map' as 4D productions (DEM, DOM, DLG, DRG) of photogrammetry, which causes the semantic part of photogrammetry be ignored for a long time.The powerful generalization capacity, ability to fit any functions and stability under types of situations of deep leaning is making the automated production of thematic maps possible.We review the achievements that have been obtained in road network extraction, building detection and crop classification, etc., and forecast that producing high-accuracy semantic thematic maps directly from optical images will become reality and these maps will become a type of standard products of photogrammetry.At last, we introduce two current researches related to geometry and semantics respectively.One is stereo matching of aerial images based on deep learning and transfer learning; the other is fine crop classification from satellite special-temporal images based on 3D CNN. Key words: deep learning convolutional neural network photogrammetry stereo matching thematic map 1 簡介 1.1 攝影測量學(xué)回顧 攝影測量學(xué)是一門“利用光學(xué)像片研究被攝物體的形狀、位置、大小、特性及相互位置關(guān)系”的學(xué)科。攝影測量誕生于19世紀(jì)早期。1838年,物理學(xué)家惠斯頓發(fā)明了實(shí)體鏡,第一次發(fā)現(xiàn)和定義了立體視覺。1839年,法國畫家達(dá)蓋爾發(fā)明了銀版攝影法,并制作了世界上第一臺真正的照相機(jī)。在此基礎(chǔ)上,法國測量學(xué)家Fourcade首先發(fā)現(xiàn)了用立體照片可重建立體視覺,從而促成了攝影測量學(xué)的誕生[1]。攝影測量的第一個(gè)也是最重要的分支是航空攝影測量。1783年,西方的Montgolfier兄弟發(fā)明熱氣球,并第一次載人航行。1858年,法國攝影師納達(dá)爾乘坐氣球拍攝了世界上第一張航空影像。1903,萊特兄弟發(fā)明世界上第一架螺旋槳飛機(jī)。這些飛行技術(shù)的發(fā)展促成了能夠大范圍測圖的航空攝影測量。而此前,人們只能利用大地測量技術(shù)進(jìn)行測圖。例如著名的數(shù)學(xué)家高斯繪制漢諾威公國的地圖就花了30年。 20世紀(jì)開始后,物理和電子技術(shù)的進(jìn)步持續(xù)推動(dòng)著攝影測量的發(fā)展。1957年,第一顆衛(wèi)星被發(fā)射到外太空,開啟了衛(wèi)星攝影測量與遙感研究領(lǐng)域。1960年開始,迅猛發(fā)展的計(jì)算機(jī)以及專業(yè)的解析測圖儀使攝影測量進(jìn)入解析攝影測量時(shí)代。光線的重現(xiàn)和交會不再依賴于此前的光學(xué)模擬儀器(60年代之前也因此稱為模擬攝影測量時(shí)代),而是以虛擬形式在計(jì)算機(jī)中實(shí)現(xiàn)。根據(jù)愛因斯坦的光量子假說和光電效應(yīng),1973年貝爾實(shí)驗(yàn)室的博伊爾和史密斯發(fā)明了電荷耦合器件(charge coupled device,CCD)[2],促成數(shù)碼相機(jī)和數(shù)字?jǐn)z影測量時(shí)代的誕生。90年代末,無人機(jī)航攝逐漸興起,其便捷、廉價(jià)的特性,是傳統(tǒng)航攝的有益補(bǔ)充。2000年前后,各國陸續(xù)開始深空探測項(xiàng)目,比如中國的嫦娥登月和美國的火星探測。此外,地面測量、地下測量、水下測量、彈道測量、工業(yè)測量等也是攝影測量常見的應(yīng)用研究領(lǐng)域。 在研究內(nèi)容上,攝影測量以二維像片和被攝三維物體的幾何關(guān)系為主流方向。在理論方法上,沿用笛卡兒開辟的解析幾何,用代數(shù)方程表達(dá)二維或三維笛卡兒坐標(biāo)系中所描繪的幾何圖形。如像點(diǎn)、物點(diǎn)、投影中心三點(diǎn)共線由共線條件方程表達(dá);攝影基線、同名光線共面由核線方程表達(dá)。在模型解算上,由于測量中觀測值固有的誤差特性,以誤差處理理論為指導(dǎo)。代表性理論是1795年高斯發(fā)明的最小二乘法和1959年德國的Schmid提出光束法區(qū)域網(wǎng)平差。此外,由于重建幾何關(guān)系需要提取像片上的同名點(diǎn),一些圖像處理的內(nèi)容也因此成為攝影測量的研究領(lǐng)域。20世紀(jì)后期,攝影測量學(xué)者提出了相關(guān)系數(shù)匹配、最小二乘匹配等經(jīng)典立體匹配方法,21世紀(jì)開始,同樣關(guān)注3D幾何重建的計(jì)算機(jī)視覺也更加豐富了匹配方法。 雖然基于光學(xué)像片的2D/3D幾何關(guān)系是攝影測量的主流,但根據(jù)攝影測量的定義,“物體的特性及其相互關(guān)系”,即語義部分也屬于攝影測量學(xué)的研究內(nèi)容。語義被忽略既有歷史的原因也有技術(shù)上的困難。首先,從20世紀(jì)70年代開始,隨著衛(wèi)星成像技術(shù)的發(fā)展,攝影測量被擴(kuò)展為攝影測量與遙感,圖像解譯任務(wù)因之成為遙感的課題。其次,攝影測量作為應(yīng)用工程學(xué)科,需要為測繪等領(lǐng)域提供相當(dāng)精度的各類地形圖和專題圖。然而,傳統(tǒng)計(jì)算機(jī)分類和模式識別的方法難以達(dá)到所謂的“攝影測量精度(photogrammetric accuracy)”,而通常采用半自動(dòng)或全人工判讀法,所以研究進(jìn)展緩慢。幸運(yùn)的是,以深度學(xué)習(xí)為主流的人工智能方法開辟了關(guān)于“學(xué)習(xí)”的新航道,并把精度提高到前所未及的高度。例如,將恰當(dāng)?shù)纳疃壬窠?jīng)元網(wǎng)絡(luò)架構(gòu)應(yīng)用于航空圖像的道路、建筑、水體等地物的自動(dòng)提取,并實(shí)現(xiàn)高精度語義專題圖,將為攝影測量學(xué)在語義方向的拓展提供新的契機(jī),這也是本文的一個(gè)中心議題。 1.2 深度學(xué)習(xí)的歷史 深度學(xué)習(xí)起源于20世紀(jì)中葉的人工智能。人工智能的兩個(gè)主要流派分別是符號主義(symbolism)和聯(lián)結(jié)主義(connectionism)。其中,符號主義者在1956年首次提出“人工智能”的概念,并統(tǒng)治了該領(lǐng)域近半個(gè)世紀(jì);基于統(tǒng)計(jì)學(xué)習(xí)的思想被廣泛應(yīng)用于機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺,以及攝影測量與遙感。與此對應(yīng),聯(lián)結(jié)主義起伏不定,經(jīng)歷了低谷,也經(jīng)歷了3次發(fā)展浪潮:20世紀(jì)40年代到60年代的控制論[3]、80年代到90年代的聯(lián)結(jié)主義[4]及2006年之后的“深度學(xué)習(xí)”[5]。 在控制論時(shí)期,聯(lián)結(jié)主義的代表性名詞是“人工神經(jīng)元網(wǎng)絡(luò)”。事實(shí)上,當(dāng)時(shí)這只是一個(gè)單層的線性模型:根據(jù)輸入變量x、輸出函數(shù)f(x,w)與已知標(biāo)簽y的一一對應(yīng)關(guān)系,學(xué)習(xí)未知參量w。這種模型(又稱為單層感知機(jī))由于無法學(xué)習(xí)諸如XOR(異或)等非線性函數(shù),而受到以明斯基為首的符號主義流派的批評;并造成第一次人工神經(jīng)元網(wǎng)絡(luò)的衰退。 在20世紀(jì)80年代,聯(lián)結(jié)主義的概念被正式提出。當(dāng)時(shí)符號主義流派依然是主流,但他們也有自己的麻煩:符號推理模型難以解釋大腦神經(jīng)元的工作原理。而聯(lián)結(jié)主義者認(rèn)為,將大量的簡單計(jì)算單元連接在一起,就可以實(shí)現(xiàn)智能行為。并提出了“分布式表示”、“后向傳播算法(back propagation)”、“長短期記憶(long short-term memory,LSTM)”等對今天的深度學(xué)習(xí)異常重要的思想和概念。然而,到了20世紀(jì)90年代中期,基于神經(jīng)元網(wǎng)絡(luò)的人工智能研究無法滿足商業(yè)界的業(yè)務(wù)化需求,加上諸如SVM[6]等核方法,以及概率圖模型(probabilistic graphic model,PGM)的盛行[7],神經(jīng)元網(wǎng)絡(luò)再次衰退了。 2006年,Hinton的研究表明,采用一種逐層的貪心算法可實(shí)現(xiàn)深度神經(jīng)元網(wǎng)絡(luò)的訓(xùn)練[8]。而此前,訓(xùn)練一個(gè)多層神經(jīng)網(wǎng)絡(luò)被認(rèn)為是不現(xiàn)實(shí)的。深度學(xué)習(xí)的概念由此浮出水面,新旗幟是:現(xiàn)在已經(jīng)有能力訓(xùn)練一個(gè)深度網(wǎng)絡(luò),并且這個(gè)深度將贏得人工智能方法和實(shí)踐上的突破。2012年,在ImageNet挑戰(zhàn)賽中,深度學(xué)習(xí)的方法奪得第一,并一舉超過傳統(tǒng)機(jī)器學(xué)習(xí)方法10個(gè)百分點(diǎn)[9];而第二至第四名相差不超過1%,顯示了傳統(tǒng)方法的天花板。隨后的大量試驗(yàn)表明,無論在圖像分類、物體識別、語音識別、遙感應(yīng)用等關(guān)于學(xué)習(xí)和語義的研究領(lǐng)域,深度學(xué)習(xí)都占據(jù)上風(fēng)。 符號主義流派的空間在縮小,但基于概率圖模型[7]的方法也得到了廣泛應(yīng)用。此外,深度學(xué)習(xí)也有自身的缺陷。雖然理論上多層網(wǎng)絡(luò)確實(shí)可能學(xué)習(xí)出最優(yōu)的函數(shù)模型,但它無法解釋該模型如何構(gòu)建以及模型背后的含義,就像暗箱操作一樣。目前,有些學(xué)者試圖發(fā)現(xiàn)其背后的原理。如物理學(xué)者發(fā)現(xiàn)了量子力學(xué)中的重整化技術(shù)與深度學(xué)習(xí)能夠精確對應(yīng)[10],神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)家發(fā)現(xiàn)深度學(xué)習(xí)符合一種瓶頸理論[11],即把大量次要信息擠出去,而留下真正有效的信息。當(dāng)然,這些發(fā)現(xiàn)距離完整回答深度神經(jīng)元網(wǎng)絡(luò)如何學(xué)習(xí)仍處在初步階段。 1.3 攝影測量與深度學(xué)習(xí)及計(jì)算機(jī)視覺的聯(lián)系 除了自然語言處理(natural language processing,NLP)[12],深度學(xué)習(xí)的最重要應(yīng)用是在視覺圖像上,如手寫字體識別[13]、自然圖像分類[9]和檢索等。而攝影測量的研究對象就是視覺圖像,因此深度學(xué)習(xí)的成功和蓬勃發(fā)展,使得攝影測量也成為最受益的學(xué)科之一。 在幾何上,攝影測量中的研究內(nèi)容包括:傳感器的定位定姿、從2D像片重建3D幾何。將深度學(xué)習(xí)應(yīng)用于幾何定位目前還未進(jìn)入攝影測量研究領(lǐng)域,但已經(jīng)出現(xiàn)在密切相關(guān)的計(jì)算機(jī)視覺的分支中:運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(structure from motion,SfM),以及機(jī)器人學(xué)的分支;同時(shí)定位與地圖構(gòu)建(simultaneous localization and mapping,SLAM)。根據(jù)文獻(xiàn)[14],深度學(xué)習(xí)方法的定位精度目前尚不能同傳統(tǒng)的方法相比,相差約一個(gè)數(shù)量級。對于3D重建中的關(guān)鍵技術(shù)密集匹配,深度學(xué)習(xí)已經(jīng)取得很好的應(yīng)用效果。如在KITTI等標(biāo)準(zhǔn)數(shù)據(jù)集上[15],前10名的方法都是深度學(xué)習(xí)方法。不過,雖然SGM等經(jīng)典方法已經(jīng)落在30名開外,但是經(jīng)典方法是通用的,既可以用在自然圖像中,也可以用于航空、航天圖像。而深度學(xué)習(xí)方法則依賴于高精度、可靠的相似數(shù)據(jù)集。目前,完整的3D重建解決方案依然是經(jīng)典方法一統(tǒng)天下。 在語義上,攝影測量中的研究內(nèi)容就是采用智能方法為各行業(yè)提供專題圖。攝影測量的應(yīng)用特性使得它并不關(guān)心諸如特征描述、上下文關(guān)系等中間結(jié)果。這種端到端的模式(end-to-end)特別適用深度學(xué)習(xí)方法。目前,深度學(xué)習(xí)已經(jīng)被廣泛用于遙感圖像的分類、識別、檢索和提取。與在幾何方面的欠佳表現(xiàn)不同,在語義上基本全面碾壓了傳統(tǒng)的方法。 最后簡要討論攝影測量、深度學(xué)習(xí)及計(jì)算機(jī)視覺的關(guān)系。1982年,Marr發(fā)表《視覺:從計(jì)算的視角研究人的視覺信息表達(dá)與處理》,是計(jì)算機(jī)視覺的開山之作。計(jì)算機(jī)視覺的最初研究:用計(jì)算機(jī)代替人眼,從圖片中重建3D世界。與攝影測量在幾何方面具有很高的重疊度。20世紀(jì)90年代,在語義方面計(jì)算機(jī)視覺開始蓬勃開展。其中運(yùn)用了大量的機(jī)器學(xué)習(xí)知識。有學(xué)者分析指出機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺重疊度約在60%~70%,因此是非常緊密的兩門學(xué)科。隨著深度學(xué)習(xí)成為機(jī)器學(xué)習(xí)的主流,深度學(xué)習(xí)在計(jì)算機(jī)視覺中得到廣泛應(yīng)用。將深度學(xué)習(xí)引入到攝影測量中,特別是提高攝影測量后期語義處理的智能水平,是科學(xué)研究發(fā)展的必然途徑。 2 方法 2.1 深度學(xué)習(xí)基本原理 深度學(xué)習(xí)是“表示學(xué)習(xí)(representation learning)”[16]的一種。表示學(xué)習(xí)的最大特點(diǎn)是不需要設(shè)計(jì)人工特征。它指計(jì)算機(jī)根據(jù)一套通用規(guī)則自動(dòng)地學(xué)習(xí)出從輸入到輸出的最優(yōu)特征表示的方法。表示學(xué)習(xí)可用于無監(jiān)督分類,如自編碼器(autoencoder)[17]。而在監(jiān)督學(xué)習(xí)中,深度學(xué)習(xí)是表示學(xué)習(xí)的最佳代表。深度學(xué)習(xí)通過設(shè)定神經(jīng)元網(wǎng)絡(luò)層數(shù)、每層的參數(shù)(隨機(jī)初始化)、迭代規(guī)則等,自動(dòng)學(xué)習(xí)調(diào)整出最優(yōu)的參數(shù)。這些參數(shù)的集合最終構(gòu)成從輸入到輸出的特征表示?;镜亩鄬由窠?jīng)元網(wǎng)絡(luò)稱為前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network)[18]。 前饋神經(jīng)網(wǎng)絡(luò)或多層感知機(jī)(multilayer perceptron,MLP)[19]是一種典型的深度學(xué)習(xí)模型。前饋網(wǎng)絡(luò)定義一個(gè)映射y=f(x,w),以x和y為已知條件,通過學(xué)習(xí)參數(shù)w的值,得到某個(gè)最優(yōu)的近似函數(shù)f*。因此,前饋是指:僅由w和f得到輸出y,而y不會反作用于模型f。若y反饋于f,則稱為循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[20]。RNN很少應(yīng)用于圖像中,攝影測量中常用的深度學(xué)習(xí)方法幾乎都是MLP。 MLP由多個(gè)函數(shù)fi復(fù)合而成:f(x)=fn…(f2(f1(x))),f1稱為第一層,最后一層稱為輸出層,函數(shù)鏈的全長n稱為網(wǎng)絡(luò)的深度。在最后一層上,模型要求fn的輸出接近于給定的標(biāo)簽y;在其他層上,訓(xùn)練數(shù)據(jù)〈x,y〉并未指出應(yīng)該如何訓(xùn)練,這些層被稱為隱藏層?;谏疃葘W(xué)習(xí)的方法就是采用“表示學(xué)習(xí)”的策略去主動(dòng)地學(xué)習(xí)各層的參數(shù)模型而非傳統(tǒng)的手工設(shè)計(jì)。 當(dāng)f作為一個(gè)線性模型時(shí),它無法訓(xùn)練諸如XOR等非線性模型[21]。因此,在隱藏層中,需要擴(kuò)展為一個(gè)非線性的函數(shù),通常稱為激活函數(shù)σ。激活的概念來自人類的神經(jīng)元作用機(jī)理:將0看作不激活,1看作激活,則組成一個(gè)簡單的非線性系統(tǒng)。目前,最常用的激活函數(shù)是整流線性單元(rectified linear unit,ReLU)[22],即x′=max(0, x)。此時(shí),一個(gè)典型的fi就是一個(gè)線性仿射變換再加上一個(gè)激活 式中,w稱為權(quán)重模板或核函數(shù);b稱為偏置。在加上了這個(gè)非線性激活函數(shù)后,通過二層或以上的神經(jīng)元網(wǎng)絡(luò)就可以學(xué)習(xí)出XOR等復(fù)雜的非線性模型。 輸出層函數(shù)fout要保證模型的輸出y′與其對應(yīng)的標(biāo)簽y盡可能一致。在攝影測量中的光束法平差中,通常取p-范式|y-y|′p最小(通常p=2),并稱之為代價(jià)函數(shù)。在深度學(xué)習(xí)中,也稱為代價(jià)函數(shù),或者損失函數(shù)(loss function)。除了最小化p-范式外,由最大似然估計(jì)導(dǎo)出的、給定樣本與期望模型間的交叉熵也是常用的代價(jià)函數(shù)[23]。即 此外,和平差中的L-M算法[24]類似,對于損失函數(shù)也要考慮收斂性的問題。故常用的代價(jià)函數(shù)也包含正則化項(xiàng) 式中,y為標(biāo)簽;y′為模型的輸出;L為損失函數(shù);J為總代價(jià)函數(shù);?為正則化函數(shù)。 與光束法平差一樣,要設(shè)定參數(shù)w和b的初始化及迭代規(guī)則。通過學(xué)者們的研究,w可初始化為隨機(jī)小數(shù)。隨機(jī)初值經(jīng)過前饋網(wǎng)絡(luò)傳播后,得到的輸出y′顯然與標(biāo)簽y相距甚遠(yuǎn)。一個(gè)直觀的想法是通過代價(jià)函數(shù)來反向逐層調(diào)整隱藏層中的參量w與b。這就是著名的梯度反向傳播和鏈?zhǔn)椒▌t[25]。標(biāo)量的鏈?zhǔn)椒▌t表達(dá)如下 式中,z=f(g(x))=f(y)。擴(kuò)展到神經(jīng)元網(wǎng)絡(luò)中常用的矢量形式,即z=f(g(x))=f(y),鏈?zhǔn)椒▌t變?yōu)?/p> 將z理解為頂層的代價(jià)函數(shù)J,將x看作隱藏層中待修正的參量w和b;則得到z相對于每個(gè)參量的梯度。用高斯-牛頓法解算光束法平差時(shí),其迭代的步驟是x′=x dx,即直接加上改正數(shù)。而在深度學(xué)習(xí)中,無法直接得到最優(yōu)的改正數(shù)dx。通常的思路是:梯度自身反映了參量該向哪個(gè)方向修正,但并不確定具體的修正值;因此,在梯度的基礎(chǔ)上,乘以一個(gè)很小的學(xué)習(xí)率λ,作為每次的迭代值 給定足夠的訓(xùn)練樣本,經(jīng)過數(shù)百次乃至千萬次的迭代訓(xùn)練(只要時(shí)間足夠長),基于前饋神經(jīng)元網(wǎng)絡(luò)的深度學(xué)習(xí)期望得到一組最優(yōu)參量w和b,使得代價(jià)函數(shù)最小。 以上通過攝影測量中的光束法平差為類比,簡單介紹了深度神經(jīng)元網(wǎng)絡(luò)的一些本質(zhì)的概念和方法。 2.2 深度卷積神經(jīng)元網(wǎng)絡(luò) 2012年,Hinton課題組的一篇論文《基于卷積神經(jīng)元網(wǎng)絡(luò)的Imagenet分類》[9]引爆了整個(gè)機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,也是至今為止深度學(xué)習(xí)中引用率最高的論文之一。卷積神經(jīng)元網(wǎng)絡(luò)(convolutional neural network,CNN)是一種特殊的前饋神經(jīng)元網(wǎng)絡(luò),指那些至少在網(wǎng)絡(luò)的某一層中采用卷積運(yùn)算代替一般矩陣乘法的網(wǎng)絡(luò)[26]。事實(shí)上,CNN與攝影測量的關(guān)系也同樣密切。在攝影測量中,影像相關(guān)是一個(gè)入門級的概念,指判別圖像間相似度的一種計(jì)算方法。相關(guān)(correlation)本質(zhì)上就是卷積,或者說是卷積的一種變種,都屬于線性時(shí)不變系統(tǒng)[27]。這兩個(gè)概念的微小差異僅在于是否翻轉(zhuǎn)模板。請注意,在深度學(xué)習(xí)中,常將相關(guān)也寫作卷積。 除了擁有前饋神經(jīng)元網(wǎng)絡(luò)的基本特性外,卷積神經(jīng)元網(wǎng)絡(luò)包括三個(gè)明顯的特征:稀疏連接、參數(shù)共享、池化。稀疏連接區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的全連接。傳統(tǒng)神經(jīng)元網(wǎng)絡(luò)采用矩陣乘法。如m個(gè)像元的圖像,n個(gè)輸出,則需要m×n個(gè)參數(shù)。然而,圖像中興趣特征可能只存在于圖像上的一小塊,而非整個(gè)圖像。這與人眼看物體是一致的,眼睛(連同背后的腦處理機(jī)制)往往只專注于那些突出的特征,而選擇性地忽略掉背景,稱為“局部視野”。如果有k(k?m)個(gè)像元可代表這個(gè)特征,那么,只要采用k個(gè)像元的卷積核,就能提取出該特征。同時(shí),卷積操作的計(jì)算量僅為k×n。 參數(shù)共享對減少計(jì)算量和冗余同樣具有積極的意義。以邊緣特征提取為例。在深度學(xué)習(xí)中,系統(tǒng)需要主動(dòng)去學(xué)習(xí)某個(gè)邊緣特征(如水平邊緣),得到某個(gè)恰當(dāng)?shù)木矸e核w。顯然這個(gè)卷積核不但對某個(gè)圖像上方的水平邊緣敏感,而且對圖像任何地方的水平邊緣敏感,甚至對所有的成百上千的輸入圖像中的水平邊緣都敏感。因此,僅需要學(xué)習(xí)一個(gè)卷積核w,就可無數(shù)次重復(fù)使用,以提取出樣本中所有的水平邊緣特征。這就體現(xiàn)了卷積(相關(guān))的作用。而在全連接中,一般不采用參數(shù)共享策略,因此參數(shù)只被使用一次。 池化是卷積神經(jīng)元網(wǎng)絡(luò)中的一個(gè)必要組成部分。池化是去冗余的一種手段,指采用某個(gè)區(qū)域的統(tǒng)計(jì)量去簡化該區(qū)域的神經(jīng)元網(wǎng)絡(luò)輸出。如在圖像某處有一個(gè)2×2像素的邊緣,而以此為中心的4×4窗口中不存在其他邊緣。顯然邊緣卷積核在邊緣處有最大的輸出,而在窗口的其他部分輸出幾乎為0。若認(rèn)為沒有必要將背景區(qū)域傳遞到下層,則可采用一種“最大池化”策略[28],即取4×4窗口中的最大的響應(yīng)作為該區(qū)域的輸出,這時(shí)輸出的大小變成2×2窗口。通常,每次池化都會使得輸入圖像減小,2×2池化對應(yīng)圖像長寬都縮小一半。 到目前為止,卷積神經(jīng)元網(wǎng)絡(luò)受到廣泛研究和巨大推動(dòng)。從2012年的AlexNet[9]開始,涌現(xiàn)了一批先進(jìn)的卷積神經(jīng)元網(wǎng)絡(luò)架構(gòu),如ZFNet[29]、GoogleNet[30]、VGGNet[31]、ResNet[32]等,但CNN的本質(zhì)依然是簡單優(yōu)雅的:卷積模板提取特征并激活、池化去除背景、前向傳播計(jì)算代價(jià)、后向傳播迭代收斂。圖 1是一個(gè)針對遙感圖像的以VGGNet為模板的CNN實(shí)例。樣本大小為8×8像素,m、n分別代表遙感圖像的波段和時(shí)相。首先設(shè)計(jì)卷積核(即邊緣、顏色、紋理以及更抽象的待學(xué)習(xí)特征)的數(shù)量,32@8×8指從8×8的樣本中提取32個(gè)特征。每一層典型的卷積網(wǎng)絡(luò)包括3個(gè)處理流程:卷積、激活、池化。對于任意一個(gè)卷積核,在所有的圖像的所有位置進(jìn)行卷積操作;對于每一個(gè)卷積輸出標(biāo)量,選擇恰當(dāng)?shù)募せ詈瘮?shù)并計(jì)算輸出;最后根據(jù)池化策略,得到本卷積層的輸出。圖 1包括3個(gè)卷積層。經(jīng)過三次池化后,圖像的大小已經(jīng)降低為1×1的像素,此后接2個(gè)全連接層,最后一個(gè)全連接層也是輸出層。諸如圖 1的看似簡單的CNN有著巨大的威力,在圖像分類、物體識別、檢索中基本上全面超越了傳統(tǒng)的機(jī)器學(xué)習(xí)方法。 圖1 卷積神經(jīng)元網(wǎng)絡(luò)實(shí)例 Fig.1 An example of convolutional neural network 2.3 深度學(xué)習(xí)在攝影測量幾何方面的應(yīng)用和展望 深度學(xué)習(xí)目前在幾何中主要有兩類應(yīng)用。第一類是用于相機(jī)定位。將幾何定位問題歸結(jié)為深度學(xué)習(xí),首先需要考慮:如何將一個(gè)優(yōu)化問題(同時(shí)也是一個(gè)回歸問題)納入深度學(xué)習(xí)框架。2015年,PoseNet[14]第一次將CNN應(yīng)用到相機(jī)的定位定姿中,可能也是迄今為止唯一較成熟的基于CNN的SLAM系統(tǒng),并在2016年提出基于貝葉斯CNN的新版本[33]。PoseNet采用四元數(shù)表達(dá)角度,因此參數(shù)空間維度為7,即p=[x q]。采用二次范式(即最小二乘),損失函數(shù)表達(dá)為 β為角度和位置參數(shù)間的量綱比例。對于一個(gè)分類問題,解空間是類別標(biāo)簽??梢詾槊總€(gè)類別設(shè)定有限的離散標(biāo)簽。然而回歸問題的解空間是無限、連續(xù)的,因此無法采用SoftMax等判決函數(shù)。PoseNet在GoogleNet基礎(chǔ)上進(jìn)行了改進(jìn)。添加一個(gè)2048維度的全連接層,此后再加入一個(gè)7維全連接層,最后將SoftMax層移除并替換為以上損失函數(shù)。PoseNet利用傳統(tǒng)的從運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)的方法(SfM)得到傳感器的位置和姿態(tài),每張圖像對應(yīng)一個(gè)位置(即標(biāo)簽)。此外,PoseNet也利用了遷移學(xué)習(xí),將ImageNet和Places的訓(xùn)練結(jié)果作為初值參與后繼訓(xùn)練,并提高了定位精度。目前,定位精度分別為戶外2 m和3°,戶內(nèi)0.5 m和5°。距離經(jīng)典的空中三角測量、SfM和SLAM所能達(dá)到的精度尚有一定的差距。 深度學(xué)習(xí)在幾何上的第二個(gè)應(yīng)用是3D重建。根據(jù)2D圖像重建3D場景是攝影測量與計(jì)算機(jī)視覺共同的本質(zhì)命題。雖然從2D到3D的重建涉及一些圖像處理和特征表示知識,但是它仍屬于一個(gè)幾何問題。密集匹配是3D重建中的關(guān)鍵部分。2016年,Zbontar和LeCun的一篇文章(mc-CNN)[34]是開啟深度學(xué)習(xí)進(jìn)軍立體匹配的代表作。mc-CNN利用CNN來學(xué)習(xí)匹配代價(jià)(matching cost)。傳統(tǒng)的匹配代價(jià)包括亮度絕對值差異、相關(guān)系數(shù)、歐氏距離、交叉熵等,這些代價(jià)往往不是最優(yōu)的,會受到亮度突變、視差突變、無紋理或重復(fù)紋理、鏡面反射等影響。而深度學(xué)習(xí)方法試圖通過更復(fù)雜的模式學(xué)習(xí)出對這些不利因素穩(wěn)健的匹配代價(jià)。最終,這篇文章在KITTI和Middlebury數(shù)據(jù)集上得到了比絕對亮度差、census和歸一化相關(guān)系數(shù)等匹配代價(jià)更低的錯(cuò)誤率。此后,用深度學(xué)習(xí)進(jìn)行立體匹配成了熱門課題。許多學(xué)者紛紛提出各類匹配算法,如SGM-Net[35]、DispNetC[36]、Content-CNN[37]等。在KITTI測試集上,前30名幾乎都是深度學(xué)習(xí)算法。自從1982年Marr創(chuàng)立計(jì)算機(jī)視覺開始[38],3D幾何重建就是計(jì)算機(jī)視覺的核心。當(dāng)時(shí)的想法過于浪漫:既然有了Marr理論,實(shí)現(xiàn)3D重建只需一個(gè)夏天。事實(shí)上,直到今天這個(gè)問題也沒有完全解決。雖然計(jì)算機(jī)視覺已經(jīng)開辟廣闊的研究空間,但該學(xué)科的最基本問題依然望而不及。這也解釋了利用深度學(xué)習(xí)進(jìn)行3D重建的熱度所在。除了利用深度神經(jīng)元網(wǎng)絡(luò)學(xué)習(xí)匹配代價(jià),另外一類方法是采用端到端的策略,即從立體像對直接學(xué)習(xí)出深度圖(視差圖)。2017年,Kendall等提出GC-Net[39]。其核心思想是:將視差看作圖像外的第三維,即處理對象變成3D張量。然后,由3D卷積學(xué)習(xí)幾何與語義特征,直接得到最優(yōu)的視差圖(即3D張量中的一個(gè)曲面)。相對于2D圖像的學(xué)習(xí),這種3D方法需要更大的顯存空間。目前,處理計(jì)算機(jī)視覺中的自然圖像尚且困難,處理大視差的遙感圖像目前在微機(jī)上還遙不可及。 雖然深度學(xué)習(xí)方法在有限的測試集上表現(xiàn)優(yōu)異,但是并不能說明它的普適性。在短期內(nèi),構(gòu)造性的經(jīng)典方法,如多視SGM,依然是2D到3D幾何重建的主流。而基于端到端的立體匹配方法具有較強(qiáng)的沖擊力,伴隨更強(qiáng)計(jì)算能力的GPU的普及和更多學(xué)者的參與改進(jìn),極有可能超越經(jīng)典方法。 2.4 深度學(xué)習(xí)在攝影測量語義方面的應(yīng)用 深度學(xué)習(xí)在遙感圖像語義提取方面的應(yīng)用剛剛起步并逐漸普及。以下將從各類地物語義專題圖出發(fā),回顧深度學(xué)習(xí)的具體應(yīng)用。 遙感圖像建筑、道路網(wǎng)等地物的提取一直是數(shù)十年來的熱門課題。雖然經(jīng)典方法取得一定的效果,但距離實(shí)用、市場、商業(yè)軟件尚有一定的距離。CNN目前正成為道路網(wǎng)提取的主流方法。文獻(xiàn)[35]通過級聯(lián)式端到端CNN同時(shí)實(shí)現(xiàn)了道路網(wǎng)提取及道路中心線提取,與其他方法比較,達(dá)到了更高的分類精度。文獻(xiàn)[40]通過CNN結(jié)合線積分卷積克服了樹木遮蔽、房屋陰影所造成的道路網(wǎng)殘缺問題。文獻(xiàn)[41]通過非監(jiān)督學(xué)習(xí)預(yù)處理和空間相關(guān)性的應(yīng)用,利用深度學(xué)習(xí)極大地提高了復(fù)雜城市場景的道路提取精度。文獻(xiàn)[42-43]均為使用深度學(xué)習(xí)的方法進(jìn)行道路提取并取得了良好的效果。 建筑物、農(nóng)作物、水體等專題的提取相對道路而言較少,但預(yù)期會有許多相關(guān)文獻(xiàn)近期發(fā)表。文獻(xiàn)[44]采用CNN實(shí)現(xiàn)高分辨率多光譜衛(wèi)星影像的建筑物提取。首先采用AlexNet提取特征,最后的全連接層用于訓(xùn)練SVM分類器并采用MRF模型精化。作物精細(xì)分類是攝影測量與遙感在農(nóng)業(yè)中的重要應(yīng)用。文獻(xiàn)[45]在影像平面上進(jìn)行2D卷積,在光譜方向上進(jìn)行1D卷積,分別提取出影像空間特征和光譜特征,取得了比隨機(jī)森林和全連接MLP更好的作物分類精度。文獻(xiàn)[46]將CNN用于土地利用分類。文獻(xiàn)[47]中也較全面地總結(jié)了深度學(xué)習(xí)在遙感方向的應(yīng)用。 上述研究具有一定的積極意義,但目前顯然還未實(shí)現(xiàn)遙感圖像語義專題圖的全自動(dòng)提取。為了從本質(zhì)上解決該問題,需要考慮兩點(diǎn)。 第一點(diǎn)是恰當(dāng)?shù)倪w移學(xué)習(xí)方法。目前ImageNet等龐大的數(shù)據(jù)庫來自大眾攝影圖像,并不包括鳥瞰航攝圖像和衛(wèi)星遙感圖像。照片的標(biāo)注諸如人、大象或椅子;遙感圖像中的標(biāo)注諸如耕地、建筑、森林等。若直接將這些數(shù)據(jù)庫訓(xùn)練得到的模型,用來進(jìn)行遙感圖像直接分類,就要考慮遷移學(xué)習(xí)。遷移學(xué)習(xí)是將A數(shù)據(jù)集中訓(xùn)練好的模型,應(yīng)用在B數(shù)據(jù)集上。A與B可能是同源的,也可能存在巨大差異。這就要進(jìn)一步發(fā)掘完善的遷移學(xué)習(xí)機(jī)制。以上文獻(xiàn)幾乎都存在訓(xùn)練集過小的問題,因此應(yīng)用到其他場景可能錯(cuò)誤率顯著提高。 第二點(diǎn)是建立針對遙感圖像的開源的、完備的標(biāo)簽數(shù)據(jù)庫。涵蓋足夠多的地物類別,每個(gè)類別包括足夠多的樣本。這樣的數(shù)據(jù)庫是攝影測量與遙感走向“自動(dòng)化專題制圖”的必經(jīng)之路。然而,實(shí)現(xiàn)難度要比千萬圖像級別的ImageNet更大。首先,由于遠(yuǎn)距成像的特性,圖像受到更多電磁輻射傳輸?shù)挠绊?。?jīng)過大氣傳播的電磁輻射與地物間的相互作用機(jī)理更加復(fù)雜,同一標(biāo)簽的樣本往往呈現(xiàn)明顯的差異。這種差異不但對樣本的選取造成不便,而且對深度學(xué)習(xí)模型的可區(qū)分性提出更大的挑戰(zhàn)。第二,眾包模式并不能完全起作用。普通人可能很好地辨認(rèn)出諸如貓與狗的區(qū)別,因此通過互聯(lián)網(wǎng)眾包能夠快速構(gòu)建一個(gè)巨大的標(biāo)注數(shù)據(jù)庫;但是,小麥和水稻在遙感圖像上的差異,則需要專業(yè)人員的目視判讀。若影像分辨率較低,甚至可能需要實(shí)地調(diào)查。第三,攝影測量與遙感界的科研模式尚需向開源發(fā)展。目前,遙感學(xué)界已經(jīng)開始走向開源模式,希望由公司、政府或科研機(jī)構(gòu)能夠在短期內(nèi)建立的針對遙感圖像分類的標(biāo)簽數(shù)據(jù)庫,并實(shí)現(xiàn)完全開源。 有了足夠的數(shù)據(jù)標(biāo)簽庫或恰當(dāng)?shù)倪w移學(xué)習(xí)方法,并借助深度學(xué)習(xí)的泛化能力,可以預(yù)期未來攝影測量與遙感專題制圖的精度將比傳統(tǒng)的特征分類方法得到明顯的改進(jìn)。 3 已有的研究工作 本節(jié)介紹深度學(xué)習(xí)在攝影測量學(xué)中兩個(gè)較有代表性的應(yīng)用。一是關(guān)于立體匹配和遷移學(xué)習(xí)。如上所述,計(jì)算機(jī)視覺所面對的數(shù)據(jù)源主要是大眾圖像和自然圖像。而攝影測量主要面對航空、航天遙感圖像。將大眾圖像訓(xùn)練獲得的深度學(xué)習(xí)模型,通過一定的方式應(yīng)用到遙感圖像中,是一個(gè)遷移學(xué)習(xí)的過程。遷移學(xué)習(xí)是深度學(xué)習(xí)在攝影測量(及其他領(lǐng)域)中體現(xiàn)泛化能力的重要概念,同時(shí)立體匹配是攝影測量以及計(jì)算機(jī)視覺的核心命題;筆者嘗試將這二者結(jié)合,期望得到當(dāng)前最先進(jìn)的結(jié)果。 二是關(guān)于深度學(xué)習(xí)在遙感時(shí)空數(shù)據(jù)中的應(yīng)用。除了運(yùn)動(dòng)攝影,計(jì)算機(jī)視覺中的自然圖像多為靜態(tài)圖像。攝影測量與遙感則不然。大部分遙感圖像為時(shí)空數(shù)據(jù),即存在一個(gè)額外的時(shí)間維度,對應(yīng)變化、變遷、長勢、趨勢、動(dòng)力學(xué)等。傳統(tǒng)的基于2D CNN的2D卷積核在理論上只能提取2D信息,因此可能無法在時(shí)空數(shù)據(jù)中取得最佳的效果。如文獻(xiàn)[45]等作物分類方法忽略了時(shí)相信息。筆者以多時(shí)相多光譜農(nóng)業(yè)遙感數(shù)據(jù)為例,引入3D卷積和3D CNN更好地提取作物生長時(shí)序特征,并得到更精細(xì)的作物分類專題圖。 3.1 基于深度學(xué)習(xí)和遷移學(xué)習(xí)的立體匹配 KITTI2012和KITTI2015是標(biāo)準(zhǔn)的立體匹配測試數(shù)據(jù)集[15]。數(shù)據(jù)包括糾正后的立體圖像(即核線立體圖像)與深度圖,分別由安裝在車輛上的立體相機(jī)和LIDAR獲取。KITTI2012和KITTI2015各包含約200景圖像。針對該數(shù)據(jù)集,目前許多立體匹配算法都公布了在該數(shù)據(jù)集上的測試結(jié)果。根據(jù)網(wǎng)站實(shí)時(shí)信息,深度學(xué)習(xí)的方法占據(jù)前10,SGM約排在30名左右。 如何有效地將KITTI數(shù)據(jù)集的訓(xùn)練模型應(yīng)用于航空遙感圖像密集匹配是興趣點(diǎn)。數(shù)據(jù)為20幅航空圖像,同時(shí)以LIDAR點(diǎn)云獲取的深度圖作為參考基準(zhǔn)。受顯卡容量限制,將航空圖像裁剪到1000×300像素大小,并生成384幅立體像對用于測試。由于傳統(tǒng)立體匹配的方法并不需要訓(xùn)練集,為公平起見,只在開源的KITTI數(shù)據(jù)集上訓(xùn)練模型,然后將模型直接應(yīng)用于航空數(shù)據(jù)集上。訓(xùn)練和測試在Nvidia顯卡Titan Xp上執(zhí)行。表 1列出了SGM、SURE軟件、MC-CNN[34]及GC-NET[35]的比較結(jié)果。前二者為經(jīng)典的立體視覺方法,后二者是深度學(xué)習(xí)方法的代表作。其中,MC-CNN只學(xué)習(xí)匹配代價(jià),其他代價(jià)聚合、一致性檢驗(yàn)部分與SGM相同;而GC-NET是一種端到端的從立體像對直接獲取深度圖的CNN方法。表 1的結(jié)果顯示,SGM的精度最低,而SURE最高。MC-CNN和GC-NET近似相等。比SGM要高出5個(gè)百分點(diǎn),但比SURE低將近2個(gè)百分點(diǎn)。括號中的數(shù)值表示:如果采用航空影像數(shù)據(jù)自身進(jìn)行訓(xùn)練,能達(dá)到的精度(訓(xùn)練集與測試集容量比例約為2:1)。圖 2是較有代表性的一幅立體像對。左邊是平地,右邊是有層次的建筑物。圖 2(c)和圖 2(d)分別為SGM和深度學(xué)習(xí)的結(jié)果。這兩種方法的唯一區(qū)別是代價(jià)函數(shù)的差異。綠色為正確匹配點(diǎn),紅色為錯(cuò)誤點(diǎn)。無論是SGM還是深度學(xué)習(xí)的方法都在平地區(qū)域表現(xiàn)優(yōu)秀。而在復(fù)雜的建筑物區(qū),MC-CNN則更加優(yōu)異。在深度急劇變化的邊緣,SGM明顯失誤更多。雖然SURE的精度要比深度學(xué)習(xí)方法略高,但SURE用到了多視匹配的策略,而深度學(xué)習(xí)方法只利用了立體約束條件。因此,可以預(yù)見深度學(xué)習(xí)方法將會有很大的提升空間。 表 1 各類方法在航空測試集上的錯(cuò)誤率 Tab. 1 Results of different stereo methods on aerial dataset 圖2 SGM(c)與MC-CNN(d)結(jié)果比較 Fig.2 Results comparison between SGM and MC-CNN 3.2 基于3D卷積的時(shí)空農(nóng)業(yè)數(shù)據(jù)精細(xì)分類專題圖 試驗(yàn)數(shù)據(jù)包括兩套2015年不同區(qū)域的高分2號(GF-2)數(shù)據(jù)(表 2)。數(shù)據(jù)1含4波段(紅外、紅、綠、藍(lán))4時(shí)相(6、7、8和9月)。根據(jù)目視判別的結(jié)果,影像覆蓋區(qū)域內(nèi)主要地物為玉米、樹木、水稻和高粱。對各地物類隨機(jī)選取訓(xùn)練樣本400個(gè),測試樣本2000個(gè)。數(shù)據(jù)2含4波段(紅外、紅、綠、藍(lán))7時(shí)相(6月17日、7月8日、7月27日、9月9日、9月19日、11月7日和11月17日)。影像范圍內(nèi)主要地物為:道路、荒草地、居民地、空地、林帶、濕地、水稻、水面、秧地和玉米。隨機(jī)選取訓(xùn)練樣本3180個(gè),測試樣本890個(gè)。以數(shù)據(jù)一為例,單通道樣本窗口大小為8×8,每個(gè)樣本塊大小為16×8×8。其中16通道的順序是:先紅外波段的4個(gè)時(shí)相,再紅波段的4個(gè)時(shí)相,以此類推。 表 2 試驗(yàn)數(shù)據(jù)信息 Tab. 2 The information of the experimental data 本次試驗(yàn)的目的是為了驗(yàn)證在作物分類中,理論上更優(yōu)秀的3D CNN是否更好地作用于多時(shí)相數(shù)據(jù),并與2D CNN以及傳統(tǒng)分類方法對比。 采用了圖 3所示的針對多光譜多時(shí)相數(shù)據(jù)的網(wǎng)絡(luò)架構(gòu)。其中,原始輸入m@n×8×8指:樣本大小為n×8×8的張量,n為時(shí)相,8×8為單通道的寬和高,m為光譜段。32@則指當(dāng)前層的神經(jīng)元個(gè)數(shù)為32。該架構(gòu)采用了3層3D卷積神經(jīng)元網(wǎng)絡(luò)和2層全連接層。 圖3 多光譜多時(shí)相遙感數(shù)據(jù)分類的3D網(wǎng)絡(luò)架構(gòu) Fig.3 The 3D CNN for multi-spectral multi-temporal remote sensing data classification 表 3對比了2D CNN、3D CNN、SVM、KNN、PCA KNN的測試精度與全圖分類精度。可以看出,在兩類精度上,CNN要高于SVM、KNN和PCA等方法;3D CNN略優(yōu)于2D CNN。圖 4為不同方法對高分2號兩套數(shù)據(jù)進(jìn)行全圖分類的結(jié)果圖。 表 3 不同方法訓(xùn)練精度及分類精度對比 Tab. 3 Comparison of different methods on test accuracy and pixel wise classification 圖4 高分2號數(shù)據(jù)1不同方法分類效果圖 Fig.4 Classification results of different methods of GF2 data 1 本次試驗(yàn)與計(jì)算機(jī)視覺中的大量關(guān)于圖像標(biāo)簽分類文獻(xiàn)的結(jié)果相符合。在遙感圖像的分類中,基于CNN的方法同樣超越了傳統(tǒng)的分類方法。在此基礎(chǔ)上,引入了3D卷積,應(yīng)對多時(shí)相多光譜數(shù)據(jù),并得到了比2D CNN更好的分類精度。 4 結(jié)論 本文首先回顧了攝影測量與深度學(xué)習(xí)的歷史,并分析了二者間的緊密聯(lián)系。然后,介紹了深度學(xué)習(xí)以及卷積神經(jīng)元網(wǎng)絡(luò)的基本思想;分析了攝影測量與遙感、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等領(lǐng)域的相關(guān)發(fā)展。最后,結(jié)合筆者的研究介紹了深度學(xué)習(xí)在圖像立體匹配和作物分類專題圖提取中的應(yīng)用。 得到以下結(jié)論:第一,目前深度學(xué)習(xí)并不適合攝影測量中純幾何領(lǐng)域,其定位、定向精度低于光束法區(qū)域網(wǎng)平差、SfM、SLAM等經(jīng)典方法。第二,在圖像匹配和3D幾何重建中,深度學(xué)習(xí)表現(xiàn)出色,在標(biāo)準(zhǔn)數(shù)據(jù)集上遙遙領(lǐng)先,但是目前的主流3D重建算法依然以多視SGM等經(jīng)典方法為核心,深度學(xué)習(xí)可能需要更龐大的訓(xùn)練集才能做到真正的領(lǐng)先。第三,在圖像語義提取和分類中,深度學(xué)習(xí)方法已經(jīng)全面領(lǐng)先于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,但目前迫切需要更龐大、更專業(yè)的遙感標(biāo)簽數(shù)據(jù)庫以訓(xùn)練更好的模型。最后,利用深度學(xué)習(xí)的學(xué)習(xí)和泛化能力,端到端地實(shí)現(xiàn)遙感圖像到語義專題圖的提取,將為現(xiàn)代攝影測量的發(fā)展提供契機(jī)。 此外,本文借鑒遷移學(xué)習(xí)的思想,研究了基于深度學(xué)習(xí)的航空圖像密集匹配,并取得比SGM更好的結(jié)果。同時(shí),首次采用3D CNN提取作物的時(shí)空生長趨勢,并取得比傳統(tǒng)分類方法和2D CNN更好的作物精細(xì)分類專題圖。這兩個(gè)試驗(yàn)作為拋磚引玉,期待相關(guān)學(xué)者發(fā)展更好的深度學(xué)習(xí)算法并自動(dòng)化、智能化地應(yīng)用到攝影測量領(lǐng)域;最終實(shí)現(xiàn)攝影測量定義中“幾何”與“語義”的完備性。 ?【引文格式】龔健雅, 季順平. 攝影測量與深度學(xué)習(xí)[J]. 測繪學(xué)報(bào),2018,47(6):693-704. DOI: 10.11947/j.AGCS.2018.20170640 來源:測繪學(xué)報(bào)(版權(quán)歸原作者及刊載媒體所有) |
|