摘要 三維形狀特征表示是三維目標(biāo)識別、三維人臉識別以及三維模型檢索等研究的基礎(chǔ),在機(jī)器人、AR/VR、人機(jī)交互、遙感測繪等領(lǐng)域有著廣泛的應(yīng)用前景。近三年來,針對三維形狀數(shù)據(jù)深度特征表示的研究得到了越來越多的關(guān)注。本文對該方向所面臨的挑戰(zhàn)進(jìn)行了分析,并對現(xiàn)有算法進(jìn)行了簡要綜述。 引言 隨著三維成像技術(shù)的快速發(fā)展,低成本小型化三維傳感器近年來大量涌現(xiàn)并逐步配備到移動設(shè)備中,典型代表如Kinect,Realsense和Google Tango。三維傳感器能很好地捕獲場景三維信息,使智能設(shè)備更好地感知和理解周圍環(huán)境,在機(jī)器人、AR/VR、人機(jī)交互、遙感測繪等多個領(lǐng)域具有廣闊的應(yīng)用前景。 圖1 三維傳感器的應(yīng)用場景 三維傳感器獲得的數(shù)據(jù)是物體三維形狀的直觀反映,其可以表示為深度圖、點云或者網(wǎng)格等多種形式。其中,深度圖只能表示物體在單個視點下的距離信息,因此常稱為2.5維數(shù)據(jù),而點云和網(wǎng)格能表示物體在多個視點下的信息,因此常稱為三維形狀數(shù)據(jù)。有效的三維形狀特征表示是實現(xiàn)點云配準(zhǔn)、三維模型重建、三維形狀檢索、三維目標(biāo)識別、三維生物特征識別、場景語義分割、以及定位制圖等視覺任務(wù)的基礎(chǔ)。 一個好的特征應(yīng)該具有良好的鑒別力、穩(wěn)健性、不變性以及計算效率。自上世紀(jì)90年代開始,三維形狀特征提取算法經(jīng)歷了20余年的發(fā)展,逐步從手工特征過渡到基于深度學(xué)習(xí)的特征。手工特征通常通過提取三維形狀幾何屬性的空間分布或直方圖統(tǒng)計等方法得到,典型代表如Spin Image、FPFH、Heat Kernel Signature (HKS)、MeshHOG、RoPS等[1]。但這類方法依賴于研究者的領(lǐng)域知識,無法獲得適用于某一特定任務(wù)的最優(yōu)三維形狀特征表示。近年來,隨著三維形狀數(shù)據(jù)集的不斷完善,深度學(xué)習(xí)模型開始應(yīng)用于三維形狀特征表示,并產(chǎn)生了大量的研究成果。本文旨在簡要綜述該領(lǐng)域面臨的主要挑戰(zhàn),研究進(jìn)展以及潛在研究方向。 一、面臨的挑戰(zhàn) 相對于二維圖像領(lǐng)域,深度學(xué)習(xí)模型在三維形狀上的研究起步較晚,僅在近三年取得了較大的進(jìn)展。該領(lǐng)域面臨的主要問題如下。 1.1 三維形狀的結(jié)構(gòu)化表示 圖像是結(jié)構(gòu)化的,可以表示為二維平面上的一個矩陣,但三維點云和網(wǎng)格都是非結(jié)構(gòu)化的,不能直接輸入到深度神經(jīng)網(wǎng)絡(luò)中。因此,采用深度學(xué)習(xí)模型首先要解決三維形狀的結(jié)構(gòu)化表示問題。主要思路包括:1)在三維形狀上手工提取低級特征,再采用深度學(xué)習(xí)模型提取高級特征;2)將三維點云或網(wǎng)格轉(zhuǎn)化為系列二維圖像,再采用深度學(xué)習(xí)模型提取特征;3)將三維形狀體素化得到結(jié)構(gòu)化表示,再構(gòu)建三維深度學(xué)習(xí)模型提取特征;4)設(shè)計能適應(yīng)原始三維數(shù)據(jù)特點的深度學(xué)習(xí)模型。 1.2 公共數(shù)據(jù)集較小 相比于ImageNet等千萬量級的二維圖像數(shù)據(jù)集,傳統(tǒng)的三維形狀數(shù)據(jù)集很小。近年來發(fā)布的較大的數(shù)據(jù)集包括用于形狀分類與檢索的ModelNet和ShapeNet。ModelNet包含了來自662類的127915個三維形狀,其子集Model10包含了來自10類的4899個三維形狀,ModelNet40包含了來自40類的12311個三維形狀。ShapeNet包含了約300萬個形狀,其子集ShapeNetCore包含了來自55類的51300個形狀。較小的數(shù)據(jù)集對深度學(xué)習(xí)模型的設(shè)計與訓(xùn)練提出了更高要求。 1.3 神經(jīng)網(wǎng)絡(luò)運算量大 由于三維形狀比二維圖像在空間中多了一維信息,因此在保持相同空間分辨率的前提下,神經(jīng)網(wǎng)絡(luò)的運算量比圖像大很多。比如,即使將三維形狀采樣為30×30×30的體素,其運算量已相當(dāng)于165×165的圖像,而實際上分辨率為30×30×30的體素對形狀的表示是非常粗糙的。因此,如何既能獲得精細(xì)的三維形狀表示,又能將運算量控制在可接受的范圍內(nèi),是一個富有挑戰(zhàn)的問題。 1.4 物體姿態(tài)變化 由于三維物體的姿態(tài)是任意的,因此如何使得學(xué)習(xí)到的特征具有對姿態(tài)的不變性也是設(shè)計深度學(xué)習(xí)模型時需要考慮的問題。典型思路包括在預(yù)處理中對輸入數(shù)據(jù)進(jìn)行姿態(tài)歸一化,或者在神經(jīng)網(wǎng)絡(luò)中加入Max-Pooling等操作以消除姿態(tài)的影響。 二、現(xiàn)有方法分類 依據(jù)不同的數(shù)據(jù)表示方式,現(xiàn)有的三維形狀深度特征表示方法可以分為:基于手工特征的方法、基于投影圖像的方法、基于三維體素的方法以及基于原始數(shù)據(jù)的方法。 2.1 基于手工特征的方法 這類方法首先在三維形狀上提取手工特征,進(jìn)而將這些特征作為深度神經(jīng)網(wǎng)絡(luò)的輸入,用以學(xué)習(xí)高層特征表示。其優(yōu)勢在于可以充分利用現(xiàn)有的低層特征描述子及深度學(xué)習(xí)模型。 比如,Bu等人[2]首先將熱核特征和平均測地距離等構(gòu)成的低層特征通過Bag-of-Feature模型轉(zhuǎn)化為中層特征,接著采用深度置信網(wǎng)絡(luò)(DBN)從中層特征中學(xué)習(xí)高層特征表示,并成功應(yīng)用于三維形狀檢索與識別。Xie等人[3]首先提取三維形狀Heat Kernel Signature特征的多尺度直方圖分布作為自編碼機(jī)的輸入,然后在每個尺度上訓(xùn)練一個自編碼機(jī)并將多個尺度隱含層的輸出連接得到特征描述子,并在多個數(shù)據(jù)集上測試了該方法用于形狀檢索的有效性。 這類方法的缺陷在于,其仍然依賴手工特征的選擇與參數(shù)優(yōu)化,因此在某種程度上損失了深度學(xué)習(xí)的優(yōu)勢,無法從根本上克服手工特征存在的問題。 2.2 基于投影圖像的方法 這類方法首先將三維形狀投影到二維圖像空間,進(jìn)而在二維圖像上采用深度學(xué)習(xí)模型進(jìn)行特征學(xué)習(xí),其優(yōu)勢在于:1)可以充分利用二維圖像領(lǐng)域性能優(yōu)越的網(wǎng)絡(luò)架構(gòu);2)存在海量圖像數(shù)據(jù)供深度學(xué)習(xí)模型進(jìn)行預(yù)訓(xùn)練。 比如,Su等人[4]首先獲得三維形狀在12個不同視點下的投影圖,進(jìn)而采用VGG-M卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)各個視點下投影圖的特征,最后將多視點下的特征進(jìn)行池化并送入下一個CNN網(wǎng)絡(luò)中得到最終的形狀特征,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其第一級CNN網(wǎng)絡(luò)采用ImageNet進(jìn)行預(yù)訓(xùn)練并利用三維形狀的二維投影圖進(jìn)行精調(diào),實驗結(jié)果表明多視點圖像能獲得比單視點圖像更好的性能。Shi等人[5]通過沿主軸方向進(jìn)行圓柱投影將三維形狀轉(zhuǎn)化為多個全景圖,進(jìn)而利用CNN從全景圖中學(xué)習(xí)特征表示。由于在卷積層和全連接層之間加入了Max-Pooling操作,因此特征具有對繞主軸旋轉(zhuǎn)的不變性。Sinha等人[6]將三維形狀參數(shù)化到球形表面,進(jìn)而將球形表面投影到八面體后展開成二維平面,并采用主曲率或HKS在平面的分布獲得二維圖像,最后采用CNN網(wǎng)絡(luò)從二維圖像中學(xué)習(xí)特征表示。Kalogerakis等人[7]在不同視點及尺度下獲得三維形狀的系列陰影圖(Shaded Image)和深度圖,進(jìn)而采用全卷積網(wǎng)絡(luò)(FCN)進(jìn)行特征學(xué)習(xí)。 圖2 用于三維形狀識別的3D CNN網(wǎng)絡(luò)結(jié)構(gòu)圖[4] 雖然這類方法通過變換能一定程度地保留三維物體的形狀信息,但變換過程本身改變了三維形狀的局部和全局結(jié)構(gòu),使得特征鑒別力下降。此外,將三維形狀進(jìn)行投影損失了大量的結(jié)構(gòu)信息,且這類方法通常要求三維形狀在豎直方向上進(jìn)行了對齊。 2.3 基于三維體素的方法 這類方法將三維形狀視為三維體素網(wǎng)格中的概率分布,從而將其表示為二值或?qū)嵵档娜S張量。圖3給出了椅子模型在不同分辨率下的三維體素表示。這類方法的優(yōu)勢在于三維體素完整保留了三維形狀信息,有利于提高特征的鑒別力。 圖3 椅子模型在不同分辨率下的三維體素表示[11] 比如,Wu等人[8]將三維形狀表示為二值概率分布,若體素在三維表面內(nèi)則其值為1,否則為0,并采用卷積深度置信網(wǎng)絡(luò)(CDBN)學(xué)習(xí)三維體素與標(biāo)簽之間的聯(lián)合分布。Xu等人[9]采用定向搜索對3D ShapeNets進(jìn)行優(yōu)化以減少CNN網(wǎng)絡(luò)的參數(shù)數(shù)量并提高分類精度。Xu等人[10]則把三維體素的每一層抽取出來組合成一個二值圖像輸入到CNN網(wǎng)絡(luò)中進(jìn)行特征學(xué)習(xí)。為進(jìn)一步降低計算量,Li等人[11]將三維形狀表示成體素場(Volumetric Fields)以克服三維體素表示的稀疏性問題,并采用一個場探索濾波器(Field Probing Filter)取代CNN中的卷積層來學(xué)習(xí)特征。Qi等人[12]系統(tǒng)比較了基于多視點投影和基于三維體素的方法,并通過增加輔助學(xué)習(xí)任務(wù)、多姿態(tài)數(shù)據(jù)增廣與池化融合等來提高三維形狀分類的性能。此外,Wu等人 [13]采用體素卷積網(wǎng)絡(luò)和生成對抗式網(wǎng)絡(luò)從概率空間中生成三維形狀,其通過非監(jiān)督學(xué)習(xí)得到的特征能獲得很好的三維目標(biāo)識別性能。 但是,這類方法也面臨一些挑戰(zhàn),如:1)為使得網(wǎng)絡(luò)訓(xùn)練不過于復(fù)雜,三維體素的分辨率不能太高(通常為30×30×30),而較低的分辨率限制了所學(xué)特征的鑒別力;2)三維形狀表面所占的體素比例不高,使得體素化結(jié)果較稀疏,因此需要設(shè)計合理的網(wǎng)絡(luò)以避免大量乘0或者為空的運算。 2.4 基于原始數(shù)據(jù)的方法 這類方法針對三維形狀數(shù)據(jù)的特點設(shè)計特定的神經(jīng)網(wǎng)絡(luò)輸入層,使得網(wǎng)絡(luò)能很好地應(yīng)對三維形狀數(shù)據(jù)非規(guī)則化的問題。 對于網(wǎng)格表示,Han等人[14]提出了一種Mesh卷積受限玻爾茲曼機(jī)(MCRBM)以實現(xiàn)三維形狀的非監(jiān)督特征學(xué)習(xí)。該方法首先在三維形狀上均勻放置固定點數(shù)的節(jié)點,并在這些節(jié)點上用局部函數(shù)能量分布(LFED)來表達(dá)三維形狀局部區(qū)域的幾何和結(jié)構(gòu)信息,進(jìn)而采用卷積深度置信網(wǎng)絡(luò)來學(xué)習(xí)高層特征。Han等人[15]還提出了一種圓形卷積受限玻爾茲曼機(jī)(CCRBM)來學(xué)習(xí)三維局部區(qū)域的幾何和結(jié)構(gòu)信息。該方法首先將局部區(qū)域上的點投影到該區(qū)域中心的切平面上并獲得投影距離分布(PDD)特征,進(jìn)而采用傅里葉變換系數(shù)獲得旋轉(zhuǎn)不變的特征,最后采用卷積受限玻爾茲曼機(jī)學(xué)習(xí)高層特征。 對于點云表示,Qi等人[16]認(rèn)為解決輸入點云的無序問題有三種解決思路: 1)將輸入點云進(jìn)行排序,但在高維空間中難以確保排序結(jié)果的穩(wěn)定性;2)將輸入點云看作一個序列去訓(xùn)練RNN網(wǎng)絡(luò),并采用不同排列組合得到的點云作為增廣數(shù)據(jù)訓(xùn)練RNN網(wǎng)絡(luò),但對于包含大量點的點云來說這一方法并不能獲得很好的不變性;3)采用一個對稱函數(shù)融合每個點的信息,該對稱函數(shù)以所有點作為輸入但輸出一個對點序不變的向量。Qi等人[16]采用第三種思路,以多層感知網(wǎng)絡(luò)及Max-Pooling來近似該對稱函數(shù),通過訓(xùn)練獲得對點序不敏感的特征表示。該方法被成功應(yīng)用于三維形狀分類、物體部件分割以及語義場景分割。 三、未來發(fā)展方向 相對于二維圖像而言,對三維形狀的深度特征表示研究才剛剛起步。隨著三維成像傳感器的進(jìn)一步普及,三維形狀特征學(xué)習(xí)及相關(guān)應(yīng)用的研究將得到更多關(guān)注。在這一領(lǐng)域,依然有很多方向值得挖掘,比如:非剛性三維形狀的特征學(xué)習(xí);大規(guī)模點云的特征學(xué)習(xí),特別是測繪制圖和自動駕駛場景下的點云實時特征學(xué)習(xí);以及遮擋和背景干擾下的三維目標(biāo)檢測與識別。 參考文獻(xiàn) [1]. Y. Guo, M. Bennamoun, F. Sohel, M. Lu, J. Wan. 3D object recognition in cluttered scenes with local surface features: a survey IEEE PAMI, 36: 2270-2287, 2014 [2]. S. Bu, Z. Liu, J. Han, J. Wu, R. Ji. Learning High-Level Feature by Deep Belief Networks for 3-D Model Retrieval and Recognition. IEEE TMM, 16(8): 2154-2167, 2014 [3]. J. Xie, G. Dai, F. Zhu, E. Wong, Y. Fang. DeepShape: Deep-Learned Shape Descriptor for 3D Shape Retrieval. IEEE TPAMI, 2016 [4]. H. Su, S. Maji, E. Kalogerakis, E. Learned-Miller. Multi-view Convolutional Neural Networks for 3D Shape Recognition, ICCV, 2015 [5]. B. Shi, S. Bai, Z. Zhou, X. Bai. DeepPano: Deep Panoramic Representation for 3-D Shape Recognition. IEEE Signal Processing Letters, 22: 2339-234, 2015 [6]. A. Sinha, J. Bai, K. Ramani. Deep Learning 3D Shape Surfaces Using Geometry Images. ECCV, 223-240, 2016 [7]. E. Kalogerakis, M. Averkiou, S. Maji, S. Chaudhuri. 3D Shape Segmentation with Projective Convolutional Networks. arXiv preprint arXiv:1612.02808, 2016 [8]. Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang. 3D ShapeNets: A Deep Representation for Volumetric Shapes, CVPR, 1912-1920, 2015 [9]. X. Xu, S. Todorovic. Beam Search for Learning a Deep Convolutional Neural Network of 3D Shapes. arXiv preprint arXiv:1612.04774, 2016 [10]. X. Xu, D. Corrigan, A. Dehghani, S. Caulfield, D. Moloney. 3D Object Recognition Based on Volumetric Representation Using Convolutional Neural Networks. International Conference on Articulated Motion and Deformable Objects. 147-156, 2016 [11]. Y. Li, S. Pirk, H. Su, C. R. Qi, L. J. Guibas. FPNN: Field Probing Neural Networks for 3D Data. NIPS, 307-315, 2016 [12]. C. R. Qi, H. Su, M. Niessner, A. Dai, M. Yan, L. J. Guibas. Volumetric and Multi-View CNNs for Object Classification on 3D Data, arXiv, 2016 [13]. J. Wu, C. Zhang, T. Xue, W. T. Freemanand, J. B. Tenenbaum. Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling. Advances In Neural Information Processing Systems, 2016 [14]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, C. L. P. Chen. Mesh Convolutional Restricted Boltzmann Machines for Unsupervised Learning of Features With Structure Preservation on 3-D Meshes. IEEE TNNLS, 2016 [15]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, X. Li. Unsupervised 3D Local Feature Learning by Circle Convolutional Restricted Boltzmann Machine. IEEE TIP, 2016. [16]. C. R. Qi, H. Su, K. Mo, L. J. Guibas. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. arXiv preprint arXiv:1612.00593, 2016. |
|