三維形狀數(shù)據(jù)的深度特征表示

祝重陽 2017-03-30

展開全文

摘要

三維形狀特征表示是三維目標(biāo)識別、三維人臉識別以及三維模型檢索等研究的基礎(chǔ)，在機(jī)器人、AR/VR、人機(jī)交互、遙感測繪等領(lǐng)域有著廣泛的應(yīng)用前景。近三年來，針對三維形狀數(shù)據(jù)深度特征表示的研究得到了越來越多的關(guān)注。本文對該方向所面臨的挑戰(zhàn)進(jìn)行了分析，并對現(xiàn)有算法進(jìn)行了簡要綜述。

引言

隨著三維成像技術(shù)的快速發(fā)展，低成本小型化三維傳感器近年來大量涌現(xiàn)并逐步配備到移動設(shè)備中，典型代表如Kinect，Realsense和Google Tango。三維傳感器能很好地捕獲場景三維信息，使智能設(shè)備更好地感知和理解周圍環(huán)境，在機(jī)器人、AR/VR、人機(jī)交互、遙感測繪等多個領(lǐng)域具有廣闊的應(yīng)用前景。

圖1 三維傳感器的應(yīng)用場景

三維傳感器獲得的數(shù)據(jù)是物體三維形狀的直觀反映，其可以表示為深度圖、點云或者網(wǎng)格等多種形式。其中，深度圖只能表示物體在單個視點下的距離信息，因此常稱為2.5維數(shù)據(jù)，而點云和網(wǎng)格能表示物體在多個視點下的信息，因此常稱為三維形狀數(shù)據(jù)。有效的三維形狀特征表示是實現(xiàn)點云配準(zhǔn)、三維模型重建、三維形狀檢索、三維目標(biāo)識別、三維生物特征識別、場景語義分割、以及定位制圖等視覺任務(wù)的基礎(chǔ)。

一個好的特征應(yīng)該具有良好的鑒別力、穩(wěn)健性、不變性以及計算效率。自上世紀(jì)90年代開始，三維形狀特征提取算法經(jīng)歷了20余年的發(fā)展，逐步從手工特征過渡到基于深度學(xué)習(xí)的特征。手工特征通常通過提取三維形狀幾何屬性的空間分布或直方圖統(tǒng)計等方法得到，典型代表如Spin Image、FPFH、Heat Kernel Signature (HKS)、MeshHOG、RoPS等[1]。但這類方法依賴于研究者的領(lǐng)域知識，無法獲得適用于某一特定任務(wù)的最優(yōu)三維形狀特征表示。近年來，隨著三維形狀數(shù)據(jù)集的不斷完善，深度學(xué)習(xí)模型開始應(yīng)用于三維形狀特征表示，并產(chǎn)生了大量的研究成果。本文旨在簡要綜述該領(lǐng)域面臨的主要挑戰(zhàn)，研究進(jìn)展以及潛在研究方向。

一、面臨的挑戰(zhàn)

相對于二維圖像領(lǐng)域，深度學(xué)習(xí)模型在三維形狀上的研究起步較晚，僅在近三年取得了較大的進(jìn)展。該領(lǐng)域面臨的主要問題如下。

1.1 三維形狀的結(jié)構(gòu)化表示

圖像是結(jié)構(gòu)化的，可以表示為二維平面上的一個矩陣，但三維點云和網(wǎng)格都是非結(jié)構(gòu)化的，不能直接輸入到深度神經(jīng)網(wǎng)絡(luò)中。因此，采用深度學(xué)習(xí)模型首先要解決三維形狀的結(jié)構(gòu)化表示問題。主要思路包括：1）在三維形狀上手工提取低級特征，再采用深度學(xué)習(xí)模型提取高級特征；2）將三維點云或網(wǎng)格轉(zhuǎn)化為系列二維圖像，再采用深度學(xué)習(xí)模型提取特征；3）將三維形狀體素化得到結(jié)構(gòu)化表示，再構(gòu)建三維深度學(xué)習(xí)模型提取特征；4）設(shè)計能適應(yīng)原始三維數(shù)據(jù)特點的深度學(xué)習(xí)模型。

1.2 公共數(shù)據(jù)集較小

相比于ImageNet等千萬量級的二維圖像數(shù)據(jù)集，傳統(tǒng)的三維形狀數(shù)據(jù)集很小。近年來發(fā)布的較大的數(shù)據(jù)集包括用于形狀分類與檢索的ModelNet和ShapeNet。ModelNet包含了來自662類的127915個三維形狀，其子集Model10包含了來自10類的4899個三維形狀，ModelNet40包含了來自40類的12311個三維形狀。ShapeNet包含了約300萬個形狀，其子集ShapeNetCore包含了來自55類的51300個形狀。較小的數(shù)據(jù)集對深度學(xué)習(xí)模型的設(shè)計與訓(xùn)練提出了更高要求。

1.3 神經(jīng)網(wǎng)絡(luò)運算量大

由于三維形狀比二維圖像在空間中多了一維信息，因此在保持相同空間分辨率的前提下，神經(jīng)網(wǎng)絡(luò)的運算量比圖像大很多。比如，即使將三維形狀采樣為30×30×30的體素，其運算量已相當(dāng)于165×165的圖像，而實際上分辨率為30×30×30的體素對形狀的表示是非常粗糙的。因此，如何既能獲得精細(xì)的三維形狀表示，又能將運算量控制在可接受的范圍內(nèi)，是一個富有挑戰(zhàn)的問題。

1.4 物體姿態(tài)變化

由于三維物體的姿態(tài)是任意的，因此如何使得學(xué)習(xí)到的特征具有對姿態(tài)的不變性也是設(shè)計深度學(xué)習(xí)模型時需要考慮的問題。典型思路包括在預(yù)處理中對輸入數(shù)據(jù)進(jìn)行姿態(tài)歸一化，或者在神經(jīng)網(wǎng)絡(luò)中加入Max-Pooling等操作以消除姿態(tài)的影響。

二、現(xiàn)有方法分類

依據(jù)不同的數(shù)據(jù)表示方式，現(xiàn)有的三維形狀深度特征表示方法可以分為：基于手工特征的方法、基于投影圖像的方法、基于三維體素的方法以及基于原始數(shù)據(jù)的方法。

2.1 基于手工特征的方法

這類方法首先在三維形狀上提取手工特征，進(jìn)而將這些特征作為深度神經(jīng)網(wǎng)絡(luò)的輸入，用以學(xué)習(xí)高層特征表示。其優(yōu)勢在于可以充分利用現(xiàn)有的低層特征描述子及深度學(xué)習(xí)模型。

比如，Bu等人[2]首先將熱核特征和平均測地距離等構(gòu)成的低層特征通過Bag-of-Feature模型轉(zhuǎn)化為中層特征，接著采用深度置信網(wǎng)絡(luò)（DBN）從中層特征中學(xué)習(xí)高層特征表示，并成功應(yīng)用于三維形狀檢索與識別。Xie等人[3]首先提取三維形狀Heat Kernel Signature特征的多尺度直方圖分布作為自編碼機(jī)的輸入，然后在每個尺度上訓(xùn)練一個自編碼機(jī)并將多個尺度隱含層的輸出連接得到特征描述子，并在多個數(shù)據(jù)集上測試了該方法用于形狀檢索的有效性。

這類方法的缺陷在于，其仍然依賴手工特征的選擇與參數(shù)優(yōu)化，因此在某種程度上損失了深度學(xué)習(xí)的優(yōu)勢，無法從根本上克服手工特征存在的問題。

2.2 基于投影圖像的方法

這類方法首先將三維形狀投影到二維圖像空間，進(jìn)而在二維圖像上采用深度學(xué)習(xí)模型進(jìn)行特征學(xué)習(xí)，其優(yōu)勢在于：1）可以充分利用二維圖像領(lǐng)域性能優(yōu)越的網(wǎng)絡(luò)架構(gòu)；2）存在海量圖像數(shù)據(jù)供深度學(xué)習(xí)模型進(jìn)行預(yù)訓(xùn)練。

比如，Su等人[4]首先獲得三維形狀在12個不同視點下的投影圖，進(jìn)而采用VGG-M卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)各個視點下投影圖的特征，最后將多視點下的特征進(jìn)行池化并送入下一個CNN網(wǎng)絡(luò)中得到最終的形狀特征，其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其第一級CNN網(wǎng)絡(luò)采用ImageNet進(jìn)行預(yù)訓(xùn)練并利用三維形狀的二維投影圖進(jìn)行精調(diào)，實驗結(jié)果表明多視點圖像能獲得比單視點圖像更好的性能。Shi等人[5]通過沿主軸方向進(jìn)行圓柱投影將三維形狀轉(zhuǎn)化為多個全景圖，進(jìn)而利用CNN從全景圖中學(xué)習(xí)特征表示。由于在卷積層和全連接層之間加入了Max-Pooling操作，因此特征具有對繞主軸旋轉(zhuǎn)的不變性。Sinha等人[6]將三維形狀參數(shù)化到球形表面，進(jìn)而將球形表面投影到八面體后展開成二維平面，并采用主曲率或HKS在平面的分布獲得二維圖像，最后采用CNN網(wǎng)絡(luò)從二維圖像中學(xué)習(xí)特征表示。Kalogerakis等人[7]在不同視點及尺度下獲得三維形狀的系列陰影圖（Shaded Image）和深度圖，進(jìn)而采用全卷積網(wǎng)絡(luò)（FCN）進(jìn)行特征學(xué)習(xí)。

圖2 用于三維形狀識別的3D CNN網(wǎng)絡(luò)結(jié)構(gòu)圖[4]

雖然這類方法通過變換能一定程度地保留三維物體的形狀信息，但變換過程本身改變了三維形狀的局部和全局結(jié)構(gòu)，使得特征鑒別力下降。此外，將三維形狀進(jìn)行投影損失了大量的結(jié)構(gòu)信息，且這類方法通常要求三維形狀在豎直方向上進(jìn)行了對齊。

2.3 基于三維體素的方法

這類方法將三維形狀視為三維體素網(wǎng)格中的概率分布，從而將其表示為二值或?qū)嵵档娜S張量。圖3給出了椅子模型在不同分辨率下的三維體素表示。這類方法的優(yōu)勢在于三維體素完整保留了三維形狀信息，有利于提高特征的鑒別力。

圖3 椅子模型在不同分辨率下的三維體素表示[11]

比如，Wu等人[8]將三維形狀表示為二值概率分布，若體素在三維表面內(nèi)則其值為1，否則為0，并采用卷積深度置信網(wǎng)絡(luò)（CDBN）學(xué)習(xí)三維體素與標(biāo)簽之間的聯(lián)合分布。Xu等人[9]采用定向搜索對3D ShapeNets進(jìn)行優(yōu)化以減少CNN網(wǎng)絡(luò)的參數(shù)數(shù)量并提高分類精度。Xu等人[10]則把三維體素的每一層抽取出來組合成一個二值圖像輸入到CNN網(wǎng)絡(luò)中進(jìn)行特征學(xué)習(xí)。為進(jìn)一步降低計算量，Li等人[11]將三維形狀表示成體素場（Volumetric Fields）以克服三維體素表示的稀疏性問題，并采用一個場探索濾波器（Field Probing Filter）取代CNN中的卷積層來學(xué)習(xí)特征。Qi等人[12]系統(tǒng)比較了基于多視點投影和基于三維體素的方法，并通過增加輔助學(xué)習(xí)任務(wù)、多姿態(tài)數(shù)據(jù)增廣與池化融合等來提高三維形狀分類的性能。此外，Wu等人 [13]采用體素卷積網(wǎng)絡(luò)和生成對抗式網(wǎng)絡(luò)從概率空間中生成三維形狀，其通過非監(jiān)督學(xué)習(xí)得到的特征能獲得很好的三維目標(biāo)識別性能。

但是，這類方法也面臨一些挑戰(zhàn)，如：1）為使得網(wǎng)絡(luò)訓(xùn)練不過于復(fù)雜，三維體素的分辨率不能太高（通常為30×30×30），而較低的分辨率限制了所學(xué)特征的鑒別力；2）三維形狀表面所占的體素比例不高，使得體素化結(jié)果較稀疏，因此需要設(shè)計合理的網(wǎng)絡(luò)以避免大量乘0或者為空的運算。

2.4 基于原始數(shù)據(jù)的方法

這類方法針對三維形狀數(shù)據(jù)的特點設(shè)計特定的神經(jīng)網(wǎng)絡(luò)輸入層，使得網(wǎng)絡(luò)能很好地應(yīng)對三維形狀數(shù)據(jù)非規(guī)則化的問題。

對于網(wǎng)格表示，Han等人[14]提出了一種Mesh卷積受限玻爾茲曼機(jī)（MCRBM）以實現(xiàn)三維形狀的非監(jiān)督特征學(xué)習(xí)。該方法首先在三維形狀上均勻放置固定點數(shù)的節(jié)點，并在這些節(jié)點上用局部函數(shù)能量分布（LFED）來表達(dá)三維形狀局部區(qū)域的幾何和結(jié)構(gòu)信息，進(jìn)而采用卷積深度置信網(wǎng)絡(luò)來學(xué)習(xí)高層特征。Han等人[15]還提出了一種圓形卷積受限玻爾茲曼機(jī)（CCRBM）來學(xué)習(xí)三維局部區(qū)域的幾何和結(jié)構(gòu)信息。該方法首先將局部區(qū)域上的點投影到該區(qū)域中心的切平面上并獲得投影距離分布（PDD）特征，進(jìn)而采用傅里葉變換系數(shù)獲得旋轉(zhuǎn)不變的特征，最后采用卷積受限玻爾茲曼機(jī)學(xué)習(xí)高層特征。

對于點云表示，Qi等人[16]認(rèn)為解決輸入點云的無序問題有三種解決思路： 1）將輸入點云進(jìn)行排序，但在高維空間中難以確保排序結(jié)果的穩(wěn)定性；2）將輸入點云看作一個序列去訓(xùn)練RNN網(wǎng)絡(luò)，并采用不同排列組合得到的點云作為增廣數(shù)據(jù)訓(xùn)練RNN網(wǎng)絡(luò)，但對于包含大量點的點云來說這一方法并不能獲得很好的不變性；3）采用一個對稱函數(shù)融合每個點的信息，該對稱函數(shù)以所有點作為輸入但輸出一個對點序不變的向量。Qi等人[16]采用第三種思路，以多層感知網(wǎng)絡(luò)及Max-Pooling來近似該對稱函數(shù)，通過訓(xùn)練獲得對點序不敏感的特征表示。該方法被成功應(yīng)用于三維形狀分類、物體部件分割以及語義場景分割。

三、未來發(fā)展方向

相對于二維圖像而言，對三維形狀的深度特征表示研究才剛剛起步。隨著三維成像傳感器的進(jìn)一步普及，三維形狀特征學(xué)習(xí)及相關(guān)應(yīng)用的研究將得到更多關(guān)注。在這一領(lǐng)域，依然有很多方向值得挖掘，比如：非剛性三維形狀的特征學(xué)習(xí)；大規(guī)模點云的特征學(xué)習(xí)，特別是測繪制圖和自動駕駛場景下的點云實時特征學(xué)習(xí)；以及遮擋和背景干擾下的三維目標(biāo)檢測與識別。

參考文獻(xiàn)

[1]. Y. Guo, M. Bennamoun, F. Sohel, M. Lu, J. Wan. 3D object recognition in cluttered scenes with local surface features: a survey IEEE PAMI, 36: 2270-2287, 2014

[2]. S. Bu, Z. Liu, J. Han, J. Wu, R. Ji. Learning High-Level Feature by Deep Belief Networks for 3-D Model Retrieval and Recognition. IEEE TMM, 16(8): 2154-2167, 2014

[3]. J. Xie, G. Dai, F. Zhu, E. Wong, Y. Fang. DeepShape: Deep-Learned Shape Descriptor for 3D Shape Retrieval. IEEE TPAMI, 2016

[4]. H. Su, S. Maji, E. Kalogerakis, E. Learned-Miller. Multi-view Convolutional Neural Networks for 3D Shape Recognition, ICCV, 2015

[5]. B. Shi, S. Bai, Z. Zhou, X. Bai. DeepPano: Deep Panoramic Representation for 3-D Shape Recognition. IEEE Signal Processing Letters, 22: 2339-234, 2015

[6]. A. Sinha, J. Bai, K. Ramani. Deep Learning 3D Shape Surfaces Using Geometry Images. ECCV, 223-240, 2016

[7]. E. Kalogerakis, M. Averkiou, S. Maji, S. Chaudhuri. 3D Shape Segmentation with Projective Convolutional Networks. arXiv preprint arXiv:1612.02808, 2016

[8]. Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang. 3D ShapeNets: A Deep Representation for Volumetric Shapes, CVPR, 1912-1920, 2015

[9]. X. Xu, S. Todorovic. Beam Search for Learning a Deep Convolutional Neural Network of 3D Shapes. arXiv preprint arXiv:1612.04774, 2016

[10]. X. Xu, D. Corrigan, A. Dehghani, S. Caulfield, D. Moloney. 3D Object Recognition Based on Volumetric Representation Using Convolutional Neural Networks. International Conference on Articulated Motion and Deformable Objects. 147-156, 2016

[11]. Y. Li, S. Pirk, H. Su, C. R. Qi, L. J. Guibas. FPNN: Field Probing Neural Networks for 3D Data. NIPS, 307-315, 2016

[12]. C. R. Qi, H. Su, M. Niessner, A. Dai, M. Yan, L. J. Guibas. Volumetric and Multi-View CNNs for Object Classification on 3D Data, arXiv, 2016

[13]. J. Wu, C. Zhang, T. Xue, W. T. Freemanand, J. B. Tenenbaum. Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling. Advances In Neural Information Processing Systems, 2016

[14]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, C. L. P. Chen. Mesh Convolutional Restricted Boltzmann Machines for Unsupervised Learning of Features With Structure Preservation on 3-D Meshes. IEEE TNNLS, 2016

[15]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, X. Li. Unsupervised 3D Local Feature Learning by Circle Convolutional Restricted Boltzmann Machine. IEEE TIP, 2016.

[16]. C. R. Qi, H. Su, K. Mo, L. J. Guibas. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. arXiv preprint arXiv:1612.00593, 2016.