一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

三維形狀數(shù)據(jù)的深度特征表示

 祝重陽 2017-03-30


摘要

三維形狀特征表示是三維目標(biāo)識別、三維人臉識別以及三維模型檢索等研究的基礎(chǔ),在機(jī)器人、AR/VR、人機(jī)交互、遙感測繪等領(lǐng)域有著廣泛的應(yīng)用前景。近三年來,針對三維形狀數(shù)據(jù)深度特征表示的研究得到了越來越多的關(guān)注。本文對該方向所面臨的挑戰(zhàn)進(jìn)行了分析,并對現(xiàn)有算法進(jìn)行了簡要綜述。

引言

隨著三維成像技術(shù)的快速發(fā)展,低成本小型化三維傳感器近年來大量涌現(xiàn)并逐步配備到移動設(shè)備中,典型代表如Kinect,Realsense和Google Tango。三維傳感器能很好地捕獲場景三維信息,使智能設(shè)備更好地感知和理解周圍環(huán)境,在機(jī)器人、AR/VR、人機(jī)交互、遙感測繪等多個領(lǐng)域具有廣闊的應(yīng)用前景。

圖1 三維傳感器的應(yīng)用場景

三維傳感器獲得的數(shù)據(jù)是物體三維形狀的直觀反映,其可以表示為深度圖、點云或者網(wǎng)格等多種形式。其中,深度圖只能表示物體在單個視點下的距離信息,因此常稱為2.5維數(shù)據(jù),而點云和網(wǎng)格能表示物體在多個視點下的信息,因此常稱為三維形狀數(shù)據(jù)。有效的三維形狀特征表示是實現(xiàn)點云配準(zhǔn)、三維模型重建、三維形狀檢索、三維目標(biāo)識別、三維生物特征識別、場景語義分割、以及定位制圖等視覺任務(wù)的基礎(chǔ)。

一個好的特征應(yīng)該具有良好的鑒別力、穩(wěn)健性、不變性以及計算效率。自上世紀(jì)90年代開始,三維形狀特征提取算法經(jīng)歷了20余年的發(fā)展,逐步從手工特征過渡到基于深度學(xué)習(xí)的特征。手工特征通常通過提取三維形狀幾何屬性的空間分布或直方圖統(tǒng)計等方法得到,典型代表如Spin Image、FPFH、Heat Kernel Signature (HKS)、MeshHOG、RoPS等[1]。但這類方法依賴于研究者的領(lǐng)域知識,無法獲得適用于某一特定任務(wù)的最優(yōu)三維形狀特征表示。近年來,隨著三維形狀數(shù)據(jù)集的不斷完善,深度學(xué)習(xí)模型開始應(yīng)用于三維形狀特征表示,并產(chǎn)生了大量的研究成果。本文旨在簡要綜述該領(lǐng)域面臨的主要挑戰(zhàn),研究進(jìn)展以及潛在研究方向。

一、面臨的挑戰(zhàn)

相對于二維圖像領(lǐng)域,深度學(xué)習(xí)模型在三維形狀上的研究起步較晚,僅在近三年取得了較大的進(jìn)展。該領(lǐng)域面臨的主要問題如下。

1.1 三維形狀的結(jié)構(gòu)化表示

圖像是結(jié)構(gòu)化的,可以表示為二維平面上的一個矩陣,但三維點云和網(wǎng)格都是非結(jié)構(gòu)化的,不能直接輸入到深度神經(jīng)網(wǎng)絡(luò)中。因此,采用深度學(xué)習(xí)模型首先要解決三維形狀的結(jié)構(gòu)化表示問題。主要思路包括:1)在三維形狀上手工提取低級特征,再采用深度學(xué)習(xí)模型提取高級特征;2)將三維點云或網(wǎng)格轉(zhuǎn)化為系列二維圖像,再采用深度學(xué)習(xí)模型提取特征;3)將三維形狀體素化得到結(jié)構(gòu)化表示,再構(gòu)建三維深度學(xué)習(xí)模型提取特征;4)設(shè)計能適應(yīng)原始三維數(shù)據(jù)特點的深度學(xué)習(xí)模型。

1.2 公共數(shù)據(jù)集較小

相比于ImageNet等千萬量級的二維圖像數(shù)據(jù)集,傳統(tǒng)的三維形狀數(shù)據(jù)集很小。近年來發(fā)布的較大的數(shù)據(jù)集包括用于形狀分類與檢索的ModelNet和ShapeNet。ModelNet包含了來自662類的127915個三維形狀,其子集Model10包含了來自10類的4899個三維形狀,ModelNet40包含了來自40類的12311個三維形狀。ShapeNet包含了約300萬個形狀,其子集ShapeNetCore包含了來自55類的51300個形狀。較小的數(shù)據(jù)集對深度學(xué)習(xí)模型的設(shè)計與訓(xùn)練提出了更高要求。

1.3 神經(jīng)網(wǎng)絡(luò)運算量大

由于三維形狀比二維圖像在空間中多了一維信息,因此在保持相同空間分辨率的前提下,神經(jīng)網(wǎng)絡(luò)的運算量比圖像大很多。比如,即使將三維形狀采樣為30×30×30的體素,其運算量已相當(dāng)于165×165的圖像,而實際上分辨率為30×30×30的體素對形狀的表示是非常粗糙的。因此,如何既能獲得精細(xì)的三維形狀表示,又能將運算量控制在可接受的范圍內(nèi),是一個富有挑戰(zhàn)的問題。

1.4 物體姿態(tài)變化

由于三維物體的姿態(tài)是任意的,因此如何使得學(xué)習(xí)到的特征具有對姿態(tài)的不變性也是設(shè)計深度學(xué)習(xí)模型時需要考慮的問題。典型思路包括在預(yù)處理中對輸入數(shù)據(jù)進(jìn)行姿態(tài)歸一化,或者在神經(jīng)網(wǎng)絡(luò)中加入Max-Pooling等操作以消除姿態(tài)的影響。

二、現(xiàn)有方法分類

依據(jù)不同的數(shù)據(jù)表示方式,現(xiàn)有的三維形狀深度特征表示方法可以分為:基于手工特征的方法、基于投影圖像的方法、基于三維體素的方法以及基于原始數(shù)據(jù)的方法。

2.1 基于手工特征的方法

這類方法首先在三維形狀上提取手工特征,進(jìn)而將這些特征作為深度神經(jīng)網(wǎng)絡(luò)的輸入,用以學(xué)習(xí)高層特征表示。其優(yōu)勢在于可以充分利用現(xiàn)有的低層特征描述子及深度學(xué)習(xí)模型。

比如,Bu等人[2]首先將熱核特征和平均測地距離等構(gòu)成的低層特征通過Bag-of-Feature模型轉(zhuǎn)化為中層特征,接著采用深度置信網(wǎng)絡(luò)(DBN)從中層特征中學(xué)習(xí)高層特征表示,并成功應(yīng)用于三維形狀檢索與識別。Xie等人[3]首先提取三維形狀Heat Kernel Signature特征的多尺度直方圖分布作為自編碼機(jī)的輸入,然后在每個尺度上訓(xùn)練一個自編碼機(jī)并將多個尺度隱含層的輸出連接得到特征描述子,并在多個數(shù)據(jù)集上測試了該方法用于形狀檢索的有效性。

這類方法的缺陷在于,其仍然依賴手工特征的選擇與參數(shù)優(yōu)化,因此在某種程度上損失了深度學(xué)習(xí)的優(yōu)勢,無法從根本上克服手工特征存在的問題。

2.2 基于投影圖像的方法

這類方法首先將三維形狀投影到二維圖像空間,進(jìn)而在二維圖像上采用深度學(xué)習(xí)模型進(jìn)行特征學(xué)習(xí),其優(yōu)勢在于:1)可以充分利用二維圖像領(lǐng)域性能優(yōu)越的網(wǎng)絡(luò)架構(gòu);2)存在海量圖像數(shù)據(jù)供深度學(xué)習(xí)模型進(jìn)行預(yù)訓(xùn)練。

比如,Su等人[4]首先獲得三維形狀在12個不同視點下的投影圖,進(jìn)而采用VGG-M卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)各個視點下投影圖的特征,最后將多視點下的特征進(jìn)行池化并送入下一個CNN網(wǎng)絡(luò)中得到最終的形狀特征,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其第一級CNN網(wǎng)絡(luò)采用ImageNet進(jìn)行預(yù)訓(xùn)練并利用三維形狀的二維投影圖進(jìn)行精調(diào),實驗結(jié)果表明多視點圖像能獲得比單視點圖像更好的性能。Shi等人[5]通過沿主軸方向進(jìn)行圓柱投影將三維形狀轉(zhuǎn)化為多個全景圖,進(jìn)而利用CNN從全景圖中學(xué)習(xí)特征表示。由于在卷積層和全連接層之間加入了Max-Pooling操作,因此特征具有對繞主軸旋轉(zhuǎn)的不變性。Sinha等人[6]將三維形狀參數(shù)化到球形表面,進(jìn)而將球形表面投影到八面體后展開成二維平面,并采用主曲率或HKS在平面的分布獲得二維圖像,最后采用CNN網(wǎng)絡(luò)從二維圖像中學(xué)習(xí)特征表示。Kalogerakis等人[7]在不同視點及尺度下獲得三維形狀的系列陰影圖(Shaded Image)和深度圖,進(jìn)而采用全卷積網(wǎng)絡(luò)(FCN)進(jìn)行特征學(xué)習(xí)。

圖2 用于三維形狀識別的3D CNN網(wǎng)絡(luò)結(jié)構(gòu)圖[4]

雖然這類方法通過變換能一定程度地保留三維物體的形狀信息,但變換過程本身改變了三維形狀的局部和全局結(jié)構(gòu),使得特征鑒別力下降。此外,將三維形狀進(jìn)行投影損失了大量的結(jié)構(gòu)信息,且這類方法通常要求三維形狀在豎直方向上進(jìn)行了對齊。

2.3 基于三維體素的方法

這類方法將三維形狀視為三維體素網(wǎng)格中的概率分布,從而將其表示為二值或?qū)嵵档娜S張量。圖3給出了椅子模型在不同分辨率下的三維體素表示。這類方法的優(yōu)勢在于三維體素完整保留了三維形狀信息,有利于提高特征的鑒別力。

圖3 椅子模型在不同分辨率下的三維體素表示[11]

比如,Wu等人[8]將三維形狀表示為二值概率分布,若體素在三維表面內(nèi)則其值為1,否則為0,并采用卷積深度置信網(wǎng)絡(luò)(CDBN)學(xué)習(xí)三維體素與標(biāo)簽之間的聯(lián)合分布。Xu等人[9]采用定向搜索對3D ShapeNets進(jìn)行優(yōu)化以減少CNN網(wǎng)絡(luò)的參數(shù)數(shù)量并提高分類精度。Xu等人[10]則把三維體素的每一層抽取出來組合成一個二值圖像輸入到CNN網(wǎng)絡(luò)中進(jìn)行特征學(xué)習(xí)。為進(jìn)一步降低計算量,Li等人[11]將三維形狀表示成體素場(Volumetric Fields)以克服三維體素表示的稀疏性問題,并采用一個場探索濾波器(Field Probing Filter)取代CNN中的卷積層來學(xué)習(xí)特征。Qi等人[12]系統(tǒng)比較了基于多視點投影和基于三維體素的方法,并通過增加輔助學(xué)習(xí)任務(wù)、多姿態(tài)數(shù)據(jù)增廣與池化融合等來提高三維形狀分類的性能。此外,Wu等人 [13]采用體素卷積網(wǎng)絡(luò)和生成對抗式網(wǎng)絡(luò)從概率空間中生成三維形狀,其通過非監(jiān)督學(xué)習(xí)得到的特征能獲得很好的三維目標(biāo)識別性能。

但是,這類方法也面臨一些挑戰(zhàn),如:1)為使得網(wǎng)絡(luò)訓(xùn)練不過于復(fù)雜,三維體素的分辨率不能太高(通常為30×30×30),而較低的分辨率限制了所學(xué)特征的鑒別力;2)三維形狀表面所占的體素比例不高,使得體素化結(jié)果較稀疏,因此需要設(shè)計合理的網(wǎng)絡(luò)以避免大量乘0或者為空的運算。

2.4 基于原始數(shù)據(jù)的方法

這類方法針對三維形狀數(shù)據(jù)的特點設(shè)計特定的神經(jīng)網(wǎng)絡(luò)輸入層,使得網(wǎng)絡(luò)能很好地應(yīng)對三維形狀數(shù)據(jù)非規(guī)則化的問題。

對于網(wǎng)格表示,Han等人[14]提出了一種Mesh卷積受限玻爾茲曼機(jī)(MCRBM)以實現(xiàn)三維形狀的非監(jiān)督特征學(xué)習(xí)。該方法首先在三維形狀上均勻放置固定點數(shù)的節(jié)點,并在這些節(jié)點上用局部函數(shù)能量分布(LFED)來表達(dá)三維形狀局部區(qū)域的幾何和結(jié)構(gòu)信息,進(jìn)而采用卷積深度置信網(wǎng)絡(luò)來學(xué)習(xí)高層特征。Han等人[15]還提出了一種圓形卷積受限玻爾茲曼機(jī)(CCRBM)來學(xué)習(xí)三維局部區(qū)域的幾何和結(jié)構(gòu)信息。該方法首先將局部區(qū)域上的點投影到該區(qū)域中心的切平面上并獲得投影距離分布(PDD)特征,進(jìn)而采用傅里葉變換系數(shù)獲得旋轉(zhuǎn)不變的特征,最后采用卷積受限玻爾茲曼機(jī)學(xué)習(xí)高層特征。

對于點云表示,Qi等人[16]認(rèn)為解決輸入點云的無序問題有三種解決思路: 1)將輸入點云進(jìn)行排序,但在高維空間中難以確保排序結(jié)果的穩(wěn)定性;2)將輸入點云看作一個序列去訓(xùn)練RNN網(wǎng)絡(luò),并采用不同排列組合得到的點云作為增廣數(shù)據(jù)訓(xùn)練RNN網(wǎng)絡(luò),但對于包含大量點的點云來說這一方法并不能獲得很好的不變性;3)采用一個對稱函數(shù)融合每個點的信息,該對稱函數(shù)以所有點作為輸入但輸出一個對點序不變的向量。Qi等人[16]采用第三種思路,以多層感知網(wǎng)絡(luò)及Max-Pooling來近似該對稱函數(shù),通過訓(xùn)練獲得對點序不敏感的特征表示。該方法被成功應(yīng)用于三維形狀分類、物體部件分割以及語義場景分割。

三、未來發(fā)展方向

相對于二維圖像而言,對三維形狀的深度特征表示研究才剛剛起步。隨著三維成像傳感器的進(jìn)一步普及,三維形狀特征學(xué)習(xí)及相關(guān)應(yīng)用的研究將得到更多關(guān)注。在這一領(lǐng)域,依然有很多方向值得挖掘,比如:非剛性三維形狀的特征學(xué)習(xí);大規(guī)模點云的特征學(xué)習(xí),特別是測繪制圖和自動駕駛場景下的點云實時特征學(xué)習(xí);以及遮擋和背景干擾下的三維目標(biāo)檢測與識別。

參考文獻(xiàn)

[1]. Y. Guo, M. Bennamoun, F. Sohel, M. Lu, J. Wan. 3D object recognition in cluttered scenes with local surface features: a survey IEEE PAMI, 36: 2270-2287, 2014

[2]. S. Bu, Z. Liu, J. Han, J. Wu, R. Ji. Learning High-Level Feature by Deep Belief Networks for 3-D Model Retrieval and Recognition. IEEE TMM, 16(8): 2154-2167, 2014

[3]. J. Xie, G. Dai, F. Zhu, E. Wong, Y. Fang. DeepShape: Deep-Learned Shape Descriptor for 3D Shape Retrieval. IEEE TPAMI, 2016

[4]. H. Su, S. Maji, E. Kalogerakis, E. Learned-Miller. Multi-view Convolutional Neural Networks for 3D Shape Recognition, ICCV, 2015

[5]. B. Shi, S. Bai, Z. Zhou, X. Bai. DeepPano: Deep Panoramic Representation for 3-D Shape Recognition. IEEE Signal Processing Letters, 22: 2339-234, 2015

[6]. A. Sinha, J. Bai, K. Ramani. Deep Learning 3D Shape Surfaces Using Geometry Images. ECCV, 223-240, 2016

[7]. E. Kalogerakis, M. Averkiou, S. Maji, S. Chaudhuri. 3D Shape Segmentation with Projective Convolutional Networks. arXiv preprint arXiv:1612.02808, 2016

[8]. Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang. 3D ShapeNets: A Deep Representation for Volumetric Shapes, CVPR, 1912-1920, 2015

[9]. X. Xu, S. Todorovic. Beam Search for Learning a Deep Convolutional Neural Network of 3D Shapes. arXiv preprint arXiv:1612.04774, 2016

[10]. X. Xu, D. Corrigan, A. Dehghani, S. Caulfield, D. Moloney. 3D Object Recognition Based on Volumetric Representation Using Convolutional Neural Networks. International Conference on Articulated Motion and Deformable Objects. 147-156, 2016

[11]. Y. Li, S. Pirk, H. Su, C. R. Qi, L. J. Guibas. FPNN: Field Probing Neural Networks for 3D Data. NIPS, 307-315, 2016

[12]. C. R. Qi, H. Su, M. Niessner, A. Dai, M. Yan, L. J. Guibas. Volumetric and Multi-View CNNs for Object Classification on 3D Data, arXiv, 2016

[13]. J. Wu, C. Zhang, T. Xue, W. T. Freemanand, J. B. Tenenbaum. Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling. Advances In Neural Information Processing Systems, 2016

[14]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, C. L. P. Chen. Mesh Convolutional Restricted Boltzmann Machines for Unsupervised Learning of Features With Structure Preservation on 3-D Meshes. IEEE TNNLS, 2016

[15]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, X. Li. Unsupervised 3D Local Feature Learning by Circle Convolutional Restricted Boltzmann Machine. IEEE TIP, 2016.

[16]. C. R. Qi, H. Su, K. Mo, L. J. Guibas. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. arXiv preprint arXiv:1612.00593, 2016.

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    91欧美一区二区三区成人| 国产精品欧美一区二区三区不卡| 极品少妇嫩草视频在线观看| 美女黄色三级深夜福利| 中文字幕日韩无套内射| 国产精品夜色一区二区三区不卡| 欧美中文字幕日韩精品| 日本人妻精品中文字幕不卡乱码| 国产亚洲欧美日韩国亚语| 色偷偷偷拍视频在线观看| 欧美精品亚洲精品日韩专区| 婷婷一区二区三区四区| 国内欲色一区二区三区| 91蜜臀精品一区二区三区| 亚洲高清中文字幕一区二区三区| 亚洲中文字幕人妻av| 国产香蕉国产精品偷在线观看 | 欧美日韩精品综合在线| 超碰在线免费公开中国黄片| 日韩精品区欧美在线一区| 国产麻豆成人精品区在线观看| 99一级特黄色性生活片| 欧美日韩在线视频一区| 国产成人精品在线播放| 乱女午夜精品一区二区三区| 精品国产日韩一区三区| 特黄大片性高水多欧美一级| 婷婷激情五月天丁香社区| 老熟妇2久久国内精品| 91日韩欧美国产视频| 国产内射一级一片内射高清视频| 99久久精品免费精品国产| 午夜福利视频偷拍91| 青青免费操手机在线视频| 1024你懂的在线视频| 精品久久综合日本欧美| 久久精品国产亚洲av麻豆尤物| 丰满少妇被猛烈插入在线观看| 免费在线观看激情小视频| 成年人视频日本大香蕉久久| 性欧美唯美尤物另类视频|