轉(zhuǎn)自:http://imbinwang./blog/object-detection-review
Bin WangAbout Archive
目標(biāo)檢測簡要綜述
May 6, 2015
6 minute read
目標(biāo)檢測(Object Detection)是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)基礎(chǔ)性的研究課題,主要包含兩類不同的檢測任務(wù):目標(biāo)實(shí)例檢測(Instance Object Detection)和目標(biāo)類別檢測(Generic Object Detection).
研究和實(shí)際意義
第一類檢測任務(wù)的目標(biāo)是識(shí)別并定位輸入圖像中已知特定的某個(gè)或多個(gè)物體,例如一輛特定的汽車.這類任務(wù)可認(rèn)為是特定物體的樣本集和待檢測輸入圖像中特定物體間的匹配問題,樣本集和待檢測輸入圖像中的目標(biāo)的差異主要源自成像條件的變化.第二類檢測任務(wù)關(guān)注分類并定位預(yù)定義類別涵蓋的所有可能個(gè)體,例如車輛檢測、行人檢測.與目標(biāo)實(shí)例檢測任務(wù)相比,目標(biāo)類別檢測更具挑戰(zhàn)性.因?yàn)檎鎸?shí)世界中很多不同類別間物體的視覺差異是很小的,而且同一類物體間的差異不僅受成像條件變化的影響,還受物體物理屬性變化的影響,例如,在生物學(xué)上花是極為多樣的,個(gè)體間的顏色、紋理和形狀是千變?nèi)f化的.在真實(shí)場景中目標(biāo)通常只占據(jù)整個(gè)場景的小部分而且可能被其它物體遮擋,或者場景中伴隨出現(xiàn)視覺上相似的背景結(jié)構(gòu),這些情形的出現(xiàn)也對(duì)目標(biāo)檢測任務(wù)構(gòu)成極大的挑戰(zhàn).
總之,目標(biāo)檢測任務(wù)可分為兩個(gè)關(guān)鍵的子任務(wù):目標(biāo)分類和目標(biāo)定位.目標(biāo)分類任務(wù)負(fù)責(zé)判斷輸入圖像中是否有感興趣類別的物體出現(xiàn),輸出一系列帶分?jǐn)?shù)的標(biāo)簽表明感興趣類別的物體出現(xiàn)在輸入圖像的可能性.目標(biāo)定位任務(wù)負(fù)責(zé)確定輸入圖像中感興趣類別的物體的位置和范圍,輸出物體的包圍盒,或物體中心,或物體的閉合邊界等,通常方形包圍盒是最常用的選擇.
目標(biāo)檢測是大量高級(jí)視覺任務(wù)的必備前提,包括活動(dòng)或事件識(shí)別、場景內(nèi)容理解等.而且目標(biāo)檢測也被應(yīng)用到很多實(shí)際任務(wù),例如智能視頻監(jiān)控[1],基于內(nèi)容的圖像檢索[2],機(jī)器人導(dǎo)航[3]和增強(qiáng)現(xiàn)實(shí)[4]等.目標(biāo)檢測對(duì)計(jì)算機(jī)視覺領(lǐng)域和實(shí)際應(yīng)用具有重要意義,在過去幾十年里激勵(lì)大批研究人員密切關(guān)注并投入研究.而且隨著強(qiáng)勁的機(jī)器學(xué)習(xí)理論和特征分析技術(shù)的發(fā)展,近十幾年目標(biāo)檢測課題相關(guān)的研究活動(dòng)有增無減,每年都有最新的研究成果和實(shí)際應(yīng)用發(fā)表和公布.盡管如此,當(dāng)前方法的檢測準(zhǔn)確率仍然較低而不能應(yīng)用于實(shí)際通用的檢測任務(wù).因此,目標(biāo)檢測還遠(yuǎn)未被完美解決,仍舊是重要的挑戰(zhàn)性的研究課題.
研究工作綜述
目前不管是目標(biāo)實(shí)例檢測還是目標(biāo)類別檢測課題,都存在著大量研究工作.
目標(biāo)實(shí)例檢測
對(duì)于目標(biāo)實(shí)例檢測,根據(jù)物體實(shí)例表觀特征的判別性可以進(jìn)一步細(xì)分為無紋理目標(biāo)實(shí)例檢測和紋理目標(biāo)實(shí)例檢測.真實(shí)世界中大量人造物體是無紋理或少紋理的,例如杯子,手機(jī)等.對(duì)于無紋理或少紋理的物體,視覺特征不能穩(wěn)定可靠地被提取到,它們難以被識(shí)別和檢測.由于沒有穩(wěn)定的判別力強(qiáng)的特征點(diǎn),無紋理或少紋理目標(biāo)的判別性主要由目標(biāo)的輪廓和形狀決定.當(dāng)目標(biāo)紋理豐富時(shí),目標(biāo)實(shí)例上能夠提取穩(wěn)定豐富的特征點(diǎn)和相應(yīng)的特征描述子,紋理物體可以基于這些特征點(diǎn)和特征描述子被準(zhǔn)確識(shí)別和檢測.SIFT[5]、其它判別性特征描述子PCA-SIFT[6]、SURF[7]等的發(fā)展對(duì)紋理物體的識(shí)別和檢測產(chǎn)生了重大影響.SIFT提取多尺度空間上高斯差分圖的極值點(diǎn)作為特征點(diǎn),并在每個(gè)特征點(diǎn)的鄰域內(nèi)計(jì)算梯度方向直方圖作為特征描述子.SIFT特征具有尺度不變性,并且對(duì)圖像旋轉(zhuǎn)和光照變化也有較強(qiáng)的魯棒性,應(yīng)用于富紋理物體檢測有較好效果.由于無紋理物體上較難提取穩(wěn)定的判別力強(qiáng)的特征點(diǎn),上文描述的基于特征點(diǎn)的物體實(shí)例檢測方法并不適用于無紋理物體實(shí)例檢測.無紋理物體主要是由它的輪廓結(jié)構(gòu)定義.大部分無紋理物體實(shí)例檢測是基于模板匹配方式的.早期的模板匹配方法[8]和它的擴(kuò)展[9]使用Chamfer距離度量模板和輸入圖像輪廓之間的差異.距離通過距離變換有效地計(jì)算,但是這種方法對(duì)外點(diǎn)極為敏感.另一種二值圖像的距離度量方式是Hausdorff距離[10],它易受遮擋和復(fù)雜背景的影響.所有這些方法使用的二值圖像是通過邊緣提取算法[11]得到的, 因此它們對(duì)光照變化和噪聲極為敏感.Hinterstoisser a[12]Hinterstoisser b[13]為了避免上述算法的缺陷,提出使用圖像梯度而不是圖像輪廓作為匹配的特征.Hinterstoisser a[12]Hinterstoisser b[13]相繼提出了兩種基于圖像梯度方向作為特征的使用模板匹配技術(shù)的無紋理物體檢測算法,它們提出了新穎的圖像梯度方向特征的二進(jìn)制表示方式,能夠在背景復(fù)雜環(huán)境下實(shí)時(shí)檢測多類無紋理物體.然而,這兩種方法并未顯式地考慮物體邊緣輪廓的連通性約束,在復(fù)雜背景下易與相似形狀的背景產(chǎn)生混淆,因此具有一定的誤檢率.后續(xù)工作Rios-Cabrera a[14]Rios-Cabrera b[15]通過機(jī)器學(xué)習(xí)改進(jìn)模板上特征的判別性,來提高檢測準(zhǔn)確率.為了強(qiáng)化邊緣連通性的約束,Hsiao c[16]提出一種新的形狀匹配算法,該算法通過在圖像梯度上構(gòu)建一張圖模型,能夠顯式地獲得輪廓連通性約束.算法通過迭代優(yōu)化,為每個(gè)像素計(jì)算匹配到目標(biāo)形狀的概率.該方法能夠提高檢測準(zhǔn)確率,但是不能實(shí)時(shí)處理視頻或圖像序列.文獻(xiàn)12-16逐步完善了基于圖像梯度的無紋理物體實(shí)例檢測算法,然而所有算法都沒能解決遮擋對(duì)檢測準(zhǔn)確率造成衰減的問題.遮擋在計(jì)算機(jī)視覺領(lǐng)域各個(gè)課題中都是比較棘手的問題.Hsiao d[17]提出了針對(duì)任意視點(diǎn)情況下物體檢測的遮擋模型,它利用場景中物件尺寸的統(tǒng)計(jì)信息和目標(biāo)物體自身的尺寸,為物體建立遮擋模型和遮擋條件模型.針對(duì)特定環(huán)境建立的遮擋模型能較好的建模遮擋,提高物體檢測準(zhǔn)確率.然而,針對(duì)每個(gè)特殊場景建立遮擋模型較為繁瑣復(fù)雜,不具普適性.關(guān)于遮擋模型的建立是淺嘗輒止,建立新的更為普適的模型仍非常困難.另一方面,為了增加檢測的魯棒性,多模態(tài)的數(shù)據(jù)使用也越來越被關(guān)注, 18-19使用深度信息提取物體的表面法向用于匹配,增加了檢測算法的魯棒性.文獻(xiàn)20詳細(xì)分析了目標(biāo)實(shí)例檢測中的各種亟待解決的問題,并提出了一定的解決方案.
目標(biāo)類別檢測
對(duì)于目標(biāo)類別檢測,相關(guān)研究工作一直是計(jì)算機(jī)視覺的研究熱點(diǎn).特殊類別的目標(biāo)檢測,例如人臉和行人,檢測技術(shù)已經(jīng)較為成熟.Viola[21]提出基于AdaBoost算法框架,使用Haar-like小波特征分類,然后采用滑動(dòng)窗口搜索策略實(shí)現(xiàn)準(zhǔn)確有效地定位.它是第一種能實(shí)時(shí)處理并給出很好檢測率的物體類別檢測算法,主要應(yīng)用于人臉檢測.Dalal[22] 提出使用圖像局部梯度方向直方圖(HOG)作為特征,利用支持向量機(jī)(SVM)作為分類器進(jìn)行行人檢測.更為普遍的目標(biāo)檢測工作關(guān)注自然圖像中一般類別的檢測.自然界的大部分物體具有運(yùn)動(dòng)能力,會(huì)發(fā)生非剛體形變,為此Felzenszwalb[23]提出了目標(biāo)類別檢測最具影響力的方法之一多尺度形變部件模型(DPM),繼承了使用HOG特征和SVM分類器的優(yōu)點(diǎn).DPM目標(biāo)檢測器由一個(gè)根濾波器和一些部件濾波器組成,組件間的形變通過隱變量進(jìn)行推理.由于目標(biāo)模板分辨率固定,算法采用滑動(dòng)窗口策略在不同尺度和寬高比圖像上搜索目標(biāo).后續(xù)工作采用不同策略加速了DPM的窮盡搜索策略.Malisiewicz[24]提出一種簡單高效的集成學(xué)習(xí)算法用于目標(biāo)類別檢測,該方法分別為每個(gè)正樣本訓(xùn)練一個(gè)使用HOG特征的線性SVM,通過集成每個(gè)樣本的線性SVM結(jié)果達(dá)到優(yōu)良的泛化性能.Ren[25]認(rèn)為先前基于HOG特征的檢測方法中HOG特征是人為設(shè)計(jì)的,判別能力弱且不直觀,為此提出一種基于稀疏表達(dá)學(xué)習(xí)理論的稀疏編碼直方圖特征(HSC),并用HSC代替DPM目標(biāo)檢測算法中HOG特征,檢測準(zhǔn)確率高于原方法.Wang[26]為去除DPM模型需要人為指定組件個(gè)數(shù)及組件間關(guān)系和窮盡搜索的限制,提出了一種新的特征表達(dá)方式Regionlets,采用選擇性搜索策略對(duì)每個(gè)候選檢測包圍盒進(jìn)行多種區(qū)域特征的集成級(jí)聯(lián)式分類.Regionlets保留了目標(biāo)的空間結(jié)構(gòu)關(guān)系,靈活地描述目標(biāo),包括發(fā)生形變的目標(biāo).2012年前,目標(biāo)檢測中分類任務(wù)的框架就是使用人為設(shè)計(jì)的特征訓(xùn)練淺層分類器完成分類任務(wù),最佳算法是基于DPM框架的各種改進(jìn)算法.2012年,Krizhevsky[27]提出基于深度學(xué)習(xí)理論的深度卷積神經(jīng)網(wǎng)(DCNN)的圖像分類算法,使圖像分類的準(zhǔn)確率大幅提升,同時(shí)也帶動(dòng)了目標(biāo)檢測準(zhǔn)確率的提升.Szegedy[28]將目標(biāo)檢測問題看做目標(biāo)mask的回歸問題,使用DCNN作為回歸器預(yù)測輸入圖像中目標(biāo)的mask.Erhan[29]使用DCNN對(duì)目標(biāo)的包圍盒進(jìn)行回歸預(yù)測,并給出每個(gè)包圍盒包含類別無關(guān)對(duì)象的置信度.Sermanet[30]提出一種DCNN框架OverFeat,集成了識(shí)別、定位和檢測任務(wù),為分類訓(xùn)練一個(gè)CNN,為每個(gè)類訓(xùn)練一個(gè)定位用CNN.OverFeat對(duì)輸入圖像采用滑動(dòng)窗口策略用分類模型確定每個(gè)窗口中目標(biāo)的類別,然后使用對(duì)應(yīng)類別的的定位模型預(yù)測目標(biāo)的包圍盒,根據(jù)分類分?jǐn)?shù)為每個(gè)類選出候選包圍盒進(jìn)行合并,得到最終的檢測結(jié)果.與OverFeat不同,R-CNN[31]采用選擇性搜索策略而不是滑動(dòng)窗口來提高檢測效率.R-CNN利用選擇性搜索方法在輸入圖像上選擇若干候選包圍盒,對(duì)每個(gè)包圍盒利用CNN提取特征,輸入到為每個(gè)類訓(xùn)練好的SVM分類器,得到包圍盒屬于每個(gè)類的分?jǐn)?shù).最后,R-CNN使用非極大值抑制方法(NMS)舍棄部分包圍盒,得到檢測結(jié)果.上述方法使用的DCNN結(jié)構(gòu)基本源自Krizhevsky的7層網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),為了提高DCNN的分類和檢測準(zhǔn)確率,Simonyan[32]和Szegedy[33]設(shè)計(jì)了層數(shù)22層的深度卷積神經(jīng)網(wǎng)絡(luò),采用的檢測框架都類似R-CNN.目前,深度卷積神經(jīng)網(wǎng)絡(luò)是多個(gè)目標(biāo)類別檢測數(shù)據(jù)集上的state of the art.
挑戰(zhàn)
不管是對(duì)目標(biāo)實(shí)例檢測或者目標(biāo)類別檢測,當(dāng)前目標(biāo)檢測仍存在著挑戰(zhàn),總體來說,挑戰(zhàn)性主要體現(xiàn)在以下兩個(gè)方面:魯棒性和計(jì)算復(fù)雜性.
目標(biāo)檢測的魯棒性主要由類內(nèi)表觀差異和類間表觀差異影響,大的類內(nèi)表觀差異和小的類間表觀差異通常會(huì)導(dǎo)致目標(biāo)檢測方法的魯棒性降低.類內(nèi)表觀差異是指同類不同個(gè)體間的變化,例如,馬的不同個(gè)體在顏色、紋理、形狀、姿態(tài)等方面存在差異.由于光照、背景、姿態(tài)、視點(diǎn)的變化和遮擋的影響,即使同一匹馬在不同的圖像中看起來也會(huì)非常不同,使得構(gòu)建具備泛化能力的表觀模型極為困難.
目標(biāo)檢測的計(jì)算復(fù)雜性主要源自待檢測目標(biāo)類別的數(shù)量、類別表觀描述子的維度、大量有標(biāo)簽數(shù)據(jù)的獲取.真實(shí)世界中物體類別數(shù)量成百上千并且表觀描述子是高維度的,大量充足的有標(biāo)簽數(shù)據(jù)的獲取極為耗時(shí)耗力,因此目標(biāo)檢測的計(jì)算機(jī)復(fù)雜性較高,設(shè)計(jì)高效的目標(biāo)檢測算法至關(guān)重要.當(dāng)前部分工作提出了新的特征匹配方法和定位策略.Dean[34]提出使用局部敏感哈希方法代替匹配中卷積核和圖像間的點(diǎn)乘操作,可以提速近20倍.另一類計(jì)算復(fù)雜性研究方向關(guān)注如何減少目標(biāo)檢測時(shí)的搜索空間,這類方法統(tǒng)稱為選擇性搜索策略(Selective Search)或?qū)ο笮怨烙?jì)(Objectess Estimation).它們的核心思想是一張圖像中并不是每個(gè)子窗口都包含有類別無關(guān)的對(duì)象,僅有少量候選窗口是目標(biāo)檢測時(shí)有意義的候選窗口.選擇性搜索方法[35]和BING方法[36]是較為常用的候選窗口生成方法.
除此之外,人工標(biāo)注大量目標(biāo)類別檢測數(shù)據(jù)是極為耗時(shí)耗力的工作,現(xiàn)今最為常用的目標(biāo)類別檢測數(shù)據(jù)集有ImageNet[37]、PASCAL VOC[38]、SUN[39]和Microsoft COCO[40]等.因此目標(biāo)檢測面臨的兩大挑戰(zhàn)依沒變,高準(zhǔn)確率高效率的目標(biāo)檢測算法的設(shè)計(jì)依舊是有意義的開放性問題.
Reference
[1] Aggarwal J K, Ryoo M S. Human activity analysis: A review[J]. ACM Computing Surveys (CSUR), 2011, 43(3): 16.
[2] Datta R, Joshi D, Li J, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys (CSUR), 2008, 40(2): 5.
[3] Krüger V, Kragic D, Ude A, et al. The meaning of action: a review on action recognition and mapping[J]. Advanced Robotics, 2007, 21(13): 1473-1501.
[4] Palmese M, Trucco A. From 3-D sonar images to augmented reality models for objects buried on the seafloor[J]. Instrumentation and Measurement, IEEE Transactions on, 2008, 57(4): 820-828.
[5] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91-110.
[6] Ke Y, Sukthankar R. PCA-SIFT: A more distinctive representation for local image descriptors[C]//Computer Vision and Pattern Recognition, 2004. CVPR 2004.
Proceedings of the 2004 IEEE Computer Society Conference on. IEEE, 2004, 2: II-506-II-513 Vol. 2.
[7] Bay H, Tuytelaars T, Van Gool L. Surf: Speeded up robust features[M]//Computer Vision–ECCV 2006. Springer Berlin Heidelberg, 2006: 404-417.
[8] Olson C F, Huttenlocher D P. Automatic target recognition by matching oriented edge pixels[J]. Image Processing, IEEE Transactions on, 1997, 6(1): 103-113.
[9] Gavrila D M, Philomin V. Real-time object detection for “smart” vehicles[C]//Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference on. IEEE, 1999, 1: 87-93.
[10] Rucklidge W J. Efficiently locating objects using the Hausdorff distance[J]. International Journal of computer vision, 1997, 24(3): 251-270.
[11] Canny J. A computational approach to edge detection[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1986 (6): 679-698.
[12] Hinterstoisser S, Lepetit V, Ilic S, et al. Dominant orientation templates for real-time detection of texture-less objects[C]//Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010: 2257-2264.
[13] Hinterstoisser S, Cagniart C, Ilic S, et al. Gradient response maps for real-time detection of textureless objects[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2012, 34(5): 876-888.
[14] Rios-Cabrera R, Tuytelaars T. Discriminatively Trained Templates for 3D Object Detection: A Real Time Scalable Approach[C]//Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013: 2048-2055.
[15] Rios-Cabrera R, Tuytelaars T. Boosting masked dominant orientation templates for efficient object detection[J]. Computer Vision and Image Understanding, 2014, 120: 103-116.
[16] Hsiao E, Hebert M. Gradient Networks: Explicit Shape Matching Without Extracting Edges[C]//AAAI. 2013.
[17] Hsiao E, Hebert M. Occlusion reasoning for object detection under arbitrary viewpoint[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 3146-3153.
[18] Hinterstoisser S, Holzer S, Cagniart C, et al. Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes[C]//Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011: 858-865.
[19] Hinterstoisser S, Lepetit V, Ilic S, et al. Model based training, detection and pose estimation of texture-less 3D objects in heavily cluttered scenes[M]//Computer Vision–ACCV 2012. Springer Berlin Heidelberg, 2013: 548-562.
[20] Hsiao E. Addressing ambiguity in object instance detection. Doctoral dissertation, tech. report CMU-RI-TR-13-16, Carnegie Mellon University, 2013.
[21] Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[C]//Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on. IEEE, 2001, 1: I-511-I-518 vol. 1.
[22] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. IEEE, 2005, 1: 886-893.
[23] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part-based models[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2010, 32(9): 1627-1645.
[24] Malisiewicz T, Gupta A, Efros A A. Ensemble of exemplar-svms for object detection and beyond[C]//Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011: 89-96.
[25] Ren X, Ramanan D. Histograms of sparse codes for object detection[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013: 3246-3253.
[26] Wang X, Yang M, Zhu S, et al. Regionlets for generic object detection[C]//Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013: 17-24.
[27] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[28] Szegedy C, Toshev A, Erhan D. Deep neural networks for object detection[C]//Advances in Neural Information Processing Systems. 2013: 2553-2561.
[29] Erhan D, Szegedy C, Toshev A, et al. Scalable Object Detection using Deep Neural Networks[J]. arXiv preprint arXiv:1312.2249, 2013.
[30] Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.
[31] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. arXiv preprint arXiv:1311.2524, 2013.
[32] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[33] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[J]. arXiv preprint arXiv:1409.4842, 2014.
[34] Dean T, Ruzon M A, Segal M, et al. Fast, accurate detection of 100,000 object classes on a single machine[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013: 1814-1821.
[35] Van de Sande K E A, Uijlings J R R, Gevers T, et al. Segmentation as selective search for object recognition[C]//Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011: 1879-1886.
[36] Cheng M M, Zhang Z, Lin W Y, et al. BING: Binarized normed gradients for objectness estimation at 300fps[C]//IEEE CVPR. 2014.
[37] ImageNet. http:///.
[38] PASCAL VOC. http://pascallin.ecs./challenges/VOC/.
[39] SUN. http://groups.csail./vision/SUN/.
[40] Microsoft COCO. http:///.
2015 - 2016 Bin Wang
|