轉(zhuǎn)載自:量子位 當(dāng)Transformer遇上3D點(diǎn)云,效果會怎么樣? 一個(gè)是當(dāng)下最熱門的模型(NLP、圖像領(lǐng)域表現(xiàn)都不錯(cuò)),另一個(gè)是自動(dòng)駕駛領(lǐng)域、機(jī)器人抓取等領(lǐng)域的關(guān)鍵技術(shù)。 PCT論文地址: PCT項(xiàng)目地址: 來自清華計(jì)算機(jī)系的團(tuán)隊(duì),開發(fā)出了一個(gè)全新的PCT網(wǎng)絡(luò),相比于目前主流的點(diǎn)云分割模型PointNet,不僅參數(shù)量減少,準(zhǔn)確度還從89.2%提升到了93.2%。 而且,相比于主流的點(diǎn)云分割網(wǎng)絡(luò)PointNet,分割的邊緣明顯更清晰: 但將Transformer推廣到3D點(diǎn)云,相關(guān)研究還非常少。 為此,團(tuán)隊(duì)自己做出了一種Transformer模型,并創(chuàng)新了其中的一些結(jié)構(gòu),將之適配到了點(diǎn)云上。 將Transformer推廣到點(diǎn)云上點(diǎn)云是一個(gè)坐標(biāo)系下點(diǎn)的數(shù)據(jù)集,包括坐標(biāo)、顏色、強(qiáng)度等多種信息。 而3D點(diǎn)云,則是用點(diǎn)云表示三維世界的一種方法,可以想象成將三維物體進(jìn)行原子化,用多個(gè)點(diǎn)來表示一種物體。 之所以3D建模采用點(diǎn)云這種方法,是因?yàn)樗粌H建模速度快,而且精度高、細(xì)節(jié)更準(zhǔn)確。 點(diǎn)云的生成方法,也符合激光雷達(dá)收集數(shù)據(jù)的特性,目前已經(jīng)被用于自動(dòng)駕駛技術(shù)中。 那么,為什么要用Transformer生成點(diǎn)云呢? 由于點(diǎn)云數(shù)據(jù)自身的不規(guī)則性和無序性,此前無法直接用卷積神經(jīng)網(wǎng)絡(luò)對點(diǎn)云進(jìn)行處理。 如果想用深度學(xué)習(xí)處理點(diǎn)云相關(guān)的任務(wù),就會非常不方便。 但當(dāng)研究者們將目光放到Transformer上時(shí),發(fā)現(xiàn)它的核心注意力機(jī)制,本身其實(shí)非常適合處理點(diǎn)云。
加之Transformer在之前的圖像任務(wù)上,都已經(jīng)取得了非常不錯(cuò)的性能,用來做點(diǎn)云的話,說不定效果也不錯(cuò)。 因此,團(tuán)隊(duì)開發(fā)了一個(gè)名叫PCT(Point Cloud Transformer)的點(diǎn)云Transformer,成功實(shí)踐了這一點(diǎn)。 網(wǎng)絡(luò)結(jié)構(gòu)整體分為三部分:輸入嵌入、注意力層和分類分割。 輸入嵌入部分的目的,是將點(diǎn)云從歐式空間xyz映射到128維空間。這里分為兩種嵌入的方式,點(diǎn)嵌入和鄰域嵌入,點(diǎn)嵌入負(fù)責(zé)單點(diǎn)信息,鄰域嵌入則負(fù)責(zé)單點(diǎn)和鄰域信息。 在注意力層中,作者采用了自注意力(self-attention)機(jī)制和偏置注意力(offset-attention)機(jī)制。 其中,offset-attention也是這篇論文的創(chuàng)新之處,作者為了讓Transformer的注意力機(jī)制能更好地作用于點(diǎn)云,提出了這種注意力機(jī)制,性能要比自注意力機(jī)制更好。 而在分類分割操作上,作者選擇對經(jīng)過注意力層后的特征直接進(jìn)行池化(采樣),再分別進(jìn)行分類和分割的下一步操作。 那么,這樣的網(wǎng)絡(luò)結(jié)構(gòu),是否效果真如想象中那么好? 參數(shù)少一半,效果還更好事實(shí)上,從分類和分割的效果上來看,圖像做得都還不錯(cuò)。 先看分類的效果,在ModelNet40數(shù)據(jù)集上的分類結(jié)果表明,PCT的分類精度可以達(dá)到93.2%,超越了目前所有點(diǎn)云的分類模型。 而在3D點(diǎn)云分割的效果上,模型做得也不錯(cuò)。 從注意力圖(attention map,標(biāo)量矩陣,查看層的重要性)的可視化來看,模型分割的邊緣和形狀也很清晰。 那么,與其他網(wǎng)絡(luò)對比的分割效果如何呢? 下圖是PCT與其他網(wǎng)絡(luò)對比的效果。 從16類列出的物體檢測精確度來看,PCT的效果達(dá)到了86.4%的水平,超過了目前所有3D點(diǎn)云分割的最新模型,同樣達(dá)到了SOTA。 至于模型參數(shù),最終的結(jié)果也非常不錯(cuò)。 其中參數(shù)最大的PCT,精度也達(dá)到了最高的93.2%,如果更側(cè)重于小型參數(shù)量,那么NPCT和SPCT則在1.36M參數(shù)的情況下,精確度分別達(dá)到了91%和92%。 從實(shí)際對比情況來看,三種PCT網(wǎng)絡(luò)結(jié)構(gòu)的分割效果,都要比PointNet的效果好得多(最右邊為初始模型)。 作者介紹6名作者來自清華大學(xué)胡事民團(tuán)隊(duì),卡迪夫大學(xué)。 清華大學(xué)計(jì)算機(jī)系的圖形學(xué)實(shí)驗(yàn)室成立于1998年3月,相關(guān)論文曾多次在ACM SIGGRAPH、IEEE CVPR等重要國際刊物上發(fā)表。 實(shí)驗(yàn)室目前的主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、智能信息處理、智能機(jī)器人、系統(tǒng)軟件等。 一作國孟昊,清華大學(xué)CS博士在讀,來自胡事民團(tuán)隊(duì)。 國孟昊曾經(jīng)是西安電子科技大學(xué)軟件工程2016級本科生,大二曾獲ACM金牌,數(shù)學(xué)建模美賽一等獎(jiǎng),在騰訊、商湯實(shí)習(xí)過。 目前,這一模型的相關(guān)代碼已經(jīng)開源,感興趣的小伙伴可以戳文末地址查看~ 參考鏈接: 重磅!DLer-計(jì)算機(jī)視覺交流群已成立! 大家好,這是DLer-計(jì)算機(jī)視覺微信交流群!歡迎各位Cver加入DLer-計(jì)算機(jī)視覺微信交流大家庭 。 本群旨在學(xué)習(xí)交流圖像分類、目標(biāo)檢測、目標(biāo)跟蹤、點(diǎn)云與語義分割、GAN、超分辨率、人臉檢測與識別、動(dòng)作行為與時(shí)空運(yùn)動(dòng)、模型壓縮和量化剪枝、遷移學(xué)習(xí)、人體姿態(tài)估計(jì)等內(nèi)容。希望能給大家提供一個(gè)更精準(zhǔn)的研討交流平臺?。?! 進(jìn)群請備注:研究方向+學(xué)校/公司+昵稱(如圖像分類+上交+小明) ?? 長按識別添加,即可進(jìn)群! |
|