一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

淺談深度學(xué)習(xí)的技術(shù)原理及其在計(jì)算機(jī)視覺(jué)的應(yīng)用

 愛(ài)因思念l5j0t8 2017-12-06

目前,深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺(jué)領(lǐng)域的標(biāo)配,也是當(dāng)下人工智能領(lǐng)域最熱門(mén)的研究方向。計(jì)算機(jī)視覺(jué)的應(yīng)用場(chǎng)景和深度學(xué)習(xí)背后的技術(shù)原理是什么呢?下面讓我們來(lái)一探究竟。

計(jì)算機(jī)視覺(jué)的應(yīng)用

什么是計(jì)算機(jī)視覺(jué)呢?形象地說(shuō),計(jì)算機(jī)視覺(jué)就是給計(jì)算機(jī)裝上眼睛(照相機(jī))和大腦(算法),讓計(jì)算機(jī)可以感知周?chē)沫h(huán)境。目前計(jì)算機(jī)視覺(jué)研究主要集中在基礎(chǔ)應(yīng)用場(chǎng)景,像圖片分類(lèi)、物體識(shí)別、人臉的3D建模等。

識(shí)別物體是圖片分類(lèi)的一個(gè)比較常見(jiàn)的應(yīng)用,例如一個(gè)簡(jiǎn)單的貓咪識(shí)別模型,我們首先要給計(jì)算機(jī)定義模型,然后準(zhǔn)備大量貓咪的照片去訓(xùn)練這個(gè)模型,讓計(jì)算機(jī)能識(shí)別出來(lái),輸一張圖片的時(shí)候能識(shí)別出圖片是不是貓咪。正常情況下計(jì)算機(jī)模型能識(shí)別得比較準(zhǔn)確,但是當(dāng)我們輸入了一些有遮擋、形態(tài)多變或者角度、光照不一的圖片時(shí),之前我們建立的模型就識(shí)別不出來(lái)。這就是計(jì)算機(jī)視覺(jué)在應(yīng)用中存在的難點(diǎn)問(wèn)題。

深度學(xué)習(xí)背后的技術(shù)原理

機(jī)器學(xué)習(xí)

在計(jì)算機(jī)視覺(jué)領(lǐng)域中是怎么運(yùn)用深度學(xué)習(xí)來(lái)解決問(wèn)題的呢?深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一種,這里先簡(jiǎn)單介紹下機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)的本質(zhì)其實(shí)是為了找到一個(gè)函數(shù),讓這個(gè)函數(shù)在不同的領(lǐng)域會(huì)發(fā)揮不同的作用。像語(yǔ)音識(shí)別領(lǐng)域,這個(gè)函數(shù)會(huì)把一段語(yǔ)音識(shí)別成一段文字;圖像識(shí)別的領(lǐng)域,這個(gè)函數(shù)會(huì)把一個(gè)圖像映射到一個(gè)分類(lèi);下圍棋的時(shí)候根據(jù)棋局和規(guī)則進(jìn)行博弈;對(duì)話,是根據(jù)當(dāng)前的對(duì)話生成下一段對(duì)話。

機(jī)器學(xué)習(xí)離不開(kāi)學(xué)習(xí)兩個(gè)字,根據(jù)不同的學(xué)習(xí)方式,可以分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)兩種方式。

監(jiān)督學(xué)習(xí)中,算法和數(shù)據(jù)是模型的核心所在。在監(jiān)督學(xué)習(xí)中最關(guān)鍵的一點(diǎn)是,我們對(duì)訓(xùn)練的每個(gè)數(shù)據(jù)都要打上標(biāo)簽,然后通過(guò)把這些訓(xùn)練數(shù)據(jù)輸入到算法模型經(jīng)過(guò)反復(fù)訓(xùn)練以后,每經(jīng)過(guò)一次訓(xùn)練都會(huì)減少算法模型的預(yù)計(jì)輸出和標(biāo)簽數(shù)據(jù)的差距。通過(guò)大量的訓(xùn)練,算法模型基本上穩(wěn)定下來(lái)以后,我們就可以把這個(gè)模型在測(cè)試數(shù)據(jù)集上驗(yàn)證模型的準(zhǔn)確性。這就是整個(gè)監(jiān)督學(xué)習(xí)的過(guò)程,監(jiān)督學(xué)習(xí)目前在圖片分類(lèi)上應(yīng)用得比較多。

再來(lái)看非監(jiān)督學(xué)習(xí)。跟監(jiān)督學(xué)習(xí)不同的地方是,非監(jiān)督學(xué)習(xí)不需要為所有的訓(xùn)練數(shù)據(jù)都打上標(biāo)簽。非監(jiān)督學(xué)習(xí)主要應(yīng)用在兩個(gè)大類(lèi),第一類(lèi)是做聚類(lèi)分析,聚類(lèi)分析是把一組看似無(wú)序的數(shù)據(jù)進(jìn)行分類(lèi)分組,以達(dá)到能夠更加更好理解的目的;另外是做自動(dòng)編碼器,在數(shù)據(jù)分析的時(shí)候,原始數(shù)據(jù)量往往比較大,除了包含一些冗余的數(shù)據(jù),還會(huì)包含一些對(duì)分析結(jié)果不重要的數(shù)據(jù)。自動(dòng)編碼器主要是對(duì)原始數(shù)據(jù)做降維操作,把冗余的數(shù)據(jù)去掉,提高后面數(shù)據(jù)分析的效率。
通過(guò)不同的學(xué)習(xí)方式獲取到數(shù)據(jù)后,算法是接下來(lái)非常重要的一環(huán)。算法之于計(jì)算機(jī)就像大腦對(duì)于我們?nèi)祟?lèi),選擇一個(gè)好的算法也是特別重要的。

上面是ImaegNet競(jìng)賽的結(jié)果,2012年以前圖片分類(lèi)采用的機(jī)器學(xué)習(xí)的模型是特征 支持向量機(jī)的模型,2012年以后是卷積神經(jīng)網(wǎng)絡(luò)的模型,卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)揮著至關(guān)重要的作用。為什么2014年以后卷積神經(jīng)網(wǎng)絡(luò)才發(fā)揮它的作用呢?我們先來(lái)看看神經(jīng)網(wǎng)絡(luò)。

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是受人腦神經(jīng)元結(jié)構(gòu)的啟發(fā),研究者認(rèn)為人腦所有的神經(jīng)元都是分層的,可以通過(guò)不同的層次學(xué)習(xí)不一樣的特征,由簡(jiǎn)單到復(fù)雜地模擬出各種特征。

上圖是計(jì)算機(jī)應(yīng)用數(shù)學(xué)的方式來(lái)模擬人腦中神經(jīng)元的示意圖。a1到ak是信號(hào)的輸入,神經(jīng)元會(huì)對(duì)輸入信號(hào)進(jìn)行兩次變換。第一部分是線性變換,因?yàn)樯窠?jīng)元會(huì)對(duì)自己感興趣的信號(hào)加一個(gè)權(quán)重;第二部分是非線性變換。

神經(jīng)網(wǎng)絡(luò)就是由許多的神經(jīng)元級(jí)聯(lián)而形成的,每一個(gè)神經(jīng)元都經(jīng)過(guò)線性變換和非線性變換,為什么會(huì)有非線性變換?從數(shù)學(xué)上看,沒(méi)有非線性變換,不管你神經(jīng)網(wǎng)絡(luò)層次有多深都等價(jià)于一個(gè)神經(jīng)元。如果沒(méi)有非線性變換,神經(jīng)網(wǎng)絡(luò)深度的概念就沒(méi)有什么意義了。

這是大家知道的神經(jīng)元網(wǎng)絡(luò)整體的模型,我們具體怎么來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)呢?

第一步,定義一個(gè)網(wǎng)絡(luò)模型,初始化所有神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置。定義好網(wǎng)絡(luò)模型以后再定義好這個(gè)模型的代價(jià)函數(shù),代價(jià)函數(shù)就是我們的預(yù)測(cè)數(shù)據(jù)和標(biāo)簽數(shù)據(jù)的差距,這個(gè)差距越小,說(shuō)明模型訓(xùn)練得越成功。第一次訓(xùn)練的時(shí)候會(huì)初始化所有神經(jīng)元的參數(shù)。輸入所有訓(xùn)練數(shù)據(jù)以后,通過(guò)當(dāng)前的模型計(jì)算出所有的預(yù)測(cè)值,計(jì)算預(yù)測(cè)值以后和標(biāo)簽數(shù)據(jù)比較,看一下預(yù)測(cè)值和實(shí)際值有多大的差距。

第二步,不斷優(yōu)化差距,使差距越來(lái)越小。神經(jīng)網(wǎng)絡(luò)根據(jù)導(dǎo)數(shù)的原理發(fā)明了反向傳播和梯度下降算法,通過(guò)N次訓(xùn)練后,標(biāo)簽數(shù)據(jù)與預(yù)測(cè)值之間的差距就會(huì)越來(lái)越小,直到趨于一個(gè)極致。這樣的話,所有神經(jīng)元的權(quán)重、偏置這些參數(shù)都訓(xùn)練完成了,我們的模型就確定下來(lái)了。接下來(lái)就可以在測(cè)試集上用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證模型的準(zhǔn)確率。

卷積神經(jīng)網(wǎng)絡(luò)

以上所講的都是一般的全連接神經(jīng)網(wǎng)絡(luò),接下來(lái)進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是專(zhuān)門(mén)針對(duì)圖片處理方面的神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)首先會(huì)輸入一張圖片,這張圖片是30×30,有三個(gè)顏色通道的數(shù)據(jù),這是輸入層。下面是卷積層,有一個(gè)卷積核的概念,每一個(gè)卷積核提取圖片的不同特征。

提取出來(lái)以后到池化層,就是把卷積層的數(shù)據(jù)規(guī)??s小,減少數(shù)據(jù)的復(fù)雜度。卷積和池化連起來(lái)我們叫做一個(gè)隱層,一個(gè)卷積神經(jīng)網(wǎng)絡(luò)會(huì)包含很多個(gè)隱層,隱層之后是全連接層,全連接層的目的是把前面經(jīng)過(guò)多個(gè)卷積池化層的特征把數(shù)據(jù)平鋪開(kāi),形成特征向量,我們把特征向量輸入到分類(lèi)器,對(duì)圖片進(jìn)行分類(lèi)。

簡(jiǎn)單來(lái)說(shuō),卷積神經(jīng)網(wǎng)絡(luò)更適合計(jì)算機(jī)視覺(jué)主要有兩個(gè)原因,一是參數(shù)共享,另外一個(gè)是稀疏連接。

基于深度學(xué)習(xí)的人臉識(shí)別算法模型

以上是深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的相關(guān)應(yīng)用以及它背后的技術(shù)原理,接下來(lái)看看基于深度學(xué)習(xí)的人臉識(shí)別算法模型。
先看一下人臉識(shí)別的應(yīng)用場(chǎng)景,主要分三個(gè)方面:
一是1:1的場(chǎng)景,如過(guò)安檢的時(shí)身份證和人臉比對(duì)、證券開(kāi)戶(hù);
二是1:N的場(chǎng)景,比如說(shuō)公安部要在大量的視頻中檢索犯罪嫌疑人;
三是大數(shù)據(jù)分析場(chǎng)景,主要是表情分類(lèi),還有醫(yī)學(xué)的分析等。

上圖主要是人臉識(shí)別簡(jiǎn)單的流程,右邊的是訓(xùn)練模型,有人臉的大數(shù)據(jù)庫(kù),經(jīng)過(guò)Gabor、LBP等經(jīng)驗(yàn)描述子,或深度學(xué)習(xí)算法提取特征模型,這個(gè)模型部署在應(yīng)用上,應(yīng)用通過(guò)攝像頭、視頻獲取到人臉以后做預(yù)處理,進(jìn)行特征提取,特征比對(duì),最后輸出結(jié)果,這是比較通用的人臉識(shí)別的流程。

DeepID算法

DeepID算法的目的是識(shí)別兩張圖片,最后的輸出是兩張圖片的相似度。輸入圖片A和圖片B,經(jīng)過(guò)DeepID卷積神經(jīng)網(wǎng)絡(luò)模型會(huì)計(jì)算出向量A和向量B,合并成向量AB。然后將向量AB輸入分類(lèi)器,算出向量AB的相似度,最后以這個(gè)相似度區(qū)分這兩個(gè)圖片是不是同一類(lèi)。

這里要提到的兩個(gè)模型,一是DeepID的模型,二是分類(lèi)器的模型。DeepID模型是用卷積神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練的,最后的應(yīng)用是把卷積神經(jīng)網(wǎng)絡(luò)后面的softmax分類(lèi)層去掉,得到softmax前面的特征向量;分類(lèi)器模型是比較經(jīng)典的如支持向量機(jī)/聯(lián)合貝葉斯分類(lèi)。訓(xùn)練過(guò)程中,把訓(xùn)練樣本分成五份,四份用來(lái)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),一份用來(lái)訓(xùn)練分類(lèi)器,可以相互印證。

DeepID除了在網(wǎng)絡(luò)模型上做的工作,還會(huì)對(duì)圖片做預(yù)處理。像Patch的處理,按照?qǐng)D片以人臉的某一個(gè)部位為中心生成固定大小的圖片,然后對(duì)每一個(gè)特定的Patch訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。一張圖片輸入后,切分成多個(gè)patch,分別輸入到對(duì)應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)。每一個(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出一個(gè)向量,通過(guò)降維的算法,把所有patch對(duì)應(yīng)的輸出向量進(jìn)行處理,去除冗余信息,得到人臉的向量表示。

最后在比較兩張人臉時(shí),就是分別將兩張人臉的這個(gè)向量輸入分類(lèi)器得到相似度結(jié)果的。這里多patch切分有一個(gè)優(yōu)勢(shì),比如在現(xiàn)實(shí)應(yīng)用中有一些人的臉部是被遮擋的,由于它是分為不同的patch,這樣的場(chǎng)景下魯棒性會(huì)比較好。

DeepFace算法

再來(lái)看DeepFace算法。這是人臉對(duì)齊的流程,這張圖是史泰龍的側(cè)臉圖片,第一步是把人臉截取出來(lái),對(duì)人臉上面68個(gè)基本點(diǎn),描述出基本點(diǎn)以后,用三角剖分的算法把68個(gè)基本點(diǎn)連起來(lái),然后將標(biāo)準(zhǔn)的人臉模型運(yùn)用到三角剖分上,這樣標(biāo)準(zhǔn)的人臉模型就具備了這樣的深度。

經(jīng)過(guò)仿射變形后,將側(cè)臉模型轉(zhuǎn)成正臉模型,最后把這個(gè)模型應(yīng)用到具體的圖片上,就得到了人的正臉圖片。這個(gè)算法的主要作用是通過(guò)一些模型將人物的側(cè)臉轉(zhuǎn)成正臉,以便做進(jìn)一步的人臉識(shí)別/人臉?lè)诸?lèi) 。

DeepFace神經(jīng)網(wǎng)絡(luò)如圖所示,前面三個(gè)卷積層比較普通,是用來(lái)提取臉部的一些基本特征;后面三個(gè)卷積層有一些改進(jìn),用的是參數(shù)不共享的卷積核,我們提到卷積核的基本特征有一個(gè)是參數(shù)是共享的,因?yàn)檠芯空J(rèn)為圖片中不同的部位一些基本特征是相似的。

但在這個(gè)算法中,經(jīng)過(guò)人臉對(duì)齊之后,它的不同的區(qū)域會(huì)有不同的基本特征,所以這里運(yùn)用了參數(shù)不共享的卷積核。參數(shù)不共享,就不會(huì)發(fā)揮出卷積核參數(shù)少的優(yōu)勢(shì),這樣可能增加訓(xùn)練的復(fù)雜度。

FaceNet算法

FaceNet算法是谷歌人臉識(shí)別的一種算法,F(xiàn)aceNet算法提出三元組的概念:三張圖片放在一起,兩張圖片是同一個(gè)人的,一張圖片不是同一個(gè)人的。如果一個(gè)三元組中,同一個(gè)人的圖片的距離要大于不同人之間的距離,那么經(jīng)過(guò)學(xué)習(xí)以后,這個(gè)三元組中同一個(gè)人的圖片之間的距離,會(huì)小于不同人的圖片之間的距離。它不用做分類(lèi),直接計(jì)算出兩張圖片之間的距離。

其他算法

其他算法如FR FCN,通過(guò)神經(jīng)網(wǎng)絡(luò)去訓(xùn)練,當(dāng)你得到一個(gè)人側(cè)臉照的時(shí)候,可以通過(guò)神經(jīng)網(wǎng)絡(luò)生成正面照;Face baidu是傳統(tǒng)的卷積網(wǎng)絡(luò),建立在大數(shù)據(jù)的基礎(chǔ)上,訓(xùn)練了數(shù)百萬(wàn)張人臉。

Pose Shape expression augmentation,這篇論文是通過(guò)三個(gè)變量擴(kuò)充數(shù)據(jù)集,讓數(shù)據(jù)搜集工作變得容易;CNN-3DMM,它在標(biāo)準(zhǔn)的3D人臉模型基礎(chǔ)上,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),來(lái)給標(biāo)準(zhǔn)3D模型生成不同的參數(shù),這個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)不同的圖片生成不同的參數(shù),給個(gè)體建立不一樣的3D模型。

基于DeepID算法的人臉?biāo)阉黜?xiàng)目

最后介紹一下我們?cè)鲞^(guò)的一個(gè)人臉識(shí)別模型的項(xiàng)目?;顒?dòng)攝影承接商需要把一些會(huì)場(chǎng)活動(dòng)、體育賽事等活動(dòng)照片拍攝下來(lái)以后上傳到他們的網(wǎng)站上,因?yàn)閳D片有幾百上千張,活動(dòng)參與者很難找到自己的圖片。如果用人臉識(shí)別的模型,就可以把自己的臉部拍下來(lái)上傳,在圖片集中快速找到自己的照片。

我們看一下它整體的架構(gòu)。右邊是人臉庫(kù)的導(dǎo)入,活動(dòng)攝影承接商獎(jiǎng)會(huì)場(chǎng)拍攝的一千張照片導(dǎo)入搜索目標(biāo)庫(kù)。導(dǎo)入以后做多patch預(yù)處理,運(yùn)用DeepID的算法,計(jì)算每張圖片各patch的特征向量,放到特征向量庫(kù)里,建立一個(gè)從特征向量到原始圖片的索引。

左邊的部分是用戶(hù)搜索,拍攝了自己的頭像后,把它上傳上來(lái)進(jìn)行搜索,后臺(tái)同樣先對(duì)用戶(hù)頭像做多patch切分,通過(guò)DeepID模型計(jì)算出用戶(hù)頭像的特征向量,然后在特征向量庫(kù)中逐步比對(duì)目標(biāo)特征向量,將相似度最高的N個(gè)特征向量檢索出來(lái),最后通過(guò)索引查到原始圖片,返回給用戶(hù)。

以上是深度學(xué)習(xí)背后的技術(shù)原理以及它在計(jì)算機(jī)視覺(jué)領(lǐng)域常見(jiàn)的應(yīng)用,希望通過(guò)對(duì)這些原理的解析及應(yīng)用的分享,讓大家更加直觀快速地了解人工智能技術(shù)層面的基礎(chǔ)概念,并且對(duì)人工智能技術(shù)的學(xué)習(xí)和運(yùn)用有所啟發(fā)。



    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多

    亚洲男人的天堂就去爱| 97人妻精品免费一区二区| 欧美日韩国产黑人一区| 国产盗摄精品一区二区视频| 东京热男人的天堂一二三区| 在线观看视频日韩成人| 老外那个很粗大做起来很爽| 欧美野外在线刺激在线观看| 日本高清视频在线播放| 欧美日韩少妇精品专区性色| 午夜资源在线观看免费高清| 成年女人午夜在线视频 | 成人免费视频免费观看| 欧美日韩国产综合在线| 午夜视频免费观看成人| 中日韩美女黄色一级片| 91欧美日韩一区人妻少妇| 韩日黄片在线免费观看| 亚洲最大福利在线观看| 欧美多人疯狂性战派对| 精品国产av一区二区三区不卡蜜 | 日韩中文字幕欧美亚洲| 夫妻性生活真人动作视频| 亚洲午夜福利视频在线| 午夜福利国产精品不卡| 五月综合激情婷婷丁香| 亚洲一区二区三区av高清| 国产午夜福利在线免费观看| 女人高潮被爽到呻吟在线观看| 欧洲偷拍视频中文字幕| 国产一级不卡视频在线观看| 人妻少妇久久中文字幕久久| 暴力性生活在线免费视频| 国产专区亚洲专区久久| 久久亚洲国产视频三级黄| 午夜精品国产精品久久久| 精品综合欧美一区二区三区| 青青免费操手机在线视频| 欧洲日韩精品一区二区三区| 在线观看视频日韩精品| 亚洲视频在线观看免费中文字幕 |