一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

純干貨 | 深度學(xué)習(xí)研究綜述

 昵稱16619343 2017-07-05

作者:Edison_G

一、深度學(xué)習(xí)

說(shuō)到深度學(xué)習(xí),估計(jì)只要有接觸的您,一定會(huì)知曉一二,其實(shí)深度學(xué)習(xí)就是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新研究方向。

剛剛開始的階段,在語(yǔ)音識(shí)別和 計(jì)算機(jī)視覺等多類應(yīng)用中取得了突破性的進(jìn)展,尤其在語(yǔ)音領(lǐng)域。 其動(dòng)機(jī)在于建立模型模擬人類大腦的神經(jīng)大體結(jié)構(gòu),在處理訓(xùn)練數(shù)據(jù)(圖像、 語(yǔ)音或文本)信號(hào)時(shí),通過(guò)多個(gè)變換階段分層對(duì)數(shù)據(jù)特征進(jìn)行描述,進(jìn)而給出數(shù)據(jù)的表達(dá), 以圖像數(shù)據(jù)為例, 靈長(zhǎng)類的視覺系統(tǒng)中對(duì)這類信號(hào)的處理依次為: 首先是檢測(cè)邊緣,紋理等簡(jiǎn)單的初始形狀特征,然后再逐步形成更復(fù)雜的視覺形狀,同樣地, 深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示、屬性類別或特征,給出數(shù)據(jù)的分層特征表示。

作為深度學(xué)習(xí)的“深度”,到底是怎么理解的???

深度學(xué)習(xí)之所以被稱為“深度” ,其實(shí)想相對(duì)于那些傳統(tǒng)機(jī)器學(xué)習(xí)而言。就好比我們的模型深度更加深入,在學(xué)習(xí)過(guò)程中,非線性操作的層級(jí)數(shù)比之前多很多。淺層學(xué)習(xí)主要是依賴人工特征,也就是依賴人工以往的經(jīng)驗(yàn)去提取數(shù)據(jù)的特征,用模型學(xué)習(xí)后的特征表示是沒有層次機(jī)構(gòu)的單層特征。而深度學(xué)習(xí)是在原始輸入數(shù)據(jù)上,通過(guò)逐層變化提取特征,將樣本數(shù)據(jù)在原始的數(shù)據(jù)空間特征表示轉(zhuǎn)換到新的特征空間(就好比SVM對(duì)于線性不可分的情況,可以利用核的思想,將原數(shù)據(jù)的特征空間投影到更高的空間去表達(dá)),然后自動(dòng)去學(xué)習(xí)得到層次化的特征表示,從而更有利于物體的分類或特征的可視化。 深度學(xué)習(xí)理論的另一個(gè)理論動(dòng)機(jī)是: 如果一個(gè)函數(shù)可用K層結(jié)構(gòu)以簡(jiǎn)潔的形式表達(dá),那么用 K-1層的結(jié)構(gòu)表達(dá)則可能需要指數(shù)級(jí)數(shù)量的參數(shù)( 相對(duì)于輸入信號(hào)) ,且泛化能力不足。

深度學(xué)習(xí)的概念最先有這個(gè)想法的是G.E. Hinton等人在2006年提出,主要就是將樣本數(shù)據(jù)通過(guò)一定的訓(xùn)練方法得到多層網(wǎng)絡(luò)結(jié)構(gòu)的機(jī)器學(xué)習(xí)過(guò)程。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)隨機(jī)初始化網(wǎng)絡(luò)中的權(quán)值,導(dǎo)致網(wǎng)絡(luò)很容易收斂到局部最小值,為解決這一問(wèn)題,Hinton提出使用無(wú)監(jiān)督預(yù)訓(xùn)練方法優(yōu)化網(wǎng)絡(luò)權(quán)值的初值,再進(jìn)行權(quán)值微調(diào)的方法,拉開了深度學(xué)習(xí)的序幕。

其實(shí)深度學(xué)習(xí)就是通過(guò)結(jié)構(gòu)中大量單一神經(jīng)元,每個(gè)神經(jīng)元與海量其他神經(jīng)元連接,其中連接強(qiáng)度就是我們所說(shuō)的權(quán)值,是下訓(xùn)練學(xué)習(xí)過(guò)程中不斷的去修改并決定網(wǎng)絡(luò)的具體功能。

深度神經(jīng)網(wǎng)絡(luò)是由多個(gè)單層非線性網(wǎng)絡(luò)疊加而成的,常見的單層網(wǎng)絡(luò)按照編碼解碼情況分為3 類:只包含編碼器部分、只包含解碼器部分、既有編碼器部分也有解碼器部分。編碼器提供從輸入到隱含特征空間的自底向上的映射,解碼器以重建結(jié)果盡可能接近原始輸入為目標(biāo)將隱含特征映射到輸入空間。

單層卷積的變換過(guò)程:

二、深度學(xué)習(xí)應(yīng)用

深度學(xué)習(xí)已經(jīng)在很多領(lǐng)域得到了大力的發(fā)展,尤其是語(yǔ)音,圖像,視頻等領(lǐng)域都得到了較大的進(jìn)步,都優(yōu)于以前的方法?,F(xiàn)在比較熱門的是人臉檢測(cè)識(shí)別(刷臉),智能管理(考勤,車牌檢測(cè),監(jiān)控),醫(yī)學(xué)檢查與預(yù)測(cè)(腦電波返回圖可預(yù)測(cè)疾病等)等技術(shù)。下面根據(jù)所處理數(shù)據(jù)類型的不同, 對(duì)深度學(xué)習(xí)的應(yīng)用進(jìn)行介紹。

5. 1 深度學(xué)習(xí)在語(yǔ)音識(shí)別合成及機(jī)器翻譯中的應(yīng)用

微軟研究人員使用深度信念網(wǎng)絡(luò)對(duì)數(shù)以千計(jì)的senones( 一種比音素小很多的建模單元) 直接建模,提出了第 1 個(gè)成功應(yīng)用于大詞匯量語(yǔ)音識(shí)別系統(tǒng)的上下文相關(guān)的深層神經(jīng)網(wǎng)絡(luò)——隱馬爾可夫混合模型(CD-DNN-HMM),比之前最領(lǐng)先的基于常規(guī) CDGMM-HMM 的大詞匯量語(yǔ)音識(shí)別系統(tǒng)相對(duì)誤差率減少16%以上。

隨后又在含有300h語(yǔ)音訓(xùn)練數(shù)據(jù)的Switchboard標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)CD-DNN-HMM模型進(jìn)行評(píng)測(cè)。 基準(zhǔn)測(cè)試字詞錯(cuò)誤率為18. 5%,與之前最領(lǐng)先的常規(guī)系統(tǒng)相比,相對(duì)錯(cuò)誤率減少了33%。

H. Zen等人提出一種基于多層感知機(jī)的語(yǔ)音合成模型。該模型先將輸入文本轉(zhuǎn)換為一個(gè)輸入特征序列,輸入特征序列的每幀分別經(jīng)過(guò)多層感知機(jī)映射到各自的輸出特征,然后生成語(yǔ)音參數(shù),最后經(jīng)過(guò)聲紋合成生成語(yǔ)音。訓(xùn)練數(shù)據(jù)包含由一名女性專業(yè)演講者以美國(guó)英語(yǔ)錄制的3.3萬(wàn)段語(yǔ)音素材,其合成結(jié)果的主觀評(píng)價(jià)和客觀評(píng)價(jià)均優(yōu)于基于HMM方法的模型。

K. Cho等人提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN) 的向量化定長(zhǎng)表示模型(RNNenc 模型) ,應(yīng)用于機(jī)器翻譯。該模型包含2個(gè)RNN 一個(gè)RNN用于將一組源語(yǔ)言符號(hào)序列編碼為一組固定長(zhǎng)度的向量,另一個(gè)RNN將該向量解碼為一組目標(biāo)語(yǔ)言的符號(hào)序列。

在該模型的基礎(chǔ)上,D. Bahdanau等人克服了固定長(zhǎng)度的缺點(diǎn)(固定長(zhǎng)度是其效果提升的瓶頸) ,提出了RNNsearch 的模型。該模型在翻譯每個(gè)單詞時(shí),根據(jù)該單詞在源文本中最相關(guān)信息的位置以及已翻譯出的其他單詞, 預(yù)測(cè)對(duì)應(yīng)于該單詞的目標(biāo)單詞。該模型包含一個(gè)雙向RNN作為編碼器,以及一個(gè)用于單詞翻譯的解碼器。在進(jìn)行目標(biāo)單詞位置預(yù)測(cè)時(shí),使用一個(gè)多層感知機(jī)模型進(jìn)行位置對(duì)齊。采用BLEU評(píng)價(jià)指標(biāo),RNNsearch模型在ACL2014 機(jī)器翻譯研討會(huì)( ACL WMT 2014) 提供的英 /法雙語(yǔ)并行語(yǔ)料庫(kù)上的翻譯結(jié)果評(píng)分均高于RNNenc 模型的評(píng)分,略低于傳統(tǒng)的基于短語(yǔ)的翻譯系統(tǒng)Moses (本身包含具有4.18億個(gè)單詞的多語(yǔ)言語(yǔ)料庫(kù)) 。另外,在剔除包含未知詞匯語(yǔ)句的測(cè)試預(yù)料庫(kù)上,RNNsearch的評(píng)分甚至超過(guò)了Moses。

5. 2 深度學(xué)習(xí)在圖像分類及識(shí)別中的應(yīng)用

5. 2. 1 深度學(xué)習(xí)在大規(guī)模圖像數(shù)據(jù)集中的應(yīng)用

A. Krizhevsky等人首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ImageNet large scale visual recognition challenge,ILSVRC) 中,所訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)ILSVRC2012挑戰(zhàn)賽中,取得了圖像分類和目標(biāo)定位任務(wù)的第一。其中,圖像分類任務(wù)中, 前5選項(xiàng)錯(cuò)誤率為15. 3%,遠(yuǎn)低于第 2 名的26. 2% 的錯(cuò)誤率;在目標(biāo)定位任務(wù)中,前5選項(xiàng)錯(cuò)誤率34%,也遠(yuǎn)低于第 2 名的50%。

ILSVRC2013 比賽中,M.D. Zeiler 等人采用卷積神經(jīng)網(wǎng)絡(luò)的方法, 對(duì)文獻(xiàn)的方法進(jìn)行了改進(jìn),并在每個(gè)卷積層上附加一個(gè)反卷積層用于中間層特征的可視化,取得了圖像分類任務(wù)的第一名。其前5選項(xiàng)錯(cuò)誤率為11. 7% , 如果采用ILSVRC2011數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,錯(cuò)誤率則降低到11. 2% 。在目標(biāo)定位任務(wù)中,P. Sermanet等人采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合多尺度滑動(dòng)窗口的方法,可同時(shí)進(jìn)行圖像分類、定位和檢測(cè),是比賽中唯一一個(gè)同時(shí)參加所有任務(wù)的隊(duì)伍。多目標(biāo)檢測(cè)任務(wù)中,獲勝隊(duì)伍的方法在特征提取階段沒有使用深度學(xué)習(xí)模型,只在分類時(shí)采用卷積網(wǎng)絡(luò)分類器進(jìn)行重打分。

ILSVRC—2014比賽中,幾乎所有的參賽隊(duì)伍都采用了卷積神經(jīng)網(wǎng)絡(luò)及其變形方法。其中GoogLeNet小組采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合Hebbian理論提出的多尺度的模型,以6.7%的分類錯(cuò)誤,取得圖形分類“指定數(shù)據(jù)”組的第一名; CASIAWS小組采用弱監(jiān)督定位和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的方法,取得圖形分類“額外數(shù)據(jù)” 組的第一名,其分類錯(cuò)誤率為11%。

在目標(biāo)定位任務(wù)中,VGG小組在深度學(xué)習(xí)框架Caffe的基礎(chǔ)上,采用 3 個(gè)結(jié)構(gòu)不同的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行平均評(píng)估,以26%的定位錯(cuò)誤率取得指定數(shù)據(jù)組 的 第 一 名;Adobe組選用額外的2000ImageNet數(shù)據(jù)訓(xùn)練分類器,采用卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行分類和定位,以30%的錯(cuò)誤率,取得了額外數(shù)據(jù)組的第一名。

在多目標(biāo)檢測(cè)任務(wù)中,NUS小組采用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)——(network in network,NIN)與多種其他方法融合的模型,以37%的平均準(zhǔn)確率(mean average precision,mAP) 取得“提供數(shù)據(jù)” 組的第一名;GoogLeNet以44%的平均準(zhǔn)確率取得“額外數(shù)據(jù)” 組的第一名。從深度學(xué)習(xí)首次應(yīng)用于ILSVRC挑戰(zhàn)賽并取得突出的成績(jī),到2014年挑戰(zhàn)賽中幾乎所有參賽隊(duì)伍都采用深度學(xué)習(xí)方法,并將分類識(shí)錯(cuò)率降低到6.7%,可看出深度學(xué)習(xí)方法相比于傳統(tǒng)的手工提取特征的方法在圖像識(shí)別領(lǐng)域具有巨大優(yōu)勢(shì)。

5. 2. 2 深度學(xué)習(xí)在人臉識(shí)別中的應(yīng)用

基于卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,香港中文大學(xué)的DeepID項(xiàng)目以及FB的DeepFace項(xiàng)目在戶外人臉識(shí)別(labeled faces in thewild,LFW)數(shù)據(jù)庫(kù)上的人臉識(shí)別正確率分別達(dá)97.45%和97.35%,只比人類識(shí)別 97. 5%的正確率略低一點(diǎn)點(diǎn)。DeepID項(xiàng)目采用4層卷積神經(jīng)網(wǎng)絡(luò)(不含輸入層和輸出層)結(jié)構(gòu),DeepFace 采用 5 層卷積神經(jīng)網(wǎng)絡(luò)(不含輸入層和輸出層,其中后3層沒有采用權(quán)值共享以獲得不同的局部統(tǒng)計(jì)特征)結(jié)構(gòu)。

之后,采用基于卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,香港中文大 學(xué) 的DeepID2項(xiàng) 目將 識(shí) 別 率 提 高 到 了99.15%,超過(guò)目前所有領(lǐng)先的深度學(xué)習(xí)和非深度學(xué)習(xí)算法在LFW數(shù)據(jù)庫(kù)上的識(shí)別率以及人類在該 數(shù) 據(jù) 庫(kù) 的 識(shí) 別 率。DeepID2項(xiàng)目采用和DeepID項(xiàng)目類似的深度結(jié)構(gòu),包含4個(gè)卷積層,其中第3層采用2×2鄰域的局部權(quán)值共享,第 4 層沒有采用權(quán)值共享,且輸出層與第 3、4層都全連接。

5. 3 深度學(xué)習(xí)在視頻分類及行為識(shí)別中的應(yīng)用

A. Karpathy等人基于卷積神經(jīng)網(wǎng)絡(luò)提供了一種應(yīng)用于大規(guī)模視頻分類上的經(jīng)驗(yàn)評(píng)估模型, 將Sports-1M數(shù)據(jù)集的100萬(wàn)段YouTube視頻數(shù)據(jù)分為487類。該模型使用4種時(shí)空信息融合方法用于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,融合方法包括單幀( single frame) 、不相鄰兩幀 (late fusion) 、相鄰多幀(early fusion) 以及多階段相鄰多幀( slow fusion);此外提出了一種多分辨率的網(wǎng)絡(luò)結(jié)構(gòu),大大提升了神經(jīng)網(wǎng)絡(luò)應(yīng)用于大規(guī)模數(shù)據(jù)時(shí)的訓(xùn)練速度。該模型在Sports-1M上的分類準(zhǔn)確率達(dá)63.9%,相比于基于人工特征的方法(55.3%),有很大提升。此外,該模型表現(xiàn)出較好的泛化能力,單獨(dú)使用slow fusion 融合方法所得模型在UCF101動(dòng)作識(shí)別數(shù)據(jù)集上的識(shí)別率為65.4%,而該數(shù)據(jù)集的基準(zhǔn)識(shí)別率為43.9% 。

S. Ji 等人提出一個(gè)三維卷積神經(jīng)網(wǎng)絡(luò)模型用于行為識(shí)別。該模型通過(guò)在空間和時(shí)序上運(yùn)用三維卷積提取特征,從而獲得多個(gè)相鄰幀間的運(yùn)動(dòng)信息。該模型基于輸入幀生成多個(gè)特征圖通道,將所有通道的信息結(jié)合獲得最后的特征表示。該三維卷積神經(jīng)網(wǎng)絡(luò)模型在TRECVID數(shù)據(jù)上優(yōu)于其他方法,表明該方法對(duì)于真實(shí)環(huán)境數(shù)據(jù)有較好的效果;該模型在KTH 數(shù)據(jù)上的表現(xiàn),遜于其他方法, 原因是為了簡(jiǎn)化計(jì)算而縮小了輸入數(shù)據(jù)的分辨率。

M. Baccouche等人提出一種時(shí)序的深度學(xué)習(xí)模型,可在沒有任何先驗(yàn)知識(shí)的前提下,學(xué)習(xí)分類人體行為。模型的第一步,是將卷積神經(jīng)網(wǎng)絡(luò)拓展到三維自動(dòng)學(xué)習(xí)時(shí)空特征。接下來(lái)使用RNN方法訓(xùn)練分類每個(gè)序列。該模型在KTH上的測(cè)試結(jié)果優(yōu)于其他已知深度模型,KTH1KTH2上的精度分別為94.39%和92.17%。事實(shí)上,深度學(xué)習(xí)的應(yīng)用遠(yuǎn)不止這些,但是本文只是分別從數(shù)據(jù)的維度上(音頻文本,一維;圖像,二維;視頻,三維)對(duì)深度學(xué)習(xí)的典型應(yīng)用進(jìn)行詳細(xì)介紹,目的在于突出深度學(xué)習(xí)帶來(lái)的優(yōu)越性能以及其對(duì)不同數(shù)據(jù)的應(yīng)用能力。其他應(yīng)用還包括圖像超分辨率重建、紋理識(shí)別、行人檢測(cè)、場(chǎng)景標(biāo)記、門牌識(shí)別等。

三、深度學(xué)習(xí)的問(wèn)題及趨勢(shì)

深度學(xué)習(xí)算法在計(jì)算機(jī)視覺(圖像識(shí)別、視頻識(shí)別等)和語(yǔ)音識(shí)別中的應(yīng)用, 尤其是大規(guī)模數(shù)據(jù)集下的應(yīng)用取得突破性的進(jìn)展,但仍有以下問(wèn)題值得進(jìn)一步研究:

  • 無(wú)標(biāo)記數(shù)據(jù)的特征學(xué)習(xí)

目前, 標(biāo)記數(shù)據(jù)的特征學(xué)習(xí)仍然占據(jù)主導(dǎo)地位,而真實(shí)世界存在著海量的無(wú)標(biāo)記數(shù)據(jù),將這些無(wú)標(biāo)記數(shù)據(jù)逐一添加人工標(biāo)簽,顯然是不現(xiàn)實(shí)的。所以, 隨著數(shù)據(jù)集和存儲(chǔ)技術(shù)的發(fā)展,必將越來(lái)越重視對(duì)無(wú)標(biāo)記數(shù)據(jù)的特征學(xué)習(xí),以及將無(wú)標(biāo)記數(shù)據(jù)進(jìn)行自動(dòng)添加標(biāo)簽技術(shù)的研究。

  • 模型規(guī)模與訓(xùn)練速度、 訓(xùn)練精度之間的權(quán)衡

一般地,相同數(shù)據(jù)集下,模型規(guī)模越大,訓(xùn)練精度越高,訓(xùn)練速度會(huì)越慢。例如一些模型方法采用ReLU非線性變換、GPU 運(yùn)算,在保證精度的前提下,往往需要訓(xùn)練5~7d。雖然離線訓(xùn)練并不影響訓(xùn)練之后模型的應(yīng)用,但是對(duì)于模型優(yōu)化,諸如模型規(guī)模調(diào)整、超參數(shù)設(shè)置、訓(xùn)練時(shí)調(diào)試等問(wèn)題,訓(xùn)練時(shí)間會(huì)嚴(yán)重影響其效率。故而,如何在保證一定的訓(xùn)練精度的前提下,提高訓(xùn)練速度,依然是深度學(xué)習(xí)方向研究的課題之一。

  • 與其他方法的融合

從上述應(yīng)用實(shí)例中可發(fā)現(xiàn),單一的深度學(xué)習(xí)方法,往往并不能帶來(lái)最好的效果,通常融合其他方法或多種方法進(jìn)行平均打分,會(huì)帶來(lái)更高的精確率. 因此, 深度學(xué)習(xí)方法與其他方法的融合,具有一定的研究意義。

End.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    亚洲男人天堂成人在线视频| 搡老妇女老熟女一区二区| 亚洲综合精品天堂夜夜| 国产熟女高清一区二区| 国产av乱了乱了一区二区三区| 国产熟女一区二区精品视频| 男人和女人草逼免费视频| 国产福利在线播放麻豆| 亚洲淫片一区二区三区| 日本高清视频在线播放| 黄片免费观看一区二区| 色狠狠一区二区三区香蕉蜜桃| 国产日韩在线一二三区| 一区二区免费视频中文乱码国产| 黑丝袜美女老师的小逼逼| 99久久人妻中文字幕| 日韩美女偷拍视频久久| 日韩精品第一区二区三区| 午夜午夜精品一区二区| 免费观看成人免费视频| 欧美丝袜诱惑一区二区| 日韩欧美国产精品自拍| 久久精品国产第一区二区三区| 亚洲中文字幕视频在线观看| 五月激情婷婷丁香六月网| 精品日韩国产高清毛片| 欧美av人人妻av人人爽蜜桃| 亚洲中文字幕熟女丝袜久久| 亚洲夫妻性生活免费视频| 精品人妻精品一区二区三区| 日本少妇三级三级三级| 久久夜色精品国产高清不卡| 国产一级二级三级观看| 欧美多人疯狂性战派对| 日本av在线不卡一区| 免费观看在线午夜视频| 内用黄老外示儒术出处| 欧美六区视频在线观看| 欧美日韩综合综合久久久| 伊人欧美一区二区三区| 国产三级欧美三级日韩三级 |