本文聯(lián)合編譯:Blake、高斐 雷鋒網(wǎng)注:Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛頓 )是一位英國(guó)出生的計(jì)算機(jī)學(xué)家和心理學(xué)家,以其在神經(jīng)網(wǎng)絡(luò)方面的貢獻(xiàn)聞名。辛頓是反向傳播算法和對(duì)比散度算法的發(fā)明人之一,也是深度學(xué)習(xí)的積極推動(dòng)者,目前任職于多倫多大學(xué)與Google。作為人工智能領(lǐng)域的三位奠基人之一,早在30年前,辛頓就已經(jīng)在深度學(xué)習(xí)領(lǐng)域留下了自己的烙印。然而,直到計(jì)算機(jī)的性能達(dá)到深度學(xué)習(xí)的要求,辛頓才開(kāi)始在學(xué)術(shù)界以外得到自己應(yīng)得的廣泛認(rèn)可,本文是他對(duì)于深度學(xué)習(xí)介紹的演講PPT。 深度學(xué)習(xí) Geoffrey Hinton 多倫多大學(xué)&Google 機(jī)器學(xué)習(xí)任務(wù)的頻譜 典型的統(tǒng)計(jì)學(xué)方法 低維度數(shù)據(jù)(例如,低于1000個(gè)維度) 數(shù)據(jù)中存在大量的噪音 數(shù)據(jù)不存在健全的結(jié)構(gòu), 一個(gè)極簡(jiǎn)模型如何表示數(shù)據(jù)結(jié)構(gòu) 主要問(wèn)題在于區(qū)分真正結(jié)構(gòu)與數(shù)據(jù)噪音
人工智能(AI) 高維度數(shù)據(jù)(例如,多于1000個(gè)維度) 如果合理處理噪音,噪音不足以模糊數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。 數(shù)據(jù)中有龐大得結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)過(guò)于復(fù)雜,難以用一個(gè)簡(jiǎn)單的模型表示。 主要問(wèn)題在于弄清楚如何表示復(fù)雜的數(shù)據(jù)結(jié)構(gòu),使得這種結(jié)構(gòu)易于學(xué)習(xí)
深度學(xué)習(xí)簡(jiǎn)要發(fā)展史 用于學(xué)習(xí)多層非線(xiàn)性特征的反向傳播算法于20世紀(jì)70年代和80年代被提出來(lái)并得到多次發(fā)展演變(Werbos, Amari, Parker, Lecun, Rumelhart et al)。 當(dāng)時(shí),反向傳播算法具有廣闊的應(yīng)用前景,然而,到20世紀(jì)90年代,機(jī)器學(xué)習(xí)領(lǐng)域的眾多研究者開(kāi)始停止運(yùn)用該算法,原因如下:
—該算法不能有效利用多數(shù)隱藏層(除了其在“時(shí)延”和卷積網(wǎng)的應(yīng)用)。 —該算法不能在遞歸網(wǎng)絡(luò)中發(fā)揮有效作用。
如何學(xué)習(xí)多層特征(~1985) 運(yùn)用反向傳播錯(cuò)誤信號(hào)以獲得用于學(xué)習(xí)的衍生工具: 首先輸入輸入信息向量,通過(guò)隱藏層,最終得到輸出結(jié)果,對(duì)比輸出結(jié)果與正確答案得到錯(cuò)誤信號(hào)。 隨機(jī)梯度下降 —這將對(duì)所有訓(xùn)練數(shù)據(jù)的梯度矢量進(jìn)行隨機(jī)評(píng)估。 —若權(quán)重值完全出現(xiàn)錯(cuò)誤,即便獲得一個(gè)耗費(fèi)多,精確地估計(jì)值也是無(wú)意義的。
—與其他更好地方法相比,這種原始的優(yōu)化方法能夠在大數(shù)據(jù)集中發(fā)揮更好的作用。
反向傳播算法到底是哪里出錯(cuò)了?——20世紀(jì)90年代的觀(guān)點(diǎn) — 幾乎所有的數(shù)據(jù)都是未經(jīng)標(biāo)記的。
— 在存在眾多隱藏層的網(wǎng)絡(luò)中,該算法學(xué)習(xí)速度非常慢。
— 該算法通常能夠得到極好的運(yùn)用,但是從來(lái)沒(méi)有極好的理論。
運(yùn)用無(wú)監(jiān)督學(xué)習(xí)方式,克服反向傳播算法的局限性 — 調(diào)整權(quán)重,保證一個(gè)生成模型生成感官輸入信息的最大可能性。 — 學(xué)習(xí)圖像,而非標(biāo)記過(guò)的圖像。 如果你想要從事計(jì)算機(jī)視覺(jué)領(lǐng)域的研究,首選學(xué)習(xí)計(jì)算機(jī)制圖法。
隨機(jī)二進(jìn)制單位(一種奇數(shù)選擇方法) 受限玻爾茲曼機(jī) —只有一層隨機(jī)二進(jìn)制隱藏單元。 —隱藏層之間無(wú)連接。
— 當(dāng)存在一個(gè)既定的數(shù)據(jù)矢量,我們能夠快速?gòu)暮篁?yàn)分布中獲取一個(gè)無(wú)偏差樣本。
受限玻爾茲曼機(jī)最大可能性學(xué)習(xí)算法圖 由可視單元的一個(gè)訓(xùn)練矢量V開(kāi)頭。 在更新所有平行隱藏單元與更新所有平行的可視單元之間轉(zhuǎn)換。
快速學(xué)習(xí)受限玻爾茲曼機(jī)的方法 由可視單元的一個(gè)訓(xùn)練矢量開(kāi)頭 更新所有平行的隱藏單元 更新所有平行的可視單元,以實(shí)現(xiàn)重構(gòu) 再次更新隱藏單元
旁白 這是受限玻爾茲曼機(jī)的首次重大應(yīng)用。 訓(xùn)練深度網(wǎng)絡(luò)(受限玻爾茲曼機(jī)飽受歡迎的主要原因在于的到蓋茨比基金的支持) 如此便生成一個(gè)多層生成模型。 這一證明過(guò)程是非常復(fù)雜的(但是對(duì)于學(xué)術(shù)界同仁之間相互尊重極為重要)。 精細(xì)調(diào)整,以實(shí)現(xiàn)區(qū)分這一目的 預(yù)訓(xùn)練:首先,一次只學(xué)習(xí)一個(gè)特征層,不使用標(biāo)記過(guò)的信息。 精細(xì)調(diào)增:增添最后一個(gè)標(biāo)記單元層,反向計(jì)算標(biāo)記單元的誤差,以便精細(xì)調(diào)整那些在無(wú)監(jiān)督前期訓(xùn)練階段學(xué)會(huì)的特征。 這種精細(xì)調(diào)整方法能夠克服標(biāo)準(zhǔn)反向傳播算法的兩個(gè)主要局限性。
因?yàn)槲唇?jīng)標(biāo)記數(shù)據(jù)而發(fā)現(xiàn)好的特征,我們要求使用更少的標(biāo)記。 由于在預(yù)訓(xùn)練過(guò)程中,一次僅訓(xùn)練一層,并且是從可感知的特征進(jìn)行精細(xì)調(diào)整的,學(xué)習(xí)速度變得越來(lái)越快。 為預(yù)訓(xùn)練深層神經(jīng)網(wǎng)構(gòu)建聲學(xué)模型 通過(guò)較短時(shí)間的前期處理,現(xiàn)在我們?cè)谶@一塊兒能夠做的更好。 接下來(lái)會(huì)發(fā)生什么 當(dāng)預(yù)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的性能優(yōu)于在MSR演講組一致推崇的高斯混合模型,IBM與Google對(duì)這類(lèi)深層神經(jīng)網(wǎng)絡(luò)實(shí)行進(jìn)一步發(fā)展。 直至2012年,安卓系統(tǒng)的聲音搜索功能便是運(yùn)用一個(gè)基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。 現(xiàn)在所有起到領(lǐng)導(dǎo)作用的團(tuán)隊(duì)均使用神經(jīng)網(wǎng)絡(luò),這一技術(shù)正在向性能越來(lái)越好的遞歸神經(jīng)網(wǎng)絡(luò)發(fā)展。
圖像網(wǎng)的ILSVRC-2012競(jìng)爭(zhēng) 擁有120萬(wàn)高分辨率訓(xùn)練圖像的數(shù)據(jù)集。 1000種不同類(lèi)別的物體。 任務(wù)是在前5次猜測(cè)中猜出“正確”的。 在這個(gè)數(shù)據(jù)集中,對(duì)現(xiàn)有的一些計(jì)算機(jī)視覺(jué)方法進(jìn)行測(cè)試。 2012年的計(jì)算機(jī)視覺(jué)系統(tǒng)使用運(yùn)用手工工程的復(fù)雜的多層系統(tǒng)。
早期階段主要通過(guò)優(yōu)化一些參數(shù)得到調(diào)整。 ILSVRC-2012競(jìng)爭(zhēng)的錯(cuò)誤率 2015年深層卷積神經(jīng)網(wǎng) 5% 多倫多大學(xué)(Krizhevsky等,2012) 16% 東京大學(xué) 26% 牛津大學(xué)(Zisserman 等) 27% INRIA(法國(guó)國(guó)家科學(xué)院)與XRCE(歐洲施樂(lè)研究中心) 27% 阿姆斯特丹大學(xué) 29%
針對(duì)Imagenet的神經(jīng)網(wǎng)絡(luò) l 7個(gè)隱藏層(不包括最大池化層) l 早期的層級(jí)是卷積的 l 最后兩層是全局相連的
Dropout用來(lái)防止這些層級(jí)過(guò)擬合 在測(cè)試集上的樣本(以及神經(jīng)網(wǎng)絡(luò)猜測(cè)結(jié)果) 獵豹(豹 雪豹 埃及貓) 高速列車(chē)(小轎車(chē) 地鐵 電車(chē)) 放大鏡(剪刀、放大鏡、煎鍋、聽(tīng)診器)
修正線(xiàn)性單元 y = max(0,x) 這種非線(xiàn)性使得深度網(wǎng)絡(luò)更易訓(xùn)練,在處理真實(shí)值的時(shí)候也表現(xiàn)的更好。 Dropout:平均多個(gè)大型神經(jīng)網(wǎng)絡(luò)的有效方式 設(shè)想一個(gè)包括一個(gè)隱層的神經(jīng)網(wǎng)絡(luò) 每次提出一個(gè)訓(xùn)練樣本時(shí),隨機(jī)以0.5的可能性省略一個(gè)隱藏單元 因此我們隨機(jī)從2^H不同的架構(gòu)中取樣
所有的架構(gòu)權(quán)重相同
Dropout作為一種模型平均形式 這比試著將權(quán)重保持在較少狀態(tài)更能實(shí)現(xiàn)好的正則化
在測(cè)試的時(shí)候我們做些什么? 我們能對(duì)許多不同的架構(gòu)進(jìn)行取樣,然后在它們的輸出分布中取幾何平均數(shù)。 能用上所有的隱藏單元更好,但是要將它們的輸入權(quán)重減半 這恰好計(jì)算了所有2^H模型預(yù)測(cè)的幾何平均數(shù) 在有更多的隱層的情況下,測(cè)試時(shí)期將權(quán)重減半是唯一一種模型平均的近似值,但是它得到結(jié)果不錯(cuò)
1986年提出的方向傳播算法哪里錯(cuò)了? 關(guān)于它為什么失敗,我們得出的結(jié)論都錯(cuò)了。真正的原因是: 1. 我們的標(biāo)記數(shù)據(jù)集太小了。(幾千倍的差異) 2. 我們的運(yùn)算能力太慢了。(百萬(wàn)倍的差異) 3. 我們進(jìn)行權(quán)重初始化的方式錯(cuò)了。 4. 我們使用了錯(cuò)誤的非線(xiàn)性類(lèi)別。
幾年前,Jeff Dean認(rèn)為如果計(jì)算能力足夠的話(huà),神經(jīng)網(wǎng)絡(luò)也許能夠做到一些非常了不起的事情。 他建立許多架構(gòu)讓一些大型神經(jīng)網(wǎng)絡(luò)在Google的數(shù)據(jù)中心核心區(qū)塊上進(jìn)行訓(xùn)練。 卷積神經(jīng)網(wǎng)絡(luò)(部分復(fù)雜細(xì)節(jié)已略去) 有關(guān)卷積網(wǎng)絡(luò)最好的類(lèi)型可以去查看Hochreiter和Schmidhuber于1997年發(fā)布文章的細(xì)節(jié)。 卷積神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)十分強(qiáng)大,因?yàn)樗鼈兘Y(jié)合了兩種特性。 l 分布式隱層允許它們有效存儲(chǔ)之前的信息 l 非線(xiàn)性動(dòng)態(tài)允許它們以復(fù)雜的方式更新隱層 l 深度越深,性能更好
機(jī)器翻譯的一種全新方式(Suskever, Vinyals和Le,2014) 它最終的隱層表示的就是語(yǔ)句所要表達(dá)的含義。
針對(duì)翻譯分布的一個(gè)解碼器RNN 在訓(xùn)練期間,我們只需要輸入“正確”的單詞。 編碼器和解碼器網(wǎng)絡(luò)是如何訓(xùn)練的 該系統(tǒng)已實(shí)現(xiàn)在該數(shù)據(jù)上的最佳水準(zhǔn) 該系統(tǒng)大約需要一年來(lái)開(kāi)發(fā)
如果我們使用更多的數(shù)據(jù),并且同時(shí)對(duì)多種語(yǔ)言共同進(jìn)行訓(xùn)練編碼器和解碼器的話(huà),它的表現(xiàn)會(huì)好的多 歐洲的議會(huì)給出了25種方式,我們可以通過(guò)所有的25中解碼器進(jìn)行反向傳播。
結(jié)合視覺(jué)和語(yǔ)言(Vinyals等近期工作的簡(jiǎn)單介紹) 在imagent上訓(xùn)練的深度卷積網(wǎng)絡(luò)種最后一個(gè)隱層的活動(dòng)向量是能編碼圖片中內(nèi)容的“認(rèn)知” 將認(rèn)知規(guī)劃到深度卷積神經(jīng)網(wǎng)絡(luò)的初始隱層 訓(xùn)練RNN來(lái)輸出它在圖片中看到了什么
使用一個(gè)擁有20萬(wàn)張圖片(每張圖片有幾個(gè)注釋?zhuān)┑臄?shù)據(jù)集 不再重復(fù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)
一群人在一個(gè)戶(hù)外市場(chǎng)購(gòu)物 (人們蜷縮圍繞著一家開(kāi)放市場(chǎng)) 一個(gè)抱著填充動(dòng)物玩具的孩子特寫(xiě) (一個(gè)小女孩睡在沙發(fā)上,抱著一個(gè)玩具熊) 文本處理的意義 這將捕獲自然推理過(guò)程 它應(yīng)該能讓我們理解文本要表達(dá)的含義
經(jīng)典AI的意義 他們認(rèn)為沒(méi)有其他的可能性
他們認(rèn)為沒(méi)有其他的可能性
唯一的符號(hào)是輸入和輸出
處理像素陣列絕對(duì)不是通過(guò)操作內(nèi)部像素來(lái)實(shí)現(xiàn)的
深度學(xué)習(xí)是從哪里來(lái)的? 公司擅長(zhǎng)于開(kāi)發(fā)新的想法理念 長(zhǎng)遠(yuǎn)來(lái)看,好的想法理念卻是真正的瓶頸 因此給予大學(xué)基礎(chǔ)結(jié)構(gòu)來(lái)發(fā)展真正的想法理念
PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉(zhuǎn)載! via Geoffrey Hinton
|