新智元報(bào)道 來(lái)源:Jordi Pont-Tuset,Google Research 編輯:文強(qiáng) 【新智元導(dǎo)讀】計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2018召開(kāi)在即,從接收的論文看,這屆會(huì)議展現(xiàn)出了怎樣的趨勢(shì)?你不要不信,生成對(duì)抗網(wǎng)絡(luò)GAN,正在成為新的“深度學(xué)習(xí)”。 又到了一年一度CVPR的時(shí)節(jié)。 當(dāng)被接收的論文列表公布以后(點(diǎn)擊這里查看所有論文列表),愛(ài)統(tǒng)計(jì)趨勢(shì)的我們又有很多事情可以做了。 這一次,Google Research的研究科學(xué)家Jordi Pont-Tuset做了一個(gè)統(tǒng)計(jì),根據(jù)論文題目,看深度學(xué)習(xí)的發(fā)展趨勢(shì)。結(jié)果,他發(fā)現(xiàn)生成對(duì)抗網(wǎng)絡(luò)(GAN)強(qiáng)勢(shì)出擊,大有取代“深度學(xué)習(xí)”(Deep Learning)之勢(shì)。 下面這張圖展示了CVPR 2018的論文題目中,關(guān)鍵詞GAN、Deep,以及LSTM的對(duì)比: 可以看出,普通的“深度學(xué)習(xí)”已經(jīng)在走下坡路,而且趨勢(shì)明顯。Jordi Pont-Tuset認(rèn)為,這很可能是研究人員已經(jīng)見(jiàn)慣不慣了。 與此同時(shí),GAN則大幅抬頭,有8%的論文標(biāo)題中含有GAN(相比2017年增長(zhǎng)了2倍多),已經(jīng)不能說(shuō)是少數(shù),而是相當(dāng)有分量的一個(gè)方向了。 此外,LSTM也出現(xiàn)下滑,可能是越來(lái)越多人開(kāi)始關(guān)注并使用Attention的方法。 “深度學(xué)習(xí)”趨于飽和,GAN強(qiáng)勢(shì)飛升 GAN的上升趨勢(shì)并不是從CVPR 2018才開(kāi)始的。下面這張圖展示了從2013年到2017年CVPR期間,GAN(以及LSTM)在CVPR、ICCV和ECCV這三大計(jì)算機(jī)視覺(jué)頂會(huì)論文標(biāo)題中出現(xiàn)的頻次。統(tǒng)計(jì)者依然是Jordi Pont-Tuset。 盡管占比的絕對(duì)值不高(在2017年時(shí)為2.5%),但可以發(fā)現(xiàn)GAN從CVPR-16開(kāi)始一飛沖天的趨勢(shì)。 這種趨勢(shì)在隨后舉行的ICCV 2017上更加明顯,GAN在ICCV-17上已經(jīng)超越了LSTM,并且占比達(dá)到了4%。 再來(lái)看“深度學(xué)習(xí)”,三大CV頂會(huì)的數(shù)據(jù)表明,歷經(jīng)2014年到2016年的火爆,從2017年開(kāi)始,雖然還在增長(zhǎng)(CVPR的稍微多一些),但都已趨于飽和。 GAN是新的“深度學(xué)習(xí)”? 需要指出,這里統(tǒng)計(jì)的僅僅是三大計(jì)算機(jī)視覺(jué)會(huì)議接收論文的標(biāo)題里的關(guān)鍵詞。 就像Jordi Pont-Tuset推測(cè)的那樣,普通的“深度學(xué)習(xí)”可能已經(jīng)為人熟知,如今在研究領(lǐng)域開(kāi)始往更細(xì)的、更具體的方向發(fā)展,比如GAN。 生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets)在 Ian Goodfellow 等人2014年的論文《Generative Adversarial Nets》中提出,是非監(jiān)督學(xué)習(xí)的一種方法,通過(guò)讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互博弈的方式進(jìn)行學(xué)習(xí)。 GAN結(jié)構(gòu)示意。來(lái)源:Slinuxer 生成對(duì)抗網(wǎng)絡(luò)由一個(gè)生成網(wǎng)絡(luò)(Generator)與一個(gè)判別網(wǎng)絡(luò)(Discriminator)組成。生成網(wǎng)絡(luò)從潛在空間(latent space)中隨機(jī)采樣作為輸入,其輸出結(jié)果需要盡量模仿訓(xùn)練集中的真實(shí)樣本。判別網(wǎng)絡(luò)的輸入則為真實(shí)樣本或生成網(wǎng)絡(luò)的輸出,其目的是將生成網(wǎng)絡(luò)的輸出從真實(shí)樣本中盡可能分辨出來(lái)。而生成網(wǎng)絡(luò)則要盡可能地欺騙判別網(wǎng)絡(luò)。兩個(gè)網(wǎng)絡(luò)相互對(duì)抗、不斷調(diào)整參數(shù),最終目的是使判別網(wǎng)絡(luò)無(wú)法判斷生成網(wǎng)絡(luò)的輸出結(jié)果是否真實(shí)。生成對(duì)抗網(wǎng)絡(luò)常用于生成以假亂真的圖片。此外,該方法還被用于生成視頻、三維物體模型等。 現(xiàn)在,《Generative Adversarial Nets》這篇論文的引用數(shù)量已經(jīng)達(dá)到了3363次。 在一次Quora問(wèn)答直播中,Yann LeCun表示,生成對(duì)抗性網(wǎng)絡(luò)是近十年來(lái)最有趣的想法,是人工智能最值得期待的算法之一。 去年在接受吳恩達(dá)的采訪時(shí),Ian Goodfellow曾經(jīng)說(shuō),GAN是生成模型的一種,實(shí)際上 GAN 能做的事情,很多其他生成模型也能做,如果GAN的訓(xùn)練能穩(wěn)定下來(lái),甚至像深度學(xué)習(xí)那么可靠,那么GAN就能真正發(fā)展起來(lái)。如果不能,那么GAN 將會(huì)被其他方法所取代。他有大約 40% 的時(shí)間都用在穩(wěn)定 GAN 上面。 至少?gòu)倪@屆CVPR看,GAN被取代的情況還完全不存在。 現(xiàn)在,有很多針對(duì)GAN的研究,除了Ian Goodfellow所在的谷歌和他之前所在的OpenAI,F(xiàn)AIR/NYU也是一大重鎮(zhèn)。實(shí)際上,是FAIR/NYU最先把GAN帶進(jìn)了我們的視野,提出了LAPGAN,那是GAN第一次生成了逼真的高清圖像,也是第一次得到媒體曝光。 另外一個(gè)重要陣營(yíng)是伯克利 英偉達(dá),他們專注超高清逼真圖像和視頻,無(wú)監(jiān)督翻譯,等等。伯克利的CycleGAN,利用對(duì)偶學(xué)習(xí)并結(jié)合GAN機(jī)制來(lái)優(yōu)化生成圖片的效果。英偉達(dá)則采取“漸進(jìn)式生成”技術(shù)訓(xùn)練GAN,讓計(jì)算機(jī)可以生成1024*1024大小的高清圖片,幾乎可以以假亂真。 除了圖像生成,GAN的應(yīng)用也已經(jīng)拓展到了NLP和Robot Learning。 Ian Goodfellow在去年一次問(wèn)答中表示,GAN是使用強(qiáng)化學(xué)習(xí)來(lái)解決生成建模問(wèn)題的一種方式?!癎AN的不同之處在于,獎(jiǎng)勵(lì)函數(shù)對(duì)行為是完全已知和可微分的,獎(jiǎng)勵(lì)是非固定的,以及獎(jiǎng)勵(lì)是Agent的策略的一個(gè)函數(shù)?!盙oodfellow說(shuō):“我認(rèn)為GAN基本上可以說(shuō)就是強(qiáng)化學(xué)習(xí)?!?/span> 資料來(lái)源 1、CVPR 關(guān)鍵詞統(tǒng)計(jì):http://t/are-gans-the-new-deep/ 2、Ian Goodfellow問(wèn)答:https:///arxiv_comments?url=https%3A%2F%2Farxiv.org%2Fpdf%2F1406.2661.pdf 【加入社群】 新智元 AI 技術(shù) 產(chǎn)業(yè)社群招募中,歡迎對(duì) AI 技術(shù) 產(chǎn)業(yè)落地感興趣的同學(xué),加小助手微信號(hào): aiera2015_3 入群;通過(guò)審核后我們將邀請(qǐng)進(jìn)群,加入社群后務(wù)必修改群備注(姓名 - 公司 - 職位;專業(yè)群審核較嚴(yán),敬請(qǐng)諒解)。
|
|