地表最強(qiáng)的GPT-3，是在推理，還是胡言亂語？

520jefferson 2020-12-02

展開全文

AI TIME歡迎每一位AI愛好者的加入！

GPT-3發(fā)布以來，衍生了翻譯、答題、創(chuàng)作小說、數(shù)據(jù)分析、數(shù)學(xué)推理、玩游戲、畫圖表、制作簡歷等諸多玩法。深度學(xué)習(xí)之父Geoffrey Hinton表示“從GPT-3驚人的性能可以推測生命、宇宙和萬物的答案只是4萬億個(gè)參數(shù)而已”。紐約大學(xué)教授Gary Marcus與Ernest Davis聯(lián)手在《麻省理工科技評論》發(fā)表題為《傲慢自大的 GPT-3：自己都不知道自己在說什么》的文章，一起討論GPT-3。

那么，GPT-3 的本質(zhì)是什么？GPT-3將帶來哪些沖擊與影響……為了探尋本質(zhì)、掃清迷霧，AI TIME特別邀請學(xué)術(shù)界與產(chǎn)業(yè)界的大佬，于11月26日14:00在1911餐廳相聚，一起論道GPT-3的希望和局限。

本次活動邀請了京東AI研究院常務(wù)副院長何曉冬；北京大學(xué)研究員、博士生導(dǎo)師嚴(yán)睿；清華大學(xué)計(jì)算機(jī)系副教授黃民烈、清華大學(xué)計(jì)算機(jī)系副教授劉知遠(yuǎn)；百度杰出架構(gòu)師、百度文心(ERNIE)負(fù)責(zé)人孫宇；CCF YOCSEF學(xué)術(shù)委員會委員、智源研究院學(xué)術(shù)秘書李文玨；AI TIME負(fù)責(zé)人何蕓。

一、 GPT-3的本質(zhì)

為什么一個(gè)語言模型能夠同時(shí)完成閱讀理解、自動問答、機(jī)器翻譯、算術(shù)運(yùn)算和代碼生成等多種任務(wù)？

這是GPT-3一直堅(jiān)持的哲學(xué)思想：將所有自然語言處理的任務(wù)轉(zhuǎn)換為語言模型任務(wù)，也就是對所有任務(wù)進(jìn)行統(tǒng)一建模，將任務(wù)描述與任務(wù)輸入視為語言模型的歷史上下文，而輸出則為語言模型需要預(yù)測的未來信息。如下圖所示，無論是做情感分類、自動問答，還是完成算術(shù)運(yùn)算、機(jī)器翻譯任務(wù)，都可以形式化為語言生成問題。

GPT-3是單純的暴力美學(xué)，還是真的會給AI帶來新的變化，給NLP領(lǐng)域帶來質(zhì)變呢？

GPT-3的本質(zhì)是大數(shù)據(jù)，基于Transformer這樣的模型。它是革命性的成就，展現(xiàn)了算法+工程的美學(xué)。宏觀來看，科學(xué)技術(shù)的演進(jìn)遵循“藝術(shù)→科學(xué)→大規(guī)模的、穩(wěn)定的、可增長的工程實(shí)踐”的發(fā)展路徑，而GPT-3在某種程度上展現(xiàn)了AI工程取得突破的希望，將推動AI領(lǐng)域的工程化，加速AI整體的發(fā)展，給社會帶來積極影響。何曉冬首先表述了自己對GPT-3和NLP的觀點(diǎn)。

GPT-3的本質(zhì)是一個(gè)概率模型，是條件、概率的關(guān)聯(lián)，距離非?；A(chǔ)地解決NLP問題還有非常遙遠(yuǎn)的距離，距離理解也還存在距離。黃民烈從理解的角度剖析了GPT-3的本質(zhì)。

GPT-3和之前的預(yù)訓(xùn)練模型最大的不同在于不再需要微調(diào)，只需非常少的樣例就可以完成相應(yīng)的任務(wù)。劉知遠(yuǎn)認(rèn)為GPT-3會給整個(gè)研究領(lǐng)域帶來非常多新的靈感。

GPT-3本質(zhì)是在大規(guī)模數(shù)據(jù)下通過大算力做出來的一個(gè)概率語言模型。它是非常大的突破，是質(zhì)變的東西，GPT-3通過弱監(jiān)督、自監(jiān)督的方法學(xué)習(xí)海量的數(shù)據(jù)，擺脫了之前專家系統(tǒng)、機(jī)器學(xué)習(xí)系統(tǒng)、深度學(xué)習(xí)系統(tǒng)對人工知識、人工標(biāo)注數(shù)據(jù)的依賴，但是離解決AI問題還有很長的路要走。孫宇從GPT-3的特點(diǎn)及其對NLP和AI的價(jià)值做了解釋。

GPT-3進(jìn)步的本質(zhì)可能源于它“見多識廣”。正因?yàn)樗姷枚?，所以能夠基于關(guān)聯(lián)預(yù)測、判斷的也更多。但它不對自己的判斷負(fù)責(zé)，也不能對它所說內(nèi)容的實(shí)質(zhì)有任何的判斷。因而說GPT-3是量變而不是質(zhì)變。不過，量變過程讓我們看到 “模型越大，能力會更接近人”這條康莊大道還沒走到頭，沒有看到新的瓶頸。嚴(yán)睿從GPT-3與人類視野的角度進(jìn)行了解析。

二、 GPT-3的應(yīng)用、產(chǎn)業(yè)前景

GPT-3在翻譯、答題、創(chuàng)作小說、與人對話、生成代碼等方面展現(xiàn)出了非常好的效果。在未來，GPT-3對AI應(yīng)用的范式將產(chǎn)生哪些影響？對產(chǎn)業(yè)將帶來哪些幫助？

如果中文有這么一個(gè)模型的話，可以做非常多的事情，屆時(shí)，只要能夠在相應(yīng)的領(lǐng)域里做一些必要的適配，就可以完成創(chuàng)作小說、答題、進(jìn)行對話等任務(wù)。劉知遠(yuǎn)提出不僅可以關(guān)注預(yù)訓(xùn)練模型如何讓自然語言理解效果更好，還可以多關(guān)注GPT-3等模型的廣闊應(yīng)用前景。

GPT-3最大的問題是“它不知道它知道什么，它也不知道它不知道什么”。黃民烈首先指出GPT-3的局限性，他比較看好GPT-3在內(nèi)容創(chuàng)作中的應(yīng)用，但他認(rèn)為它不太擅長邏輯推理。

GPT-3做內(nèi)容創(chuàng)作很有產(chǎn)業(yè)前景，但不能放心地讓它去做推理，因?yàn)槟Ｐ捅旧碛腥毕荨?/span>雖然存在問題，但何曉冬認(rèn)為GPT-3有希望在很多地方進(jìn)行提升。如果AI是一臺車，GPT-3可以作為這臺車的底盤，雖然很不完美，沒有“變速箱”也沒有“方向盤”，但有了這個(gè)底盤后，其余的內(nèi)容是可以逐步添上去的。如果能把符號推理裝在GPT-3這個(gè)底盤上，再做一些融合性的工作，將會帶來下一個(gè)震驚世界的里程碑。

很長時(shí)間以來NLP都是在為各條技術(shù)線做支撐，但是現(xiàn)在的NLP仍然缺乏直接面向終端用戶進(jìn)行價(jià)值輸出的工具，而GPT-3提供了這樣一種形式。嚴(yán)睿認(rèn)為把NLP的能力、AI的能力開放給更多的終端用戶進(jìn)行再加工、再創(chuàng)造，或者直接開放給用戶去使用也許是一種新的產(chǎn)業(yè)形態(tài)。

首先，問答可能就是搜索引擎的下一代。GPT-3有可能成為下一代基于問答的搜索引擎的基礎(chǔ)。其次，GPT-3可以革新一些情感陪伴產(chǎn)品，如智能音箱等。再次，如果NLP支持的規(guī)模做到足夠大，帶來的價(jià)值和意義足夠大，也會有很大的商業(yè)價(jià)值。孫宇認(rèn)為當(dāng)下NLP技術(shù)在產(chǎn)業(yè)里落地還不是非常好，主要的原因在于NLP的技術(shù)不是那么標(biāo)準(zhǔn)化，各個(gè)行業(yè)的人如果沒有AI背景很難使用AI技術(shù)。有了預(yù)訓(xùn)練模型以后，可能只需要針對各個(gè)應(yīng)用場景提供少量的領(lǐng)域知識、領(lǐng)域數(shù)據(jù)，就可以解決具體的AI問題。GPT-3為NLP技術(shù)在產(chǎn)業(yè)中標(biāo)準(zhǔn)化落地提供了一個(gè)非常大的可能性，降低了NLP技術(shù)的使用門檻，對于推進(jìn)產(chǎn)業(yè)的智能化變革非常有幫助。

三、 GPT-3將走向何方

目前，GPT-3確實(shí)取得了長足進(jìn)展，但也存在缺陷和問題，發(fā)展面對著挑戰(zhàn)和風(fēng)險(xiǎn)。此外， GPT-3在解決中文問題上也存在不足。面對上述問題，我們該如何去應(yīng)對？

劉知遠(yuǎn)認(rèn)為以GPT-3為代表的預(yù)訓(xùn)練模型的科研和商業(yè)需求很大，要探索和解決的問題也很多。一方面，中文的自然語言處理性能需要有大模型的支持，這個(gè)無論是在商業(yè)上還是在研究上都有類似的需求，特別是前沿研究無法避開預(yù)訓(xùn)練模型開展研究。同時(shí)，以GPT-3為代表的預(yù)訓(xùn)練模型已經(jīng)發(fā)展到一定規(guī)模，大部分研究組的算力資源很難維持計(jì)算需求。如果沒有一個(gè)面向中文的高質(zhì)量預(yù)訓(xùn)練模型作為基礎(chǔ)，會極大地影響國內(nèi)自然語言處理前沿研究的開展，因此亟需國內(nèi)商業(yè)機(jī)構(gòu)或公益組織開源發(fā)布或共享中文預(yù)訓(xùn)練模型。

GPT-3是算法？是資源？何曉冬首先提出了這個(gè)觀念上的問題：如果把GPT-3看作是資源，應(yīng)該把它的API放到網(wǎng)上，讓所有研究者都可以用，這對工業(yè)界可能有價(jià)值；如果把GPT-3當(dāng)作算法或?qū)W術(shù)論文，可以在上面做更多的迭代，像使用BERT一樣重新訓(xùn)練模型。

針對何曉冬的問題，劉知遠(yuǎn)以使用Google Translate的API輔助做一些跨語言問答任務(wù)為例引入，指出GPT-3意味著NLP研究需要從單機(jī)單卡時(shí)代跨越到多機(jī)多卡時(shí)代。

孫宇以從小模型上創(chuàng)新的方法到大模型上的遷移性為切入點(diǎn)，對是否一定要在1730億參數(shù)這樣的規(guī)模上做實(shí)驗(yàn)、做分析表示了不同看法，并擔(dān)心研究方向會被帶偏，基于GPT-3這么大的模型進(jìn)行創(chuàng)新、實(shí)驗(yàn)會非常影響研究的速度。

做研究到底做什么？黃民烈提到了在情感領(lǐng)域的SentiLARE模型上的工作，并指出要聚焦在解決問題上，一個(gè)新的趨勢是不要為了去刷SOTA而工作，SOTA只是一個(gè)方面。還談了自己在清源CPM中遇到的處理中文的兩個(gè)問題：

第一個(gè)問題：中文的數(shù)據(jù)不足，主要體現(xiàn)在：中文數(shù)據(jù)很臟；中文的數(shù)據(jù)量不大且很難獲取；中文數(shù)據(jù)的多樣性很差。

第二個(gè)問題：中文確實(shí)有一些特點(diǎn)，包括在建模上也不能完全照搬英文的那一套。在中文上還是有很多值得去做的工作，做清源CPM也是想去嘗試解決這樣一些問題，尤其在數(shù)據(jù)、模型等方面做一些嘗試。

GPT-3和預(yù)訓(xùn)練模型在工業(yè)界和學(xué)術(shù)界都已經(jīng)是不可忽視的現(xiàn)象級存在。嚴(yán)睿從學(xué)術(shù)界角度提出：學(xué)校的服務(wù)器和計(jì)算資源都有限，有各種條件的限制，很難在每一個(gè)工作上都去使用大模型和大數(shù)據(jù)，能夠在一個(gè)小的領(lǐng)域里翩翩起舞是研究者應(yīng)有的素質(zhì)。在低資源的、小數(shù)據(jù)、算力不足的情況下仍然能夠使方法、性能或結(jié)果有提升是很重要的。希望未來會有越來越多人拋開成見，去判斷更深層次的想法有沒有本質(zhì)改變。

針對嚴(yán)睿的觀點(diǎn)，劉知遠(yuǎn)提到預(yù)訓(xùn)練模型是大勢所趨，并以機(jī)器翻譯在國內(nèi)的發(fā)展為例進(jìn)行了剖析。假如小而美的模型無法融入預(yù)訓(xùn)練模型這種主流框架，那么它的價(jià)值會大打折扣。

基于劉知遠(yuǎn)的觀點(diǎn)，嚴(yán)睿進(jìn)一步分析指出需要找到研究的出路，即要找出一個(gè)場景來說這個(gè)工作有價(jià)值，而不是根據(jù)是否應(yīng)用了預(yù)訓(xùn)練模型而一概而論。

黃民烈補(bǔ)充到：場景和評價(jià)是緊密相關(guān)的，大家都在刷Benchmark的數(shù)據(jù)集，不停地?cái)M合數(shù)據(jù)集，而不是真正地解決任務(wù)，這是不好的。目前，大家已經(jīng)在做一些改變了，今年ACL的最佳論文等都是評價(jià)相關(guān)的，這說明大家也在思考這個(gè)事情，數(shù)據(jù)集上的SOTA并不是那么重要，而要思考模型真正的泛化性、魯棒性，以及模型真正的能力在哪里。

對學(xué)生來說，論文進(jìn)不進(jìn)ACL是個(gè)靈魂的問題，但成熟的學(xué)者要求應(yīng)該更高一點(diǎn)。何曉冬首先指出了學(xué)生與學(xué)者在學(xué)術(shù)生涯的不同階段的不同要求，進(jìn)而指出好的工作一般都能超過一個(gè)合格水平，不會處在一個(gè)有爭議的水平區(qū)間，不用太糾結(jié)。他相信整個(gè)學(xué)術(shù)社區(qū)還會繼續(xù)往上走，很多新的思想都還會起來。

嚴(yán)睿表示預(yù)訓(xùn)練、GPT-3及相關(guān)趨勢是可行的，自己想呼吁的只是不要因?yàn)闆]有用GPT-3而否定了工作的價(jià)值，也不要因?yàn)椴捎昧祟A(yù)訓(xùn)練及GPT-3就認(rèn)為結(jié)果的提升來自大數(shù)據(jù)和大模型。應(yīng)該客觀來看工作成果在某種場景、社區(qū)是否存在貢獻(xiàn)，而這個(gè)貢獻(xiàn)的評判其實(shí)是綜合的、全方位的，不是只看指標(biāo)。

四、 算力是否是最有效的方法？

GPT-3出現(xiàn)以后，國際上也出現(xiàn)了比較多的爭論，牛津大學(xué)Shimon Whiteson教授與強(qiáng)化學(xué)習(xí)之父Richard S. Sutton教授的爭論也引發(fā)圈內(nèi)一大波人的思考：

Richard S. Sutton教授的觀點(diǎn)如下：

Shimon Whiteson教授的觀點(diǎn)如下：

針對上述思辨，黃民烈非常認(rèn)同Sutton的觀點(diǎn)。Search and learning能夠去做擴(kuò)展的一個(gè)非?；A(chǔ)的因素，早期的專家系統(tǒng)存在不能擴(kuò)展、不能解決知識之間的沖突等問題，因此不能做很好的不確定性推理，最終沒有取得很大的成功。而GPT-3非常好地利用了數(shù)據(jù)、學(xué)習(xí)的能力、算力，是非常有希望的，但未來真正的通用AI脫離知識是不行的。

GPT-3這種通用的方法可能在技術(shù)上非常高效，做概率的關(guān)聯(lián)也非常高效，但在解決一些基礎(chǔ)推理問題的時(shí)候不太有效。這個(gè)時(shí)候我們的知識、規(guī)則、更高層次的推理起著非常重要的作用。Gary Marcus有一個(gè)神經(jīng)符號推理的想法，考慮將我們的真實(shí)語言連接到認(rèn)知模型上，而認(rèn)知模型可能是知識圖譜，這種東西關(guān)聯(lián)在一起可能實(shí)現(xiàn)通用智能的路徑，但是這也說不好，因?yàn)檫€需要解決可擴(kuò)展的問題，如果只解決小范圍的問題，也沒有什么用。

如果用物理學(xué)來類比AI的話，我們可能還處在牛頓之前那個(gè)時(shí)期，還沒有到牛頓之后的時(shí)期。何曉冬提到在沒有足夠的觀察、沒有積累足夠的實(shí)際觀測數(shù)據(jù)時(shí)去談理論可能會走偏，比如當(dāng)年亞里士多德這種天才雖然提出過很多深邃的見解，但他在物理學(xué)方面很多觀點(diǎn)也是有其局限性。目前AI領(lǐng)域還沒有一個(gè)理論像牛頓三大定律一樣，能夠告訴AI怎么走。現(xiàn)在還沒有看到真正能夠幫助我們直接設(shè)計(jì)一個(gè)AI機(jī)器出來的知識，相關(guān)知識是不是被扔掉了，也許我們連足夠的觀察都還沒積累起來。

以Geoff Hinton為代表的這一整套代表大數(shù)據(jù)、大計(jì)算的體系在當(dāng)下之所以能夠成功，并不是因?yàn)镠inton比其他科學(xué)家更聰明，當(dāng)然Hinton能發(fā)明深度學(xué)習(xí)算法一定非常聰明，但在某種程度上來說他也更幸運(yùn)，幸運(yùn)在我們這個(gè)世界在過去大半個(gè)世紀(jì)通過半導(dǎo)體技術(shù)實(shí)現(xiàn)了計(jì)算力的指數(shù)級增長，我們在過去幾十年一直很享受這個(gè)過程。大數(shù)據(jù)也是一份幸運(yùn)，由于互聯(lián)網(wǎng)的原因，數(shù)據(jù)也在一直呈指數(shù)級增長。由于這兩種基本資源的增長，Hinton等人在過去發(fā)明的東西突然有用武之地了。之后的十年可能還是這個(gè)路線，更遠(yuǎn)以后不好說，因?yàn)橐院罂赡軙行碌馁Y源出現(xiàn)。

人類對知識的理解還處于探索的階段。孫宇認(rèn)為什么是知識目前還沒有定義好，知識是人類認(rèn)知的過程，如推理、因果關(guān)系，也可能是一些觀察、注意力機(jī)制?，F(xiàn)在統(tǒng)領(lǐng)了整個(gè)NLP發(fā)展的Transformer模型也來源于對觀察的認(rèn)知。哪怕100%的知識里面有1%的知識能夠被用來改進(jìn)這些模型的效果，其實(shí)它也是有用的。當(dāng)然，算力也是不可或缺的。

趨勢是很重要的，數(shù)據(jù)、算力是大趨勢，承載主要的進(jìn)步，但不代表應(yīng)該放棄應(yīng)用人類知識的嘗試。嚴(yán)睿認(rèn)為在大的主流下應(yīng)該會有不同的突破方向，知識肯定是其中一種。

目前AI領(lǐng)域的任務(wù)都太簡單，所以讓人感覺單純通過學(xué)習(xí)、數(shù)據(jù)就可以搞定。劉知遠(yuǎn)認(rèn)為我們現(xiàn)在之所以覺得基于大數(shù)據(jù)或大算力的模型取得了非常大的進(jìn)展，主要是因?yàn)楝F(xiàn)在的這些任務(wù)都還是比較簡單的，與人的智能水平還有比較大的距離。Whiteson與Sutton的觀點(diǎn)可能在某個(gè)側(cè)面是準(zhǔn)確的，從長遠(yuǎn)來看，真的要實(shí)現(xiàn)像人一樣思考、具有人的智能能力模型還有很長的路要走，光靠數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠。

“我們沒有找到正確利用知識的方式，特別是使得它更加擴(kuò)展的方法，這后面有很多需要做的。有一些任務(wù)不需要知識，有一些任務(wù)很需要知識，做推理的時(shí)候，知識很重要，因?yàn)槿擞写罅康闹R，這個(gè)知識有可能在長期進(jìn)化過程中固化在大腦里邊，這些說不清楚，需要認(rèn)知科學(xué)相應(yīng)的研究做支撐?！秉S民烈總結(jié)道。

五、 GPT-3能否給AI續(xù)命？是否會造成科研壟斷？

GPT-3應(yīng)該不會造成壟斷，因?yàn)锳I的主要資源來自計(jì)算和數(shù)據(jù)，二者的價(jià)格在可預(yù)見的未來還會呈指數(shù)級便宜下去，所以在這個(gè)領(lǐng)域是非?；钴S的，并不容易出現(xiàn)壟斷和固化。何曉冬首先表達(dá)了自己的觀點(diǎn)，并以互聯(lián)網(wǎng)的發(fā)展為例進(jìn)行了闡釋。

學(xué)術(shù)界的高校應(yīng)該要有危機(jī)感。劉知遠(yuǎn)根據(jù)自己參會的經(jīng)驗(yàn)總結(jié)出了很明顯的趨勢：企業(yè)愿意去哪些會，意味著哪些領(lǐng)域的問題是這些公司特別需要的。從BERT、GPT-3的誕生機(jī)構(gòu)也可以看出來，高校在做研究時(shí)要及時(shí)調(diào)整方向，凡是公司擅長做的事情，高校就不應(yīng)該去花太多的精力在那個(gè)上面，高校應(yīng)該做特別前沿的研究。

黃民烈對此表示贊同，并指出科研出現(xiàn)了“貧者愈貧，富者愈富”的現(xiàn)象。因?yàn)槠髽I(yè)中的人有數(shù)學(xué)功底，工程能力很強(qiáng)，有算力，也有數(shù)據(jù)，所以能做GPT-3這類工作，這些東西在高?；咀霾怀鰜恚@是一個(gè)很大的問題。谷歌有幾個(gè)特別有名的工作在高校根本做不出來，因?yàn)闆]有這個(gè)條件。

一名好的學(xué)者一定要把目標(biāo)放高遠(yuǎn)。何曉冬從工作價(jià)值的角度提出了自己的建議，并建議科研工作者無論是做論文，還是做系統(tǒng)，都要思考是不是有充分的影響力。好的工作永遠(yuǎn)是稀少的， GPT-3出來以后好的工作所占的比例也沒有太大波動。高校可以瞄準(zhǔn)做五年十年以后會爆發(fā)的東西。

產(chǎn)業(yè)界在深度學(xué)習(xí)時(shí)代相對來說有優(yōu)勢，因?yàn)橛写笠?guī)模的數(shù)據(jù)、算力、工程系統(tǒng)、架構(gòu)等有一系列的優(yōu)勢，所以近十年來NLP的突破性工作很多都是谷歌、微軟這些巨頭搞出來的。孫宇首先分析了NLP的研究現(xiàn)狀，并指出：如果沿著深度學(xué)習(xí)這個(gè)方向研究的話，高校和公司可以有更多的合作，企業(yè)可以解決工程性問題，以及怎么應(yīng)用，而高?？梢越鉀Q為什么有效這類更基礎(chǔ)性的問題。

何曉冬補(bǔ)充提到：隨后十年如果算力、數(shù)據(jù)還是現(xiàn)有趨勢發(fā)展的話，算法需要能夠從算力和數(shù)據(jù)中得到優(yōu)勢。也許不用神經(jīng)網(wǎng)絡(luò)了，也許不用現(xiàn)在流行的激活函數(shù)了，但肯定需要大容量模型做這個(gè)事情，模型容量足夠大才能從便宜的算力和數(shù)據(jù)中受益。

“Life will find its way out”（生命總會找到出路的）。嚴(yán)睿認(rèn)為壟斷不會形成，學(xué)術(shù)界的研究者們，無論是在高校，還是在企業(yè)，作為樂于自我挑戰(zhàn)的一群人，大家總會找到一個(gè)細(xì)分的領(lǐng)域，或者一個(gè)可能在未來爆發(fā)的點(diǎn)鉆研下去。這是搞科研的這個(gè)群體應(yīng)該干的事情，所以預(yù)計(jì)不太會有科研壟斷的現(xiàn)象出現(xiàn)。

Q&A

Q1：我一直以為創(chuàng)造能力、創(chuàng)造性是AI一個(gè)標(biāo)志，但是GPT-3等及其他AI算法，還都是類似于概率模型這樣一個(gè)東西。那么，以后是否會出現(xiàn)一種創(chuàng)造性的模型真正能夠描述、解釋各種現(xiàn)象與邏輯？

黃民烈提到自己正在寫的新書《現(xiàn)代自然語言生成》有關(guān)創(chuàng)造性的討論，認(rèn)為現(xiàn)在去看的話，生成故事、散文、詩歌等是需要一些創(chuàng)造性的，但是現(xiàn)在模型距離人類水平的創(chuàng)造性還挺遠(yuǎn)的。并以小學(xué)三年級《蜘蛛開店》課文為例指出：目前，用AI生成涉及知識、常識和有趣性的故事還存在較大困難。

與黃民烈意見不同，何曉冬相信GPT-3 的下一代也許可以做出這樣的事，因?yàn)槿绻Ｐ妥銐虼螅?strong>記憶、知識和推理很可能是可以統(tǒng)一的。如果記憶力足夠強(qiáng)，包括檢索記憶的能力也足夠強(qiáng)，也可能會有意想不到的效果。

Q2：下一代新的模型的創(chuàng)新來源點(diǎn)在哪？

人類的學(xué)習(xí)不是說只學(xué)語言文本，還要在真實(shí)環(huán)境中和大家交流。所以，孫宇認(rèn)為下一代模型的創(chuàng)新點(diǎn)可能是跨模態(tài)的，即不只是語言的大數(shù)據(jù)，可能還會把互聯(lián)網(wǎng)上的圖片、視頻等通過深度學(xué)習(xí)的語義表示進(jìn)行統(tǒng)一的建模，以后跨模態(tài)可能會成為非常大的突破。

跨模態(tài)確實(shí)還是有很多機(jī)會的，何曉冬表示，如果把百億級的圖片、視頻中的所有的物體和關(guān)系進(jìn)行識別，如果把整個(gè)物理世界通過跨模態(tài)摘出來做預(yù)訓(xùn)練，可以做很多，甚至有可能把常識問題給順便解決了。因?yàn)閷懗晌淖值闹R都是比較高級、比較專業(yè)的知識，常識往往都不會被寫下來，因?yàn)槌ＷR就是生活的常態(tài)，但往往會記錄在海量的日常生活中的照片與視頻里。

審稿：何曉冬、嚴(yán)睿、黃民烈、劉知遠(yuǎn)、孫宇

整理：田志遠(yuǎn)

排版：岳白雪

本周直播預(yù)告：

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： 520jefferson > 《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow》

舉報(bào)/認(rèn)領(lǐng)