AI TIME歡迎每一位AI愛好者的加入! GPT-3發(fā)布以來,衍生了翻譯、答題、創(chuàng)作小說、數(shù)據(jù)分析、數(shù)學(xué)推理、玩游戲、畫圖表、制作簡歷等諸多玩法。深度學(xué)習(xí)之父Geoffrey Hinton表示“從GPT-3驚人的性能可以推測生命、宇宙和萬物的答案只是4萬億個(gè)參數(shù)而已”。紐約大學(xué)教授Gary Marcus與Ernest Davis聯(lián)手在《麻省理工科技評論》發(fā)表題為《傲慢自大的 GPT-3:自己都不知道自己在說什么》的文章,一起討論GPT-3。 那么,GPT-3 的本質(zhì)是什么?GPT-3將帶來哪些沖擊與影響……為了探尋本質(zhì)、掃清迷霧,AI TIME特別邀請學(xué)術(shù)界與產(chǎn)業(yè)界的大佬,于11月26日14:00在1911餐廳相聚,一起論道GPT-3的希望和局限。 本次活動邀請了京東AI研究院常務(wù)副院長何曉冬;北京大學(xué)研究員、博士生導(dǎo)師嚴(yán)睿;清華大學(xué)計(jì)算機(jī)系副教授黃民烈、清華大學(xué)計(jì)算機(jī)系副教授劉知遠(yuǎn);百度杰出架構(gòu)師、百度文心(ERNIE)負(fù)責(zé)人孫宇;CCF YOCSEF學(xué)術(shù)委員會委員、智源研究院學(xué)術(shù)秘書李文玨;AI TIME負(fù)責(zé)人何蕓。 一、 GPT-3的本質(zhì) 為什么一個(gè)語言模型能夠同時(shí)完成閱讀理解、自動問答、機(jī)器翻譯、算術(shù)運(yùn)算和代碼生成等多種任務(wù)? 這是GPT-3一直堅(jiān)持的哲學(xué)思想:將所有自然語言處理的任務(wù)轉(zhuǎn)換為語言模型任務(wù),也就是對所有任務(wù)進(jìn)行統(tǒng)一建模,將任務(wù)描述與任務(wù)輸入視為語言模型的歷史上下文,而輸出則為語言模型需要預(yù)測的未來信息。如下圖所示,無論是做情感分類、自動問答,還是完成算術(shù)運(yùn)算、機(jī)器翻譯任務(wù),都可以形式化為語言生成問題。 GPT-3是單純的暴力美學(xué),還是真的會給AI帶來新的變化,給NLP領(lǐng)域帶來質(zhì)變呢? GPT-3的本質(zhì)是大數(shù)據(jù),基于Transformer這樣的模型。它是革命性的成就,展現(xiàn)了算法+工程的美學(xué)。宏觀來看,科學(xué)技術(shù)的演進(jìn)遵循“藝術(shù)→科學(xué)→大規(guī)模的、穩(wěn)定的、可增長的工程實(shí)踐”的發(fā)展路徑,而GPT-3在某種程度上展現(xiàn)了AI工程取得突破的希望,將推動AI領(lǐng)域的工程化,加速AI整體的發(fā)展,給社會帶來積極影響。何曉冬首先表述了自己對GPT-3和NLP的觀點(diǎn)。 GPT-3的本質(zhì)是一個(gè)概率模型,是條件、概率的關(guān)聯(lián),距離非?;A(chǔ)地解決NLP問題還有非常遙遠(yuǎn)的距離,距離理解也還存在距離。黃民烈從理解的角度剖析了GPT-3的本質(zhì)。 GPT-3和之前的預(yù)訓(xùn)練模型最大的不同在于不再需要微調(diào),只需非常少的樣例就可以完成相應(yīng)的任務(wù)。劉知遠(yuǎn)認(rèn)為GPT-3會給整個(gè)研究領(lǐng)域帶來非常多新的靈感。 GPT-3本質(zhì)是在大規(guī)模數(shù)據(jù)下通過大算力做出來的一個(gè)概率語言模型。它是非常大的突破,是質(zhì)變的東西,GPT-3通過弱監(jiān)督、自監(jiān)督的方法學(xué)習(xí)海量的數(shù)據(jù),擺脫了之前專家系統(tǒng)、機(jī)器學(xué)習(xí)系統(tǒng)、深度學(xué)習(xí)系統(tǒng)對人工知識、人工標(biāo)注數(shù)據(jù)的依賴,但是離解決AI問題還有很長的路要走。孫宇從GPT-3的特點(diǎn)及其對NLP和AI的價(jià)值做了解釋。 GPT-3進(jìn)步的本質(zhì)可能源于它“見多識廣”。正因?yàn)樗姷枚?,所以能夠基于關(guān)聯(lián)預(yù)測、判斷的也更多。但它不對自己的判斷負(fù)責(zé),也不能對它所說內(nèi)容的實(shí)質(zhì)有任何的判斷。因而說GPT-3是量變而不是質(zhì)變。不過,量變過程讓我們看到 “模型越大,能力會更接近人”這條康莊大道還沒走到頭,沒有看到新的瓶頸。嚴(yán)睿從GPT-3與人類視野的角度進(jìn)行了解析。 二、 GPT-3的應(yīng)用、產(chǎn)業(yè)前景 GPT-3在翻譯、答題、創(chuàng)作小說、與人對話、生成代碼等方面展現(xiàn)出了非常好的效果。在未來,GPT-3對AI應(yīng)用的范式將產(chǎn)生哪些影響?對產(chǎn)業(yè)將帶來哪些幫助? 如果中文有這么一個(gè)模型的話,可以做非常多的事情,屆時(shí),只要能夠在相應(yīng)的領(lǐng)域里做一些必要的適配,就可以完成創(chuàng)作小說、答題、進(jìn)行對話等任務(wù)。劉知遠(yuǎn)提出不僅可以關(guān)注預(yù)訓(xùn)練模型如何讓自然語言理解效果更好,還可以多關(guān)注GPT-3等模型的廣闊應(yīng)用前景。 GPT-3最大的問題是“它不知道它知道什么,它也不知道它不知道什么”。黃民烈首先指出GPT-3的局限性,他比較看好GPT-3在內(nèi)容創(chuàng)作中的應(yīng)用,但他認(rèn)為它不太擅長邏輯推理。 GPT-3做內(nèi)容創(chuàng)作很有產(chǎn)業(yè)前景,但不能放心地讓它去做推理,因?yàn)槟P捅旧碛腥毕荨?/span>雖然存在問題,但何曉冬認(rèn)為GPT-3有希望在很多地方進(jìn)行提升。如果AI是一臺車,GPT-3可以作為這臺車的底盤,雖然很不完美,沒有“變速箱”也沒有“方向盤”,但有了這個(gè)底盤后,其余的內(nèi)容是可以逐步添上去的。如果能把符號推理裝在GPT-3這個(gè)底盤上,再做一些融合性的工作,將會帶來下一個(gè)震驚世界的里程碑。 很長時(shí)間以來NLP都是在為各條技術(shù)線做支撐,但是現(xiàn)在的NLP仍然缺乏直接面向終端用戶進(jìn)行價(jià)值輸出的工具,而GPT-3提供了這樣一種形式。嚴(yán)睿認(rèn)為把NLP的能力、AI的能力開放給更多的終端用戶進(jìn)行再加工、再創(chuàng)造,或者直接開放給用戶去使用也許是一種新的產(chǎn)業(yè)形態(tài)。 首先,問答可能就是搜索引擎的下一代。GPT-3有可能成為下一代基于問答的搜索引擎的基礎(chǔ)。其次,GPT-3可以革新一些情感陪伴產(chǎn)品,如智能音箱等。再次,如果NLP支持的規(guī)模做到足夠大,帶來的價(jià)值和意義足夠大,也會有很大的商業(yè)價(jià)值。孫宇認(rèn)為當(dāng)下NLP技術(shù)在產(chǎn)業(yè)里落地還不是非常好,主要的原因在于NLP的技術(shù)不是那么標(biāo)準(zhǔn)化,各個(gè)行業(yè)的人如果沒有AI背景很難使用AI技術(shù)。有了預(yù)訓(xùn)練模型以后,可能只需要針對各個(gè)應(yīng)用場景提供少量的領(lǐng)域知識、領(lǐng)域數(shù)據(jù),就可以解決具體的AI問題。GPT-3為NLP技術(shù)在產(chǎn)業(yè)中標(biāo)準(zhǔn)化落地提供了一個(gè)非常大的可能性,降低了NLP技術(shù)的使用門檻,對于推進(jìn)產(chǎn)業(yè)的智能化變革非常有幫助。 三、 GPT-3將走向何方 目前,GPT-3確實(shí)取得了長足進(jìn)展,但也存在缺陷和問題,發(fā)展面對著挑戰(zhàn)和風(fēng)險(xiǎn)。此外, GPT-3在解決中文問題上也存在不足。面對上述問題,我們該如何去應(yīng)對? 劉知遠(yuǎn)認(rèn)為以GPT-3為代表的預(yù)訓(xùn)練模型的科研和商業(yè)需求很大,要探索和解決的問題也很多。一方面,中文的自然語言處理性能需要有大模型的支持,這個(gè)無論是在商業(yè)上還是在研究上都有類似的需求,特別是前沿研究無法避開預(yù)訓(xùn)練模型開展研究。同時(shí),以GPT-3為代表的預(yù)訓(xùn)練模型已經(jīng)發(fā)展到一定規(guī)模,大部分研究組的算力資源很難維持計(jì)算需求。如果沒有一個(gè)面向中文的高質(zhì)量預(yù)訓(xùn)練模型作為基礎(chǔ),會極大地影響國內(nèi)自然語言處理前沿研究的開展,因此亟需國內(nèi)商業(yè)機(jī)構(gòu)或公益組織開源發(fā)布或共享中文預(yù)訓(xùn)練模型。 GPT-3是算法?是資源?何曉冬首先提出了這個(gè)觀念上的問題:如果把GPT-3看作是資源,應(yīng)該把它的API放到網(wǎng)上,讓所有研究者都可以用,這對工業(yè)界可能有價(jià)值;如果把GPT-3當(dāng)作算法或?qū)W術(shù)論文,可以在上面做更多的迭代,像使用BERT一樣重新訓(xùn)練模型。 針對何曉冬的問題,劉知遠(yuǎn)以使用Google Translate的API輔助做一些跨語言問答任務(wù)為例引入,指出GPT-3意味著NLP研究需要從單機(jī)單卡時(shí)代跨越到多機(jī)多卡時(shí)代。 孫宇以從小模型上創(chuàng)新的方法到大模型上的遷移性為切入點(diǎn),對是否一定要在1730億參數(shù)這樣的規(guī)模上做實(shí)驗(yàn)、做分析表示了不同看法,并擔(dān)心研究方向會被帶偏,基于GPT-3這么大的模型進(jìn)行創(chuàng)新、實(shí)驗(yàn)會非常影響研究的速度。 做研究到底做什么?黃民烈提到了在情感領(lǐng)域的SentiLARE模型上的工作,并指出要聚焦在解決問題上,一個(gè)新的趨勢是不要為了去刷SOTA而工作,SOTA只是一個(gè)方面。還談了自己在清源CPM中遇到的處理中文的兩個(gè)問題: 第一個(gè)問題:中文的數(shù)據(jù)不足,主要體現(xiàn)在:中文數(shù)據(jù)很臟;中文的數(shù)據(jù)量不大且很難獲取;中文數(shù)據(jù)的多樣性很差。 第二個(gè)問題:中文確實(shí)有一些特點(diǎn),包括在建模上也不能完全照搬英文的那一套。在中文上還是有很多值得去做的工作,做清源CPM也是想去嘗試解決這樣一些問題,尤其在數(shù)據(jù)、模型等方面做一些嘗試。 GPT-3和預(yù)訓(xùn)練模型在工業(yè)界和學(xué)術(shù)界都已經(jīng)是不可忽視的現(xiàn)象級存在。嚴(yán)睿從學(xué)術(shù)界角度提出:學(xué)校的服務(wù)器和計(jì)算資源都有限,有各種條件的限制,很難在每一個(gè)工作上都去使用大模型和大數(shù)據(jù),能夠在一個(gè)小的領(lǐng)域里翩翩起舞是研究者應(yīng)有的素質(zhì)。在低資源的、小數(shù)據(jù)、算力不足的情況下仍然能夠使方法、性能或結(jié)果有提升是很重要的。希望未來會有越來越多人拋開成見,去判斷更深層次的想法有沒有本質(zhì)改變。 針對嚴(yán)睿的觀點(diǎn),劉知遠(yuǎn)提到預(yù)訓(xùn)練模型是大勢所趨,并以機(jī)器翻譯在國內(nèi)的發(fā)展為例進(jìn)行了剖析。假如小而美的模型無法融入預(yù)訓(xùn)練模型這種主流框架, 那么它的價(jià)值會大打折扣。 基于劉知遠(yuǎn)的觀點(diǎn),嚴(yán)睿進(jìn)一步分析指出需要找到研究的出路,即要找出一個(gè)場景來說這個(gè)工作有價(jià)值,而不是根據(jù)是否應(yīng)用了預(yù)訓(xùn)練模型而一概而論。 黃民烈補(bǔ)充到:場景和評價(jià)是緊密相關(guān)的,大家都在刷Benchmark的數(shù)據(jù)集,不停地?cái)M合數(shù)據(jù)集,而不是真正地解決任務(wù),這是不好的。目前,大家已經(jīng)在做一些改變了,今年ACL的最佳論文等都是評價(jià)相關(guān)的,這說明大家也在思考這個(gè)事情,數(shù)據(jù)集上的SOTA并不是那么重要,而要思考模型真正的泛化性、魯棒性,以及模型真正的能力在哪里。 對學(xué)生來說,論文進(jìn)不進(jìn)ACL是個(gè)靈魂的問題,但成熟的學(xué)者要求應(yīng)該更高一點(diǎn)。何曉冬首先指出了學(xué)生與學(xué)者在學(xué)術(shù)生涯的不同階段的不同要求,進(jìn)而指出好的工作一般都能超過一個(gè)合格水平,不會處在一個(gè)有爭議的水平區(qū)間,不用太糾結(jié)。他相信整個(gè)學(xué)術(shù)社區(qū)還會繼續(xù)往上走,很多新的思想都還會起來。 嚴(yán)睿表示預(yù)訓(xùn)練、GPT-3及相關(guān)趨勢是可行的,自己想呼吁的只是不要因?yàn)闆]有用GPT-3而否定了工作的價(jià)值,也不要因?yàn)椴捎昧祟A(yù)訓(xùn)練及GPT-3就認(rèn)為結(jié)果的提升來自大數(shù)據(jù)和大模型。應(yīng)該客觀來看工作成果在某種場景、社區(qū)是否存在貢獻(xiàn),而這個(gè)貢獻(xiàn)的評判其實(shí)是綜合的、全方位的,不是只看指標(biāo)。 四、 算力是否是最有效的方法? GPT-3出現(xiàn)以后,國際上也出現(xiàn)了比較多的爭論,牛津大學(xué)Shimon Whiteson教授與強(qiáng)化學(xué)習(xí)之父Richard S. Sutton教授的爭論也引發(fā)圈內(nèi)一大波人的思考: Richard S. Sutton教授的觀點(diǎn)如下: Shimon Whiteson教授的觀點(diǎn)如下: 針對上述思辨,黃民烈非常認(rèn)同Sutton的觀點(diǎn)。Search and learning能夠去做擴(kuò)展的一個(gè)非?;A(chǔ)的因素,早期的專家系統(tǒng)存在不能擴(kuò)展、不能解決知識之間的沖突等問題,因此不能做很好的不確定性推理,最終沒有取得很大的成功。而GPT-3非常好地利用了數(shù)據(jù)、學(xué)習(xí)的能力、算力,是非常有希望的,但未來真正的通用AI脫離知識是不行的。 GPT-3這種通用的方法可能在技術(shù)上非常高效,做概率的關(guān)聯(lián)也非常高效,但在解決一些基礎(chǔ)推理問題的時(shí)候不太有效。這個(gè)時(shí)候我們的知識、規(guī)則、更高層次的推理起著非常重要的作用。Gary Marcus有一個(gè)神經(jīng)符號推理的想法,考慮將我們的真實(shí)語言連接到認(rèn)知模型上,而認(rèn)知模型可能是知識圖譜,這種東西關(guān)聯(lián)在一起可能實(shí)現(xiàn)通用智能的路徑,但是這也說不好,因?yàn)檫€需要解決可擴(kuò)展的問題,如果只解決小范圍的問題,也沒有什么用。 如果用物理學(xué)來類比AI的話,我們可能還處在牛頓之前那個(gè)時(shí)期,還沒有到牛頓之后的時(shí)期。何曉冬提到在沒有足夠的觀察、沒有積累足夠的實(shí)際觀測數(shù)據(jù)時(shí)去談理論可能會走偏,比如當(dāng)年亞里士多德這種天才雖然提出過很多深邃的見解,但他在物理學(xué)方面很多觀點(diǎn)也是有其局限性。目前AI領(lǐng)域還沒有一個(gè)理論像牛頓三大定律一樣,能夠告訴AI怎么走。現(xiàn)在還沒有看到真正能夠幫助我們直接設(shè)計(jì)一個(gè)AI機(jī)器出來的知識,相關(guān)知識是不是被扔掉了,也許我們連足夠的觀察都還沒積累起來。 以Geoff Hinton為代表的這一整套代表大數(shù)據(jù)、大計(jì)算的體系在當(dāng)下之所以能夠成功,并不是因?yàn)镠inton比其他科學(xué)家更聰明,當(dāng)然Hinton能發(fā)明深度學(xué)習(xí)算法一定非常聰明,但在某種程度上來說他也更幸運(yùn),幸運(yùn)在我們這個(gè)世界在過去大半個(gè)世紀(jì)通過半導(dǎo)體技術(shù)實(shí)現(xiàn)了計(jì)算力的指數(shù)級增長,我們在過去幾十年一直很享受這個(gè)過程。大數(shù)據(jù)也是一份幸運(yùn),由于互聯(lián)網(wǎng)的原因,數(shù)據(jù)也在一直呈指數(shù)級增長。由于這兩種基本資源的增長,Hinton等人在過去發(fā)明的東西突然有用武之地了。之后的十年可能還是這個(gè)路線,更遠(yuǎn)以后不好說,因?yàn)橐院罂赡軙行碌馁Y源出現(xiàn)。 人類對知識的理解還處于探索的階段。孫宇認(rèn)為什么是知識目前還沒有定義好,知識是人類認(rèn)知的過程,如推理、因果關(guān)系,也可能是一些觀察、注意力機(jī)制?,F(xiàn)在統(tǒng)領(lǐng)了整個(gè)NLP發(fā)展的Transformer模型也來源于對觀察的認(rèn)知。哪怕100%的知識里面有1%的知識能夠被用來改進(jìn)這些模型的效果,其實(shí)它也是有用的。當(dāng)然,算力也是不可或缺的。 趨勢是很重要的,數(shù)據(jù)、算力是大趨勢,承載主要的進(jìn)步,但不代表應(yīng)該放棄應(yīng)用人類知識的嘗試。嚴(yán)睿認(rèn)為在大的主流下應(yīng)該會有不同的突破方向,知識肯定是其中一種。 目前AI領(lǐng)域的任務(wù)都太簡單,所以讓人感覺單純通過學(xué)習(xí)、數(shù)據(jù)就可以搞定。劉知遠(yuǎn)認(rèn)為我們現(xiàn)在之所以覺得基于大數(shù)據(jù)或大算力的模型取得了非常大的進(jìn)展,主要是因?yàn)楝F(xiàn)在的這些任務(wù)都還是比較簡單的,與人的智能水平還有比較大的距離。Whiteson與Sutton的觀點(diǎn)可能在某個(gè)側(cè)面是準(zhǔn)確的,從長遠(yuǎn)來看,真的要實(shí)現(xiàn)像人一樣思考、具有人的智能能力模型還有很長的路要走,光靠數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠。 “我們沒有找到正確利用知識的方式,特別是使得它更加擴(kuò)展的方法,這后面有很多需要做的。有一些任務(wù)不需要知識,有一些任務(wù)很需要知識,做推理的時(shí)候,知識很重要,因?yàn)槿擞写罅康闹R,這個(gè)知識有可能在長期進(jìn)化過程中固化在大腦里邊,這些說不清楚,需要認(rèn)知科學(xué)相應(yīng)的研究做支撐?!秉S民烈總結(jié)道。 五、 GPT-3能否給AI續(xù)命?是否會造成科研壟斷? GPT-3應(yīng)該不會造成壟斷,因?yàn)锳I的主要資源來自計(jì)算和數(shù)據(jù),二者的價(jià)格在可預(yù)見的未來還會呈指數(shù)級便宜下去,所以在這個(gè)領(lǐng)域是非?;钴S的,并不容易出現(xiàn)壟斷和固化。何曉冬首先表達(dá)了自己的觀點(diǎn),并以互聯(lián)網(wǎng)的發(fā)展為例進(jìn)行了闡釋。 學(xué)術(shù)界的高校應(yīng)該要有危機(jī)感。劉知遠(yuǎn)根據(jù)自己參會的經(jīng)驗(yàn)總結(jié)出了很明顯的趨勢:企業(yè)愿意去哪些會,意味著哪些領(lǐng)域的問題是這些公司特別需要的。從BERT、GPT-3的誕生機(jī)構(gòu)也可以看出來,高校在做研究時(shí)要及時(shí)調(diào)整方向,凡是公司擅長做的事情,高校就不應(yīng)該去花太多的精力在那個(gè)上面,高校應(yīng)該做特別前沿的研究。 黃民烈對此表示贊同,并指出科研出現(xiàn)了“貧者愈貧,富者愈富”的現(xiàn)象。因?yàn)槠髽I(yè)中的人有數(shù)學(xué)功底,工程能力很強(qiáng),有算力,也有數(shù)據(jù),所以能做GPT-3這類工作,這些東西在高?;咀霾怀鰜恚@是一個(gè)很大的問題。谷歌有幾個(gè)特別有名的工作在高校根本做不出來,因?yàn)闆]有這個(gè)條件。 一名好的學(xué)者一定要把目標(biāo)放高遠(yuǎn)。何曉冬從工作價(jià)值的角度提出了自己的建議,并建議科研工作者無論是做論文,還是做系統(tǒng),都要思考是不是有充分的影響力。好的工作永遠(yuǎn)是稀少的, GPT-3出來以后好的工作所占的比例也沒有太大波動。高校可以瞄準(zhǔn)做五年十年以后會爆發(fā)的東西。 產(chǎn)業(yè)界在深度學(xué)習(xí)時(shí)代相對來說有優(yōu)勢,因?yàn)橛写笠?guī)模的數(shù)據(jù)、算力、工程系統(tǒng)、架構(gòu)等有一系列的優(yōu)勢,所以近十年來NLP的突破性工作很多都是谷歌、微軟這些巨頭搞出來的。孫宇首先分析了NLP的研究現(xiàn)狀,并指出:如果沿著深度學(xué)習(xí)這個(gè)方向研究的話,高校和公司可以有更多的合作,企業(yè)可以解決工程性問題,以及怎么應(yīng)用,而高??梢越鉀Q為什么有效這類更基礎(chǔ)性的問題。 何曉冬補(bǔ)充提到:隨后十年如果算力、數(shù)據(jù)還是現(xiàn)有趨勢發(fā)展的話,算法需要能夠從算力和數(shù)據(jù)中得到優(yōu)勢。也許不用神經(jīng)網(wǎng)絡(luò)了,也許不用現(xiàn)在流行的激活函數(shù)了,但肯定需要大容量模型做這個(gè)事情,模型容量足夠大才能從便宜的算力和數(shù)據(jù)中受益。 “Life will find its way out”(生命總會找到出路的)。嚴(yán)睿認(rèn)為壟斷不會形成,學(xué)術(shù)界的研究者們,無論是在高校,還是在企業(yè),作為樂于自我挑戰(zhàn)的一群人,大家總會找到一個(gè)細(xì)分的領(lǐng)域,或者一個(gè)可能在未來爆發(fā)的點(diǎn)鉆研下去。這是搞科研的這個(gè)群體應(yīng)該干的事情,所以預(yù)計(jì)不太會有科研壟斷的現(xiàn)象出現(xiàn)。 Q&A Q1:我一直以為創(chuàng)造能力、創(chuàng)造性是AI一個(gè)標(biāo)志,但是GPT-3等及其他AI算法,還都是類似于概率模型這樣一個(gè)東西。那么,以后是否會出現(xiàn)一種創(chuàng)造性的模型真正能夠描述、解釋各種現(xiàn)象與邏輯? 黃民烈提到自己正在寫的新書《現(xiàn)代自然語言生成》有關(guān)創(chuàng)造性的討論,認(rèn)為現(xiàn)在去看的話,生成故事、散文、詩歌等是需要一些創(chuàng)造性的,但是現(xiàn)在模型距離人類水平的創(chuàng)造性還挺遠(yuǎn)的。并以小學(xué)三年級《蜘蛛開店》課文為例指出:目前,用AI生成涉及知識、常識和有趣性的故事還存在較大困難。 與黃民烈意見不同,何曉冬相信GPT-3 的下一代也許可以做出這樣的事,因?yàn)槿绻P妥銐虼螅?strong>記憶、知識和推理很可能是可以統(tǒng)一的。如果記憶力足夠強(qiáng),包括檢索記憶的能力也足夠強(qiáng),也可能會有意想不到的效果。 Q2:下一代新的模型的創(chuàng)新來源點(diǎn)在哪? 人類的學(xué)習(xí)不是說只學(xué)語言文本,還要在真實(shí)環(huán)境中和大家交流。所以,孫宇認(rèn)為下一代模型的創(chuàng)新點(diǎn)可能是跨模態(tài)的,即不只是語言的大數(shù)據(jù),可能還會把互聯(lián)網(wǎng)上的圖片、視頻等通過深度學(xué)習(xí)的語義表示進(jìn)行統(tǒng)一的建模,以后跨模態(tài)可能會成為非常大的突破。 跨模態(tài)確實(shí)還是有很多機(jī)會的,何曉冬表示,如果把百億級的圖片、視頻中的所有的物體和關(guān)系進(jìn)行識別,如果把整個(gè)物理世界通過跨模態(tài)摘出來做預(yù)訓(xùn)練,可以做很多,甚至有可能把常識問題給順便解決了。因?yàn)閷懗晌淖值闹R都是比較高級、比較專業(yè)的知識,常識往往都不會被寫下來,因?yàn)槌WR就是生活的常態(tài),但往往會記錄在海量的日常生活中的照片與視頻里。 審稿:何曉冬、嚴(yán)睿、黃民烈、劉知遠(yuǎn)、孫宇 整理:田志遠(yuǎn) 排版:岳白雪 本周直播預(yù)告: |
|