By 超神經(jīng) 我們就快到了「寧愿相信世上有鬼,也不相信 AI 的破嘴」的時(shí)代,人工智能又在 NLP 領(lǐng)域進(jìn)化到了新的巔峰。 比人還會(huì)編的 AI 來(lái)了 給一個(gè)開(kāi)頭,讓對(duì)方接著寫(xiě)出后面的故事,也許會(huì)難倒一些人,那如果交給 AI , 它們可以做到多優(yōu)秀呢? 今天,OpenAI 公布了一個(gè)自動(dòng)文本生成模型,能夠?qū)懗觥刚鎸?shí)感」十足的文章。 人為的給出開(kāi)頭,這個(gè) AI 模型就能快速的補(bǔ)充成一篇完整的稿子。至于文字的可讀性和流暢度,不提前告知的話,也許你都猜不出這是 AI 所作。 比如給他這樣一個(gè)開(kāi)頭:科學(xué)家們有個(gè)令人震驚的發(fā)現(xiàn),在安第斯山脈一個(gè)偏遠(yuǎn)且沒(méi)被開(kāi)發(fā)過(guò)的山谷里,生活著一群獨(dú)角獸。更加讓人訝異的是,這些獨(dú)角獸說(shuō)著完美的英文。 這個(gè) AI 模型生成的文章如下(部分): 這些生物有著獨(dú)特的角,科學(xué)家們就以此為它們命名,叫Ovid’s Unicorn。長(zhǎng)著四只角的銀白色生物,在這之前并不為科學(xué)界所知。 …… 雖然,這些生物的起源還不清楚,但有些人相信,它們是一個(gè)人和一個(gè)獨(dú)角獸相交而誕生的,那時(shí)人類文明還不存在。Pérez教授說(shuō):“在南美洲,這樣的現(xiàn)象很常見(jiàn)?!?/em> …… 如果要確認(rèn)它們是消失種族的后裔,DNA檢測(cè)可能是唯一的方法。 它除了能夠?qū)懗鲆约賮y真的文稿,還具備閱讀理解、問(wèn)答、生成文章摘要、翻譯文本等能力。 翻譯:從法語(yǔ)到英語(yǔ) 數(shù)據(jù)集:WMT-14 Fr-En
AI 模型翻譯實(shí)例 這個(gè) AI 有點(diǎn)強(qiáng) 這個(gè) AI 模型被稱為 GPT-2 ,它是 GPT 的「升級(jí)版」。而它的殘暴之處在于,這一次運(yùn)用了更多的訓(xùn)練數(shù)據(jù),和上一版的原理一樣,但 GPT-2 是對(duì) GPT 模型的直接放大,它在超出 10 倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練,參數(shù)量也多出了 10 倍。 通過(guò)分析輸入的文本,GPT-2 可以執(zhí)行基本的文本處理功能,它擅長(zhǎng)語(yǔ)言建模任務(wù),該任務(wù)就是讓程序通過(guò)預(yù)測(cè),給出句子中下一個(gè)單詞的能力。隨便給它一個(gè)標(biāo)題, AI 就能完美的寫(xiě)下文章的其余部分,甚至還能附上假引號(hào)和統(tǒng)計(jì)數(shù)據(jù)。 有人這么說(shuō)它,「想要一篇短篇小說(shuō)?只要給它第一行,就能得到一個(gè)意料之外又不乏精彩的故事。如果有正確的提示,它甚至可以寫(xiě)出長(zhǎng)篇小說(shuō)?!?/p> 訓(xùn)練 GPT-2 的目標(biāo)很簡(jiǎn)單:給定文本中前面的詞語(yǔ),去預(yù)測(cè)接下的詞句。而訓(xùn)練數(shù)據(jù)集的多樣性,卻使得它可以完成大量不同領(lǐng)域的文本生成。 雖然技術(shù)上沒(méi)有新的地方,但人家有礦產(chǎn)級(jí)別的訓(xùn)練,這也是為什么會(huì)造出了怪獸級(jí)別的新工具。 OpenAI 的研究人員表示,在各種特定領(lǐng)域數(shù)據(jù)集的語(yǔ)言建模測(cè)試中,GPT-2 都取得了優(yōu)異的評(píng)定分?jǐn)?shù)。作為一個(gè)沒(méi)有在任何領(lǐng)域數(shù)據(jù)專門(mén)訓(xùn)練過(guò)的模型,它的表現(xiàn),比那些特意打造的模型還要好。 NLP 崛起的時(shí)代? 幾個(gè)月前谷歌推出的語(yǔ)言模型 BERT 引發(fā)了業(yè)內(nèi)的廣泛關(guān)注,一時(shí)間內(nèi)不斷刷屏,其 3 億參數(shù)量刷新 11 項(xiàng)紀(jì)錄的成績(jī)讓人贊不絕口。但 OpenAI 這次推出的 GPT -2 更為要命,它達(dá)到了 15 億參數(shù)。 與以前最先進(jìn)的人工智能模型相比,GPT2模型「大 12 倍,數(shù)據(jù)集 大 15倍,涉及范圍也更廣」。它是在一個(gè)包含大約 1000 萬(wàn)篇文章的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,這些文章是通過(guò) Reddit 上投票超過(guò)3票的新聞鏈接而選出的。所訓(xùn)練的文本數(shù)據(jù)多達(dá) 40GB ! 在 BERT 血洗 NLP(自然語(yǔ)言處理)各項(xiàng)頂級(jí)指標(biāo)之前,OpenAI 的 GTP 就站在了一流高手之列,而新出的 GPT-2 通過(guò)海量的訓(xùn)練數(shù)據(jù)也直接把這一領(lǐng)域帶到了新的高度。 有了 BERT 和 GPT-2 ,NLP 的道路肯定會(huì)紅紅火火,至于說(shuō)怎么樣更好的造福人類,這還是一個(gè)慎重的話題。 艾倫人工智能研究所的研究人員 Ani Kembhavi 表示,對(duì)GPT-2 感到興奮的一個(gè)原因是,預(yù)測(cè)文本可以被認(rèn)為是計(jì)算機(jī)的「超級(jí)任務(wù)」,一旦解決了這個(gè)挑戰(zhàn),將開(kāi)啟智慧的大門(mén)。 會(huì)是潘多拉魔盒嗎? 遺憾的是,這么強(qiáng)大的工具暫時(shí)還不能公布出來(lái)。而背后的考慮是它可能會(huì)帶來(lái)的隱患問(wèn)題,比如生成假新聞,惡意評(píng)論,制造垃圾郵件等等。這樣的武器用在非法的途徑,造成的后果也是災(zāi)難級(jí)的。 對(duì)于這個(gè)方面,開(kāi)發(fā)者也感到了擔(dān)憂。OpenAI 的研究人員說(shuō)到他們無(wú)法預(yù)測(cè)會(huì)帶來(lái)什么。目前他們?nèi)栽谔剿髦?。出于種種原因,他們對(duì)項(xiàng)目所分享的內(nèi)容非常謹(jǐn)慎,目前對(duì)主要的基礎(chǔ)代碼和培訓(xùn)數(shù)據(jù)不予公開(kāi)。 他們指出謹(jǐn)慎的另一個(gè)原因在于,如果有人提供 GPT-2 關(guān)于種族主義,暴力,厭惡女性或辱罵性的文本,將造成很危險(xiǎn)的局面。畢竟,它是依賴于互聯(lián)網(wǎng)訓(xùn)練的。 不否認(rèn)這項(xiàng)技術(shù)將帶來(lái)巨大的變革,但任何一個(gè)工具,在圖謀不軌者的手中,都會(huì)帶來(lái)災(zāi)難性的后果。 而且由于 GPT-2 所寫(xiě)的文本都是新生成的,不存在復(fù)制粘貼的問(wèn)題,用以往的檢測(cè)手段中更難發(fā)現(xiàn)和排查,這將會(huì)是一個(gè)潛在的威脅。 那么,關(guān)鍵的問(wèn)題來(lái)了,這篇文章是 AI 寫(xiě)出來(lái)的嗎? 歷史文章(點(diǎn)擊圖片閱讀) AI 不上位,合作寫(xiě)代碼才是正道 GANs 千萬(wàn)條,安全第一條 三次元的世界里,機(jī)械臂的手活兒無(wú)敵了 |
|
來(lái)自: 西北望msm66g9f > 《編程》