你即將看到的這篇文章也許是人工智能寫(xiě)的

西北望msm66g9f 2020-02-16

展開(kāi)全文

By 超神經(jīng)

我們就快到了「寧愿相信世上有鬼，也不相信 AI 的破嘴」的時(shí)代，人工智能又在 NLP 領(lǐng)域進(jìn)化到了新的巔峰。

比人還會(huì)編的 AI 來(lái)了

給一個(gè)開(kāi)頭，讓對(duì)方接著寫(xiě)出后面的故事，也許會(huì)難倒一些人，那如果交給 AI ，它們可以做到多優(yōu)秀呢？

今天，OpenAI 公布了一個(gè)自動(dòng)文本生成模型，能夠?qū)懗觥刚鎸?shí)感」十足的文章。

人為的給出開(kāi)頭，這個(gè) AI 模型就能快速的補(bǔ)充成一篇完整的稿子。至于文字的可讀性和流暢度，不提前告知的話，也許你都猜不出這是 AI 所作。

比如給他這樣一個(gè)開(kāi)頭：科學(xué)家們有個(gè)令人震驚的發(fā)現(xiàn)，在安第斯山脈一個(gè)偏遠(yuǎn)且沒(méi)被開(kāi)發(fā)過(guò)的山谷里，生活著一群獨(dú)角獸。更加讓人訝異的是，這些獨(dú)角獸說(shuō)著完美的英文。

這個(gè) AI 模型生成的文章如下（部分）：

這些生物有著獨(dú)特的角，科學(xué)家們就以此為它們命名，叫Ovid’s Unicorn。長(zhǎng)著四只角的銀白色生物，在這之前并不為科學(xué)界所知。

……

雖然，這些生物的起源還不清楚，但有些人相信，它們是一個(gè)人和一個(gè)獨(dú)角獸相交而誕生的，那時(shí)人類文明還不存在。Pérez教授說(shuō)：“在南美洲，這樣的現(xiàn)象很常見(jiàn)?！?/em>

……

如果要確認(rèn)它們是消失種族的后裔，DNA檢測(cè)可能是唯一的方法。

它除了能夠?qū)懗鲆约賮y真的文稿，還具備閱讀理解、問(wèn)答、生成文章摘要、翻譯文本等能力。

翻譯：從法語(yǔ)到英語(yǔ)

數(shù)據(jù)集：WMT-14 Fr-En

原句

Un homme a expliqué que l’opération gratuite qu’il avait subie pour soigner une hernie lui permettrait de travailler à nouveau.

人工

One man explained that the free hernia surgery he’d received will allow him to work again.

AI 翻

A man told me that the operation gratuity he had been promised would not allow him to travel.

AI 模型翻譯實(shí)例

這個(gè) AI 有點(diǎn)強(qiáng)

這個(gè) AI 模型被稱為 GPT-2 ，它是 GPT 的「升級(jí)版」。而它的殘暴之處在于，這一次運(yùn)用了更多的訓(xùn)練數(shù)據(jù)，和上一版的原理一樣，但 GPT-2 是對(duì) GPT 模型的直接放大，它在超出 10 倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練，參數(shù)量也多出了 10 倍。

通過(guò)分析輸入的文本，GPT-2 可以執(zhí)行基本的文本處理功能，它擅長(zhǎng)語(yǔ)言建模任務(wù)，該任務(wù)就是讓程序通過(guò)預(yù)測(cè)，給出句子中下一個(gè)單詞的能力。隨便給它一個(gè)標(biāo)題， AI 就能完美的寫(xiě)下文章的其余部分，甚至還能附上假引號(hào)和統(tǒng)計(jì)數(shù)據(jù)。

有人這么說(shuō)它，「想要一篇短篇小說(shuō)？只要給它第一行，就能得到一個(gè)意料之外又不乏精彩的故事。如果有正確的提示，它甚至可以寫(xiě)出長(zhǎng)篇小說(shuō)?！?/p>

訓(xùn)練 GPT-2 的目標(biāo)很簡(jiǎn)單：給定文本中前面的詞語(yǔ)，去預(yù)測(cè)接下的詞句。而訓(xùn)練數(shù)據(jù)集的多樣性，卻使得它可以完成大量不同領(lǐng)域的文本生成。

雖然技術(shù)上沒(méi)有新的地方，但人家有礦產(chǎn)級(jí)別的訓(xùn)練，這也是為什么會(huì)造出了怪獸級(jí)別的新工具。

OpenAI 的研究人員表示，在各種特定領(lǐng)域數(shù)據(jù)集的語(yǔ)言建模測(cè)試中，GPT-2 都取得了優(yōu)異的評(píng)定分?jǐn)?shù)。作為一個(gè)沒(méi)有在任何領(lǐng)域數(shù)據(jù)專門(mén)訓(xùn)練過(guò)的模型，它的表現(xiàn)，比那些特意打造的模型還要好。

NLP 崛起的時(shí)代？

幾個(gè)月前谷歌推出的語(yǔ)言模型 BERT 引發(fā)了業(yè)內(nèi)的廣泛關(guān)注，一時(shí)間內(nèi)不斷刷屏，其 3 億參數(shù)量刷新 11 項(xiàng)紀(jì)錄的成績(jī)讓人贊不絕口。但 OpenAI 這次推出的 GPT -2 更為要命，它達(dá)到了 15 億參數(shù)。

與以前最先進(jìn)的人工智能模型相比，GPT2模型「大 12 倍，數(shù)據(jù)集大 15倍，涉及范圍也更廣」。它是在一個(gè)包含大約 1000 萬(wàn)篇文章的數(shù)據(jù)集上進(jìn)行訓(xùn)練的，這些文章是通過(guò) Reddit 上投票超過(guò)3票的新聞鏈接而選出的。所訓(xùn)練的文本數(shù)據(jù)多達(dá) 40GB ！

在 BERT 血洗 NLP（自然語(yǔ)言處理）各項(xiàng)頂級(jí)指標(biāo)之前，OpenAI 的 GTP 就站在了一流高手之列，而新出的 GPT-2 通過(guò)海量的訓(xùn)練數(shù)據(jù)也直接把這一領(lǐng)域帶到了新的高度。

有了 BERT 和 GPT-2 ，NLP 的道路肯定會(huì)紅紅火火，至于說(shuō)怎么樣更好的造福人類，這還是一個(gè)慎重的話題。

艾倫人工智能研究所的研究人員 Ani Kembhavi 表示，對(duì)GPT-2 感到興奮的一個(gè)原因是，預(yù)測(cè)文本可以被認(rèn)為是計(jì)算機(jī)的「超級(jí)任務(wù)」，一旦解決了這個(gè)挑戰(zhàn)，將開(kāi)啟智慧的大門(mén)。

會(huì)是潘多拉魔盒嗎？

遺憾的是，這么強(qiáng)大的工具暫時(shí)還不能公布出來(lái)。而背后的考慮是它可能會(huì)帶來(lái)的隱患問(wèn)題，比如生成假新聞，惡意評(píng)論，制造垃圾郵件等等。這樣的武器用在非法的途徑，造成的后果也是災(zāi)難級(jí)的。

對(duì)于這個(gè)方面，開(kāi)發(fā)者也感到了擔(dān)憂。OpenAI 的研究人員說(shuō)到他們無(wú)法預(yù)測(cè)會(huì)帶來(lái)什么。目前他們?nèi)栽谔剿髦?。出于種種原因，他們對(duì)項(xiàng)目所分享的內(nèi)容非常謹(jǐn)慎，目前對(duì)主要的基礎(chǔ)代碼和培訓(xùn)數(shù)據(jù)不予公開(kāi)。

他們指出謹(jǐn)慎的另一個(gè)原因在于，如果有人提供 GPT-2 關(guān)于種族主義，暴力，厭惡女性或辱罵性的文本，將造成很危險(xiǎn)的局面。畢竟，它是依賴于互聯(lián)網(wǎng)訓(xùn)練的。

不否認(rèn)這項(xiàng)技術(shù)將帶來(lái)巨大的變革，但任何一個(gè)工具，在圖謀不軌者的手中，都會(huì)帶來(lái)災(zāi)難性的后果。

而且由于 GPT-2 所寫(xiě)的文本都是新生成的，不存在復(fù)制粘貼的問(wèn)題，用以往的檢測(cè)手段中更難發(fā)現(xiàn)和排查，這將會(huì)是一個(gè)潛在的威脅。

那么，關(guān)鍵的問(wèn)題來(lái)了，這篇文章是 AI 寫(xiě)出來(lái)的嗎？

歷史文章（點(diǎn)擊圖片閱讀）

AI 不上位，合作寫(xiě)代碼才是正道

GANs 千萬(wàn)條，安全第一條

三次元的世界里，機(jī)械臂的手活兒無(wú)敵了

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：西北望msm66g9f > 《編程》

舉報(bào)/認(rèn)領(lǐng)