一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

自然語言處理的蓬勃發(fā)展及其未來

 hlhq1 2019-10-17

數(shù)據(jù)和計算機(jī)科學(xué)家已經(jīng)進(jìn)行了很長時間的研究,以提高從自然語言中獲取含義的能力–無論是他們試圖創(chuàng)建一個機(jī)器人來響應(yīng)用戶在其網(wǎng)站上的問題還是確定人們在Twitter上喜歡或討厭他們的品牌。

壞消息是,我們?nèi)匀恍枰斫獯罅扛拍顏碚{(diào)整結(jié)果;好消息是,即使使用適度大小的數(shù)據(jù)集和計算預(yù)算,使用BERT和ERNIE之類的工具,也比以往任何時候都更容易獲得從自然語言處理(NLP)獲得好的結(jié)果!

自然語言處理的蓬勃發(fā)展及其未來

NLP的簡要歷史

讓我們從簡要回顧該學(xué)科的歷史開始??梢詫LP系統(tǒng)的開發(fā)分為三個主要階段:

  • 規(guī)則引擎 —早期,大多數(shù)NLP系統(tǒng)都是基于復(fù)雜的手寫規(guī)則集。好消息是他們很容易理解,但是做得不好,可以解釋,但不太準(zhǔn)確
  • 統(tǒng)計推論 —在80年代,研究人員開始使用'隱性馬爾可夫模型'使用'部分詞性標(biāo)注'(標(biāo)記名詞,動詞等)來返回單詞的統(tǒng)計可能含義以及它們之間的關(guān)系
  • 深度學(xué)習(xí) -在過去的十年中,神經(jīng)網(wǎng)絡(luò)已成為解決大多數(shù)非平凡的NLP問題的最常用方法,可以提高特定類別的NLP任務(wù)的性能

在過去十年中,深度學(xué)習(xí)已改變了NLP的實踐。無論您是嘗試實現(xiàn)機(jī)器翻譯、問題回答、簡短文本分類還是情感分析,都有深度學(xué)習(xí)工具可用來幫助解決這些問題。但是,從歷史上看,創(chuàng)建正確的網(wǎng)絡(luò)然后對其進(jìn)行訓(xùn)練的過程需要大量時間,專業(yè)知識,龐大的數(shù)據(jù)集和大量的計算能力。

ELMO

NLP 的整個革命源于2018年初的論文?ELMo(Embeddings from Language Models)。ELMo是一種使用深度雙向語言模型的,該模型在大型文本語料庫上進(jìn)行了預(yù)訓(xùn)練,以提高一系列NLP任務(wù)的性能。

這意味著什么?讓我們分解一下。'深度'指的是它正在使用多層神經(jīng)網(wǎng)絡(luò)(例如在'深度學(xué)習(xí)'中)。雙向的?嗯,歷史上大多數(shù)語言模型都是單向的,因此對于英語,他們會從左到右讀取單詞。在雙向模型中,所有單詞都被同時攝取。如果進(jìn)行了足夠的訓(xùn)練,可以更準(zhǔn)確地推斷出上下文。預(yù)訓(xùn)練意味著已經(jīng)在非常大的通用語言數(shù)據(jù)集上訓(xùn)練了模型。在圖像識別和NLP中都顯示了預(yù)訓(xùn)練,可以大大提高準(zhǔn)確性和/或減少模型最終訓(xùn)練所需的時間和成本。

谷歌的BERT

自然語言處理的蓬勃發(fā)展及其未來

在2018年11月,Google提出BERT,Bidirectional Encoder Representations from Transformers。這是用于上下文預(yù)訓(xùn)練的新技術(shù)。上下文意味著它考慮了給定單詞周圍的單詞,因此與上下文無關(guān)模型不同,銀行在'銀行帳戶'和'河岸'中的概念并不相同。

BERT利用了許多現(xiàn)有方法,包括ELMo和。BERT的核心優(yōu)勢在于,它可以屏蔽任何給定輸入短語中的不同單詞,然后估算可能能夠'填充該位置'的各種單詞的可能性。

除了打破許多處理基于語言的任務(wù)的記錄外,BERT還大大降低了訓(xùn)練語言模型的成本和復(fù)雜性。正如他們在陳述,'在這個版本中,世界上任何人可以訓(xùn)練自己的國家的最先進(jìn)的問答系統(tǒng),在約30分鐘的單云TPU,或只需幾個小時即可使用一個GPU。

要實現(xiàn)諸如情感分析之類的分類任務(wù),只需要在Transformer輸出的頂部添加一個分類層即可。

對于必須將問題映射到較大文本正文中的問題回答任務(wù),請為文本中任何給定問題的答案的起點和終點添加兩個額外的向量。

對于命名實體識別(NER-識別特定實體,例如人,公司或產(chǎn)品),可以通過將每個令牌的輸出向量輸入到預(yù)測NER標(biāo)簽的分類層中來訓(xùn)練模型,因此它只是另一個分類器。最重要的是,即使數(shù)據(jù)集少,經(jīng)驗有限,使用BERT也可以在非常短的時間內(nèi)創(chuàng)建最新的NLP模型。

XLNet

自然語言處理的蓬勃發(fā)展及其未來

BERT的操作方式存在兩個弱點。通過將其掩蓋的單詞視為獨立詞,它不會從訓(xùn)練數(shù)據(jù)中學(xué)到很多東西,并且由于未將掩碼令牌傳遞到輸出,因此降低了微調(diào)結(jié)果的有效性。

在2019年6月,Google Brain團(tuán)隊的成員發(fā)表了XLNet,通過使用一種稱為'置換語言建模'的技術(shù)避免了BERT遭受的問題。在置換語言建模中,像傳統(tǒng)語言模型一樣,模型被訓(xùn)練為在給定上下文的情況下預(yù)測一個令牌,但不是順序地預(yù)測令牌,而是以隨機(jī)順序預(yù)測它們。最重要的是,XLNet在許多關(guān)鍵的NLP任務(wù)上均勝過BERT,并提高了技術(shù)水平。

ERNIE

自然語言處理的蓬勃發(fā)展及其未來

在計算效率,百度研究團(tuán)隊不甘示弱,于2019年推出ERNIE,隨后于2019年7月推出ERNIE 2.0。ERNIE代表通過kNowledge IntEgration實現(xiàn)卷積增強(qiáng)表示,把BERT許多概念統(tǒng)在一起,但也匹配來自其他資源(如百科全書,新聞媒體和在線論壇)的語義元素信息。例如,知道哈爾濱是中國黑龍江省的省會,哈爾濱是冬季結(jié)冰和積雪的城市,那么與BERT這樣的模型相比,它可以更好地執(zhí)行許多NLP任務(wù)它對世界的了解以及正在接受培訓(xùn)的文本。盡管ERNIE方法的某些驅(qū)動程序旨在應(yīng)對使用中文的獨特挑戰(zhàn),但在許多中英文雙語的NLP關(guān)鍵任務(wù)中,ERNIE 2的性能均優(yōu)于BERT和XLNet。

自然語言處理的蓬勃發(fā)展及其未來

下一步是什么?

NLP領(lǐng)域正處于快速變化的時期,但是在不到18個月的時間里,預(yù)訓(xùn)練的深度學(xué)習(xí)解決方案至少有四項重大突破,并且沒有理由相信不會有更多的突破。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    欧美人与动牲交a精品| 亚洲高清欧美中文字幕| 午夜精品成年人免费视频| 91亚洲精品亚洲国产| 91免费一区二区三区| 丝袜视频日本成人午夜视频| 欧美日韩久久精品一区二区| 东京热加勒比一区二区| 又大又长又粗又猛国产精品| av免费视屏在线观看| 又黄又色又爽又免费的视频| 亚洲精品国产精品日韩| 日韩欧美第一页在线观看| 国产高清在线不卡一区| 国产亚洲精品岁国产微拍精品| 麻豆看片麻豆免费视频| 国产女优视频一区二区| 国产精品欧美一区二区三区| 五月激情五月天综合网| 日本深夜福利在线播放| 精品欧美在线观看国产| 99久久精品午夜一区| 国产av一区二区三区麻豆| 久久综合日韩精品免费观看| 欧洲一级片一区二区三区| 欧美激情床戏一区二区三| 欧美视频在线观看一区| 日本在线视频播放91| 欧美一区日韩二区亚洲三区| 午夜精品一区二区三区国产| 亚洲最新中文字幕一区| 中文字幕佐山爱一区二区免费| 国产亚洲精品久久久优势| 黄片在线观看一区二区三区| 中日韩美一级特黄大片| 高清不卡一卡二卡区在线| 91人人妻人人爽人人狠狠| 国产精品熟女在线视频| 免费在线观看欧美喷水黄片| 久久99青青精品免费| 狠色婷婷久久一区二区三区|