壞消息是,我們?nèi)匀恍枰斫獯罅扛拍顏碚{(diào)整結(jié)果;好消息是,即使使用適度大小的數(shù)據(jù)集和計算預(yù)算,使用BERT和ERNIE之類的工具,也比以往任何時候都更容易獲得從自然語言處理(NLP)獲得好的結(jié)果! NLP的簡要歷史讓我們從簡要回顧該學(xué)科的歷史開始??梢詫LP系統(tǒng)的開發(fā)分為三個主要階段:
在過去十年中,深度學(xué)習(xí)已改變了NLP的實踐。無論您是嘗試實現(xiàn)機(jī)器翻譯、問題回答、簡短文本分類還是情感分析,都有深度學(xué)習(xí)工具可用來幫助解決這些問題。但是,從歷史上看,創(chuàng)建正確的網(wǎng)絡(luò)然后對其進(jìn)行訓(xùn)練的過程需要大量時間,專業(yè)知識,龐大的數(shù)據(jù)集和大量的計算能力。 ELMONLP 的整個革命源于2018年初的論文?ELMo(Embeddings from Language Models)。ELMo是一種使用深度雙向語言模型的,該模型在大型文本語料庫上進(jìn)行了預(yù)訓(xùn)練,以提高一系列NLP任務(wù)的性能。 這意味著什么?讓我們分解一下。'深度'指的是它正在使用多層神經(jīng)網(wǎng)絡(luò)(例如在'深度學(xué)習(xí)'中)。雙向的?嗯,歷史上大多數(shù)語言模型都是單向的,因此對于英語,他們會從左到右讀取單詞。在雙向模型中,所有單詞都被同時攝取。如果進(jìn)行了足夠的訓(xùn)練,可以更準(zhǔn)確地推斷出上下文。預(yù)訓(xùn)練意味著已經(jīng)在非常大的通用語言數(shù)據(jù)集上訓(xùn)練了模型。在圖像識別和NLP中都顯示了預(yù)訓(xùn)練,可以大大提高準(zhǔn)確性和/或減少模型最終訓(xùn)練所需的時間和成本。 谷歌的BERT在2018年11月,Google提出BERT,Bidirectional Encoder Representations from Transformers。這是用于上下文預(yù)訓(xùn)練的新技術(shù)。上下文意味著它考慮了給定單詞周圍的單詞,因此與上下文無關(guān)模型不同,銀行在'銀行帳戶'和'河岸'中的概念并不相同。
除了打破許多處理基于語言的任務(wù)的記錄外,BERT還大大降低了訓(xùn)練語言模型的成本和復(fù)雜性。正如他們在陳述,'在這個版本中,世界上任何人可以訓(xùn)練自己的國家的最先進(jìn)的問答系統(tǒng),在約30分鐘的單云TPU,或只需幾個小時即可使用一個GPU。 要實現(xiàn)諸如情感分析之類的分類任務(wù),只需要在Transformer輸出的頂部添加一個分類層即可。
對于命名實體識別(NER-識別特定實體,例如人,公司或產(chǎn)品),可以通過將每個令牌的輸出向量輸入到預(yù)測NER標(biāo)簽的分類層中來訓(xùn)練模型,因此它只是另一個分類器。最重要的是,即使數(shù)據(jù)集少,經(jīng)驗有限,使用BERT也可以在非常短的時間內(nèi)創(chuàng)建最新的NLP模型。 XLNetBERT的操作方式存在兩個弱點。通過將其掩蓋的單詞視為獨立詞,它不會從訓(xùn)練數(shù)據(jù)中學(xué)到很多東西,并且由于未將掩碼令牌傳遞到輸出,因此降低了微調(diào)結(jié)果的有效性。 在2019年6月,Google Brain團(tuán)隊的成員發(fā)表了XLNet,通過使用一種稱為'置換語言建模'的技術(shù)避免了BERT遭受的問題。在置換語言建模中,像傳統(tǒng)語言模型一樣,模型被訓(xùn)練為在給定上下文的情況下預(yù)測一個令牌,但不是順序地預(yù)測令牌,而是以隨機(jī)順序預(yù)測它們。最重要的是,XLNet在許多關(guān)鍵的NLP任務(wù)上均勝過BERT,并提高了技術(shù)水平。 ERNIE在計算效率,百度研究團(tuán)隊不甘示弱,于2019年推出ERNIE,隨后于2019年7月推出ERNIE 2.0。ERNIE代表通過kNowledge IntEgration實現(xiàn)卷積增強(qiáng)表示,把BERT許多概念統(tǒng)在一起,但也匹配來自其他資源(如百科全書,新聞媒體和在線論壇)的語義元素信息。例如,知道哈爾濱是中國黑龍江省的省會,哈爾濱是冬季結(jié)冰和積雪的城市,那么與BERT這樣的模型相比,它可以更好地執(zhí)行許多NLP任務(wù)它對世界的了解以及正在接受培訓(xùn)的文本。盡管ERNIE方法的某些驅(qū)動程序旨在應(yīng)對使用中文的獨特挑戰(zhàn),但在許多中英文雙語的NLP關(guān)鍵任務(wù)中,ERNIE 2的性能均優(yōu)于BERT和XLNet。 下一步是什么?NLP領(lǐng)域正處于快速變化的時期,但是在不到18個月的時間里,預(yù)訓(xùn)練的深度學(xué)習(xí)解決方案至少有四項重大突破,并且沒有理由相信不會有更多的突破。 |
|