一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

專題 | 自然語言處理學(xué)習(xí)筆記(二):encoder

 shawnsun007 2016-05-24

投稿

作者: 阿儁是個nerd

雖然有很多SaaS提供Summarization的服務(wù),雖然有很多App尤其是新聞類App標(biāo)榜自己擁有多么牛的技術(shù)做Summarization,我們還是不得不承認(rèn)自動文摘的技術(shù)離一個高水平的AI還有一段距離,很長的一段距離。都說自動文摘很難,到底難在哪里?

Abstractive

上一篇博客分享了Extraction方法的一些思路,本篇簡單聊一點(diǎn) Abstractive 的想法。

Abstractive是一個True AI的方法,要求系統(tǒng)理解文檔所表達(dá)的意思,然后用可讀性強(qiáng)的人類語言將其簡練地總結(jié)出來。這里包含這么幾個難點(diǎn):

1、理解文檔。所謂理解,和人類閱讀一篇文章一樣,可以說明白文檔的中心思想,涉及到的話題等等。

2、可讀性強(qiáng)。可讀性是指生成的摘要要能夠連貫(Coherence)與銜接(Cohesion),通俗地講就是人類讀起來幾乎感覺不出來是AI生成的(通過圖靈測試)。

3、簡練總結(jié)。在理解了文檔意思的基礎(chǔ)上,提煉出最核心的部分,用最短的話講明白全文的意思。

上述三個難點(diǎn)對于人類來說都不是一件容易的事情,何況是發(fā)展沒太多年的自然語言處理技術(shù)。人工智能領(lǐng)域中AI能夠領(lǐng)先人類的例子很多,包括前不久很火的Alpha狗,圖片識別,主要是利用計算機(jī)遠(yuǎn)強(qiáng)于人類的計算能力,但也有很多的領(lǐng)域,AI離人類的水平還有很遠(yuǎn),比如paper的survey,summarization,機(jī)器翻譯等等。

近幾年隨著Deep Learning的火爆,研究者們利用一些最新的研究成果來做summarization,比如attention model,比如rnn encoder-decoder框架,在一定程度上實現(xiàn)了abstractive,但還是處于研究初期,效果還不算很好。

Evaluation

自動文摘最大的一個難點(diǎn)是評價問題,如何有效地、合理地評價一篇文摘的效果是一個很難的問題。

人工評價

一千個讀者,有一千個哈姆雷特。

不同的人理解一篇文檔會有很大的不同,基于人工評價的方法有類似于評價開放的文科辨析題目答案一樣,需要從答案中尋找一些所謂的要點(diǎn),計算要點(diǎn)覆蓋率,打分。人工評價結(jié)果在很大程度上都是可信的,因為人可以推理、復(fù)述并使用世界知識將具有類似意思但形式不同的文本單元關(guān)聯(lián)起來,更加靈活一些,但時間成本太高,效率太低。

自動評價

計算機(jī)評價效果,需要給定參考摘要作為標(biāo)準(zhǔn)答案,通過制定一些規(guī)則來給生成的摘要打分。目前,使用最廣泛的是ROUGH系統(tǒng)(Recall-Oriented Understudy for Gisting Evaluation),基本思想是將待審摘要和參考摘要的n元組共現(xiàn)統(tǒng)計量作為評價依據(jù),然后通過一系列標(biāo)準(zhǔn)進(jìn)行打分。包括:ROUGH-N、ROUGH-L、ROUGH-W、ROUGH-S和ROUGH-SU幾個類型。通俗地將就是通過一些定量化的指標(biāo)來描述待審摘要和參考文摘之間的相似性,維度考慮比較多,在一定程度上可以很好地評價Extracive產(chǎn)生的摘要。

這里涉及到一個重要的問題,就是標(biāo)注語料問題。自動評價需要給定一系列文檔已經(jīng)他們的參考文摘,用來測試不同的算法效果。TAC(Text Analysis Conference)和TREC(Text REtrieval Conference)兩個會議提供了相關(guān)的評測數(shù)據(jù)集,自動文摘領(lǐng)域的paper都是以這些數(shù)據(jù)集為baseline,與其他paper的算法進(jìn)行對比。會議的數(shù)據(jù)集畢竟有限,新的領(lǐng)域中做自動文摘需要建立自己的數(shù)據(jù)集作為標(biāo)準(zhǔn)。

現(xiàn)有的評價標(biāo)準(zhǔn)存在的一個重要問題在于沒有考慮語義層面上的相似,評價extractive還好,但評價abstractive就會效果不好了。Deep Learning其實就是一個representation learning,將世界萬物表示成數(shù)字,然后作分析。在詞、句子甚至段落這個層面上的表示學(xué)習(xí)研究的非常多,也有很多的state-of-the-art的結(jié)果,所以做語義層面上的評價并不難。

重要性

評價對于一個研究領(lǐng)域非常重要,是牽引這個領(lǐng)域前進(jìn)的首要因素,評價需要制定標(biāo)準(zhǔn),標(biāo)準(zhǔn)的好壞關(guān)系到這個領(lǐng)域的研究質(zhì)量,尤其是研究者們的paper質(zhì)量,因為大家相互比較算法的優(yōu)劣就十分依賴這樣的標(biāo)準(zhǔn)。標(biāo)準(zhǔn)數(shù)據(jù)集的建立以及baseline的提出,是最首要的任務(wù)。

接下來,重點(diǎn)介紹近期abstractive summarization的一些研究情況。abstractive是學(xué)術(shù)界研究的熱點(diǎn),尤其是Machine Translation中的encoder-decoder框架和attention mechanism十分火熱,大家都試著將abstractive問題轉(zhuǎn)換為sequence-2-sequence問題,套用上面兩種技術(shù),得到state-of-the-art結(jié)果,2015年來已經(jīng)有許多篇paper都是這種套路

Encoder-Decoder

Encoder-Decoder不是一種模型,而是一種框架,一種處理問題的思路,最早應(yīng)用于機(jī)器翻譯領(lǐng)域,輸入一個序列,輸出另外一個序列。機(jī)器翻譯問題就是將一種語言序列轉(zhuǎn)換成另外一種語言序列,將該技術(shù)擴(kuò)展到其他領(lǐng)域,比如輸入序列可以是文字,語音,圖像,視頻,輸出序列可以是文字,圖像,可以解決很多別的類型的問題。這一大類問題就是上圖中的sequence-to-sequence問題。這里以輸入為文本,輸出也為文本作為例子進(jìn)行介紹:

專題 | 自然語言處理學(xué)習(xí)筆記(二):encoder-decoder框架和attention mechanism兩種研究

encoder部分是將輸入序列表示成一個帶有語義的向量,使用最廣泛的表示技術(shù)是Recurrent Neural Network,RNN是一個基本模型,在訓(xùn)練的時候會遇到gradient explode或者gradient vanishing的問題,導(dǎo)致無法訓(xùn)練,所以在實際中經(jīng)常使用的是經(jīng)過改良的LSTM RNN或者GRU RNN對輸入序列進(jìn)行表示,更加復(fù)雜一點(diǎn)可以用BiRNN、BiRNN with LSTM、BiRNN with GRU、多層RNN等模型來表示,輸入序列最終表示為最后一個word的hidden state vector。

decoder部分是以encoder生成的hidden state vector作為輸入“解碼”出目標(biāo)文本序列,本質(zhì)上是一個語言模型,最常見的是用Recurrent Neural Network Language Model(RNNLM),只要涉及到RNN就會有訓(xùn)練的問題,也就需要用LSTM、GRU和一些高級的model來代替。目標(biāo)序列的生成和LM做句子生成的過程類似,只是說計算條件概率時需要考慮encoder向量。

這里,每一種模型幾乎都可以出一篇paper,尤其是在這個技術(shù)剛剛開始應(yīng)用在各個領(lǐng)域中的時候,大家通過嘗試不同的模型組合,得到state-of-the-art結(jié)果。

該框架最早被應(yīng)用在Google Translation中,paper詳情可以見[1],2014年12月發(fā)在arxiv上。

Attention Mechanism

注意力機(jī)制在NLP中的使用也就是2015年的事情,也是從機(jī)器翻譯領(lǐng)域開始。我們仔細(xì)看decoder中生成目標(biāo)文本序列這部分,第一個word的生成完全依賴于encoder的last hidden state vector,而這個vector更多的是表示輸入序列的最后一個word的意思,也就是說rnn一般來說都是一個有偏的模型。

打個比方,rnn可以理解為一個人看完了一段話,他可能只記得最后幾個詞說明的意思,但是如果你問他前面的信息,他就不能準(zhǔn)確地回答,attention可以理解為,提問的信息只與之前看完的那段話中一部分關(guān)系密切,而其他部分關(guān)系不大,這個人就會將自己的注意力鎖定在這部分信息中。這個就是所謂attention mechanism的原理,每個hidden state vector對于decoder生成每個單詞都有影響,但影響分布并不相同,請看下圖:

專題 | 自然語言處理學(xué)習(xí)筆記(二):encoder-decoder框架和attention mechanism兩種研究

圖中行文本代表輸出,列文本代表輸入,顏色越深表示兩個詞相關(guān)性越強(qiáng),即生成該詞時需要多注意對應(yīng)的輸入詞。不同的paper在使用attention上會有不同的技巧,這里不一一贅述了。

Neural Summarization

使用deep learning技術(shù)來做abstractive summarization的paper屈指可數(shù),大體的思路也類似,大概如下:

0、首先將自動文摘的問題構(gòu)造成一個seq2seq問題,通常的做法是將某段文本的first sentence作為輸入,headlines作為輸出,本質(zhì)上變成了一個headlines generative問題。

1、選擇一個big corpus作為訓(xùn)練、測試集。自動文摘的技術(shù)沒有太成熟的一個重要原因在于沒有一個成熟的大規(guī)模語料。一般來說都選擇Gigawords作為訓(xùn)練、測試集,然后用DUC的數(shù)據(jù)集進(jìn)行驗證和對比。

2、選擇一個合適的encoder,這里可以選simple rnn,lstm rnn,gru rnn,simple birnn,lstm birnn,gru birnn,deep rnn,cnn,以及各種各樣的cnn。不同model之間的組合都是一種創(chuàng)新,只不過創(chuàng)新意義不太大。用encoder將輸入文本表示成一個向量。

3、選擇一個合適的decoder,decoder的作用是一個language model,用來生成summary words。

4、設(shè)計一個合適的attention model。不僅僅基于encoder last hidden state vector和上文來預(yù)測輸出文本序列,更要基于輸入中“注意力”更高的詞來預(yù)測相應(yīng)的詞。

5、設(shè)計一個copy net。只要是語言模型都會存在相同的問題,比如out-of-vocabulary詞的處理,尤其是做新聞類摘要的生成時,很多詞都是人名、機(jī)構(gòu)名等專有名詞,所以這里需要用copy net 將輸入中的詞copy過來生成輸出。在生成中文摘要問題上,將words降維到characters可以避免oov的問題,并且取得不錯的結(jié)果。

接下來想做的事情是將neural summarization相關(guān)的paper精讀之后寫成blog。

作者微博:阿儁是個nerd

微信公眾號:paperweekly,每周會分享 1-2 篇 AI領(lǐng)域 paper 的摘譯和評價。

博客地址,http://rsarxiv./ 。

作者還開發(fā)了一款產(chǎn)品 RSarXiv,一款好用的arxiv cs paper推薦系統(tǒng),在 App Store 搜索 rsarxiv 即可。網(wǎng)站地址:http://ience/web。

------------------------------------------------

加入機(jī)器之心(全職記者/實習(xí)生):hr@almosthuman.cn

投稿或?qū)で髨蟮溃篹ditor@almosthuman.cn

廣告&商務(wù)合作:bd@almosthuman.cn

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    大伊香蕉一区二区三区| 丝袜av一区二区三区四区五区| 粉嫩一区二区三区粉嫩视频| 欧美午夜视频免费观看| 老司机精品线观看86| 免费在线成人午夜视频 | 亚洲国产精品久久网午夜| 亚洲视频一区二区久久久| 久久精品蜜桃一区二区av| 久久精品欧美一区二区三不卡| 91欧美日韩一区人妻少妇| 国产内射一级一片内射高清| 国产精品一区二区视频| 黄片美女在线免费观看| 国产精品日本女优在线观看| 亚洲内射人妻一区二区| 亚洲高清中文字幕一区二区三区 | 国产三级不卡在线观看视频| 人人妻人人澡人人夜夜| 中文字幕免费观看亚洲视频| 亚洲高清中文字幕一区二三区| 日本一级特黄大片国产| 亚洲国产成人精品一区刚刚| 久草视频这里只是精品| 精品亚洲一区二区三区w竹菊| 日韩一区二区三区嘿嘿| 手机在线不卡国产视频| 亚洲深夜精品福利一区| 日本加勒比不卡二三四区| 日本少妇aa特黄大片| 黄色污污在线免费观看| 国产欧美一区二区三区精品视| 国产大屁股喷水在线观看视频| 欧美国产日产综合精品| 乱女午夜精品一区二区三区| 国产大屁股喷水在线观看视频| 正在播放玩弄漂亮少妇高潮| 欧美黄色黑人一区二区| 亚洲中文字幕在线乱码av| 好吊色免费在线观看视频| 国产精品午夜福利在线观看|