一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

自動(dòng)文摘(五) | RSarXiv

 openlog 2016-04-26

讀萬(wàn)卷書 行萬(wàn)里路

最近讀了幾篇關(guān)于deep learning在summarization領(lǐng)域應(yīng)用的paper,主要的方法是借鑒機(jī)器翻譯中seq2seq的技術(shù),然后加上attention model提升效果。今天來分享其中一篇paper,Generating News Headlines with Recurrent Neural Networks

Abstract

本文的思路是用LSTM RNN作為encoder-decoder框架的模型,并且使用了attention模型來生成新聞文章的標(biāo)題,效果很好。并且提出了一種簡(jiǎn)化版的attention mechanism,相比于復(fù)雜版的注意力機(jī)制在解決headline generation問題上有更好的效果。

本文定義的文本摘要問題是給新聞文章命題,為了套用seq2seq技術(shù),一般都會(huì)將source定義為新聞的第一句話,target定義為標(biāo)題。本文的亮點(diǎn)在于提出了一種簡(jiǎn)化版的注意力機(jī)制,并且得到了不錯(cuò)的結(jié)果。

Model

Overview

encoder使用文章內(nèi)容作為輸入,一個(gè)時(shí)間點(diǎn)表示一個(gè)單詞,每個(gè)單詞先通過embedding層將詞轉(zhuǎn)換為一個(gè)分布式向量(word embedding)。每個(gè)詞向量都由前一個(gè)詞向量生成,第一個(gè)詞定義為0向量。

decoder將encoder中最后一個(gè)詞向量作為輸入,decoder本質(zhì)是一個(gè)rnnlm,使用softmax和attention mechanism來生成每個(gè)詞。

損失函數(shù):

這里y是輸出的詞,x是輸入的詞。

本文采用了4層LSTM,每層有600個(gè)單元,使用Dropout控制過擬合,所有參數(shù)的初始值都服從-0.1到0.1的平均分布,訓(xùn)練方法是RMSProp,學(xué)習(xí)速率0.01,動(dòng)量項(xiàng)0.9,衰減項(xiàng)0.9,訓(xùn)練9個(gè)回合,在第5個(gè)回合之后,每個(gè)回合都將訓(xùn)練速率減半。batch訓(xùn)練,384組訓(xùn)練數(shù)據(jù)為一個(gè)batch。

模型的定義和訓(xùn)練方法都是借鑒于其他文章,模型參數(shù)的不同并不是什么創(chuàng)新,別人用gru或者birnn,你用lstm,或者別人用2層,你用3層、4層更多層,不同的模型參數(shù)可能會(huì)有不同的state-of-the-art結(jié)果,但并不會(huì)對(duì)大家認(rèn)識(shí)abstractive summarization問題有什么實(shí)質(zhì)性的幫助,也不會(huì)促進(jìn)這個(gè)領(lǐng)域的發(fā)展,只是用著現(xiàn)有的方法在這個(gè)領(lǐng)域刷了一篇paper罷了。

Attention

注意力機(jī)制可以用來幫助神經(jīng)網(wǎng)絡(luò)更好地理解輸入數(shù)據(jù),尤其是一些專有名詞和數(shù)字。attention在decoder階段起作用,通過將輸出與所有輸入的詞建立一個(gè)權(quán)重關(guān)系來讓decoder決定當(dāng)前輸出的詞與哪個(gè)輸入詞的關(guān)系更大(即應(yīng)該將注意力放到哪個(gè)詞上)。

本文采用兩種不同的注意力機(jī)制,第一種稱作復(fù)雜注意力模型(complex attention),與Minh-Thang采用的點(diǎn)乘機(jī)制(dot mechanism)一樣,看下圖:

第二種稱作簡(jiǎn)單注意力模型(simple attention),是第一種模型的變種,該種模型使得分析神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)注意力權(quán)重更加容易。看下圖:

對(duì)比兩幅圖可以看出區(qū)別在于隱藏層的最后一層的表示上,簡(jiǎn)單模型將encoder部分在該層的表示分為兩塊,一小塊用來計(jì)算注意力權(quán)重(attention weight),另一大塊用來作為上下文(context vector);decoder部分在該層的表示也分為兩塊,一小塊用來計(jì)算注意力權(quán)重,另一大塊用來導(dǎo)入softmax,進(jìn)行輸出預(yù)測(cè)。

simple attention mechanism的提出可以算作本文的主要貢獻(xiàn),但是感覺貢獻(xiàn)量并不大。修改所謂的理論模型,而不僅僅是對(duì)模型參數(shù)進(jìn)行修改,本質(zhì)上是對(duì)encoder的context vector進(jìn)行了更換,用了一些技巧,比如文中的方法,將隱藏層最后一層的表示分為兩部分,一部分用來表示context,一部分用來表示attention weight,就有了新的模型。

Dataset

Overview

本文用English Gigaword數(shù)據(jù)集,該數(shù)據(jù)集包括了六大主流媒體機(jī)構(gòu)的新聞文章,包括紐約時(shí)報(bào)和美聯(lián)社,每篇文章都有清晰的內(nèi)容和標(biāo)題,并且內(nèi)容被劃分為段落。經(jīng)過一些預(yù)處理之后,訓(xùn)練集包括5.5M篇新聞和236M單詞。

Preprocessing

headlines作為target,news text的第一段內(nèi)容作為source,預(yù)處理包括:小寫化,分詞,從詞中提取標(biāo)點(diǎn)符號(hào),標(biāo)題結(jié)尾和文本結(jié)尾都會(huì)加上一個(gè)自定義的結(jié)束標(biāo)記<eos>,那些沒有標(biāo)題或者沒有內(nèi)容或者標(biāo)題內(nèi)容超過25個(gè)tokens或者文本內(nèi)容超過50個(gè)tokens都會(huì)被過濾掉,按照token出現(xiàn)頻率排序,取top 40000個(gè)tokens作為詞典,低頻詞用符號(hào)<unk>進(jìn)行替換。

數(shù)據(jù)集被劃分為訓(xùn)練集和保留集,訓(xùn)練集將會(huì)被隨機(jī)打亂。

數(shù)據(jù)的預(yù)處理是一件重要的事情,處理的好壞直接影響結(jié)果的好壞。本文的每一個(gè)處理細(xì)節(jié)都交代的很清楚,有希望做相同實(shí)驗(yàn)的童鞋可以借鑒他的處理方法

Dataset Issues

訓(xùn)練集中會(huì)出現(xiàn)標(biāo)題與所輸入文本關(guān)系不大的情況,比如:標(biāo)題包括以下字樣For use by New York Times service clients,或者包括一些代碼,biz-cover-1等等,本文對(duì)此不作處理,因?yàn)橐粋€(gè)理想的模型可以處理這些問題。‘

數(shù)據(jù)集本身會(huì)有一些錯(cuò)誤,但一個(gè)好的模型是可以處理好這些錯(cuò)誤的數(shù)據(jù),所以本文對(duì)此種數(shù)據(jù)并不做處理。

Evaluation

模型的優(yōu)劣用兩種方法進(jìn)行評(píng)價(jià)。第一種,將訓(xùn)練集和保留集損失值作為評(píng)價(jià)指標(biāo);第二種,將BLEU作為評(píng)價(jià)指標(biāo),為了保證效率,保留集僅僅用了384個(gè)樣本進(jìn)行計(jì)算。

評(píng)價(jià)指標(biāo)也是常規(guī)的兩種,兩種數(shù)據(jù)集上的loss值直觀地反應(yīng)了訓(xùn)練和測(cè)試效果,BLEU是機(jī)器翻譯領(lǐng)域中常用的評(píng)價(jià)標(biāo)準(zhǔn)。

Analysis

計(jì)算硬件是GTX 980 Ti GPU,每種模型的計(jì)算都會(huì)花費(fèi)4.5天時(shí)間。效果直接看下圖:

在應(yīng)用模型結(jié)果做保留集的預(yù)測(cè)時(shí),不同新聞來源的文章預(yù)測(cè)效果不一樣。比如:在BBC、華爾街日?qǐng)?bào)、衛(wèi)報(bào)的效果就非常好,但是在赫芬頓郵報(bào)和福布斯的效果就很差。

結(jié)果看上圖也是一目了然,本文的simple attention mechanism更勝一籌。

Understanding information stored in last layer of the neural network

存在有許多思路來理解注意力機(jī)制函數(shù),考慮下面的公式,從輸入計(jì)算到softmax輸出:

第一個(gè)部分表示attention context vector對(duì)decoder輸出的影響,由于context是從input計(jì)算得來的,可以理解為encoder的每個(gè)輸入對(duì)decoder輸出的影響;第二個(gè)部分表示decoder當(dāng)前隱藏層最后一層對(duì)輸出的影響;第三個(gè)部分表示偏置項(xiàng)。

Understanding how the attention weight vector is computed

注意到這一點(diǎn)很重要,encoder部分的神經(jīng)元對(duì)docoder部分的神經(jīng)元起作用,也就是attention weight的本質(zhì)。

Errors

本文的模型中存在幾種類型的錯(cuò)誤,包括:

1、神經(jīng)網(wǎng)絡(luò)機(jī)制在填充細(xì)節(jié)時(shí)細(xì)節(jié)發(fā)生丟失。比如:target是 72 people died when a truck plunged into a gorge on Friday,而模型的預(yù)測(cè)是 72 killed in truck accident in Russia。這種錯(cuò)誤經(jīng)常出現(xiàn)在decoder beam很小的情況下。

2、生成的headline與輸入的文本沒有太大的關(guān)系,這些headline在訓(xùn)練集中出現(xiàn)太多次。這種錯(cuò)誤常出現(xiàn)在decoder beam很大的情況下。

上述兩種錯(cuò)誤反映了本文的模型對(duì)decoder beam非常敏感。

個(gè)人感覺本文的重點(diǎn)在于動(dòng)手實(shí)踐seq2seq+attention在自動(dòng)文摘中的應(yīng)用,對(duì)很多模型層面上的研究很少,對(duì)效果分析上的研究也很淺。

Future Work

使用BiRNN來代替RNN配合attention model效果可能會(huì)更好一些。

將模型更換為Bi-RNN會(huì)得到一個(gè)新的結(jié)果,不知道會(huì)不會(huì)有人拿這個(gè)來刷paper,個(gè)人覺得好無趣。

Conclusions

本文提出的simple attention mechanism效果很不錯(cuò)。

Review

本篇文章是近期所讀文章中最簡(jiǎn)單的一篇,沒有太精彩的理論和創(chuàng)新,是一個(gè)工程性很強(qiáng)的paper,將實(shí)現(xiàn)過程中的思路和一些參數(shù)交代的很清楚,對(duì)于復(fù)現(xiàn)此paper提供了很大的幫助。

深度學(xué)習(xí)是一門研究表示學(xué)習(xí)的技術(shù),用一張巨大的網(wǎng)來表征給入的數(shù)據(jù),使得模型不依賴于領(lǐng)域的特征,是一種full data driven的模型,聽起來像是一種銀彈,尤其是近幾年的在各大領(lǐng)域的都收獲了state-of-the-art的結(jié)果,但模型的參數(shù)調(diào)優(yōu)不沒有太多的理論依據(jù),之前的神經(jīng)網(wǎng)絡(luò)規(guī)模小調(diào)參數(shù)時(shí)間代價(jià)會(huì)小一些,但deep learning動(dòng)不動(dòng)就需要幾天甚至幾周的訓(xùn)練時(shí)間,調(diào)參數(shù)代價(jià)太大;中間層的表示如何解釋,也是一個(gè)十分頭疼的事情,對(duì)于cv領(lǐng)域來說還好,總可以將matrix顯示成一幅圖片來看效果,比較直觀,但對(duì)于nlp領(lǐng)域,hidden state到底是什么,表示哪個(gè)詞?表示哪種關(guān)系?詞向量的每一個(gè)維度代表什么?具體真說不清楚,只有在輸出的那一層才能看到真正的意義。

一個(gè)領(lǐng)域的發(fā)展需要很多種不同思路的試錯(cuò),應(yīng)該是一種百家爭(zhēng)鳴的態(tài)勢(shì),而不是大家一股腦地都用一種技術(shù),一種思路來解決問題,理論模型都趨于大同,這樣對(duì)這個(gè)領(lǐng)域的發(fā)展不會(huì)有太積極的意義。

machine translation是最活躍的一個(gè)研究領(lǐng)域,seq2seq框架就是從該領(lǐng)域中提煉出來的,attention model也是借鑒于soft alignment,對(duì)于文本摘要這個(gè)問題來說,套用seq2seq只能解決headlines generation的問題,面對(duì)傳統(tǒng)的single document summarization和multi document summarization任務(wù)便束手無策了,因?yàn)檩斎氩糠值囊?guī)模遠(yuǎn)大于輸出部分的話,seq2seq的效果不會(huì)很好,因此說abstractive summarization的研究還長(zhǎng)路漫漫。不過這里可以將extractive和abstractive結(jié)合在一起來做,用extractive將一篇文檔中最重要的一句話提取出來作為輸入,套用seq2seq來做abstractive,本質(zhì)上是一個(gè)paraphrase的任務(wù),在工程中可以試一下這種思路。在后續(xù)的研究中也可以嘗試將extractive和abstractive的思路結(jié)合在一起做文本摘要。

Link

[1] Generating News Headlines with Recurrent Neural Networks

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    五月婷婷亚洲综合一区| 国产丝袜美女诱惑一区二区| 国产精品午夜福利在线观看| 国产色一区二区三区精品视频| 亚洲国产成人久久一区二区三区| 久久综合九色综合欧美| 久久精视频免费视频观看| 国产精品午夜视频免费观看| 亚洲国产av一二三区| 欧美丝袜诱惑一区二区| 九九热精品视频免费观看| 91久久国产福利自产拍| 日本高清二区视频久二区| av一区二区三区天堂| 欧美91精品国产自产| 国产二级一级内射视频播放| 国产欧美亚洲精品自拍| 老熟妇乱视频一区二区| 欧美中文字幕日韩精品| 精品国产品国语在线不卡| 欧洲一级片一区二区三区| 中文字幕区自拍偷拍区| 亚洲婷婷开心色四房播播| 成人午夜免费观看视频| 亚洲欧美日本国产有色| 黄片在线免费看日韩欧美| 国产传媒中文字幕东京热| 国产乱久久亚洲国产精品| 一区二区在线激情视频| 国产不卡最新在线视频| 精品精品国产欧美在线| 欧美日韩综合在线第一页| 精品欧美日韩一区二区三区| 99久久成人精品国产免费| 日本欧美一区二区三区就| 亚洲视频一区自拍偷拍另类| 亚洲一区二区欧美激情| 老司机精品一区二区三区| 日本妇女高清一区二区三区| 中文字幕亚洲人妻在线视频| 在线免费看国产精品黄片|