一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

一舉奪魁!訊飛聯(lián)合團隊榮登國際文本摘要國際比賽榜首

 細雨青衫 2022-11-25 發(fā)布于重慶

速報!前方有好消息傳來!圖片

訊飛聯(lián)合團隊奪得生成式文本摘要國際比賽GENIE - Summarization XSUM冠軍,以人工總體評測指標53.45%的優(yōu)異成績刷新榜單,在人工評測指標和機器評測指標上均大幅超過谷歌、微軟、帝國理工等知名高校與研究機構(gòu)。

圖片

GENIE - Summarization XSUM挑戰(zhàn)賽最新榜單

圖片

GENIE - Summarization XSUM比賽是什么?

GENIE - Summarization XSUM比賽由艾倫人工智能研究所(AI2)在數(shù)據(jù)集XSUM上發(fā)起,比賽從專家人工評測指標(流暢性、簡潔性、信息量等)和機器評測指標(ROUGE、METEOR、BERTScore、SacreBLEU等)多方面入手,旨在為文本摘要任務提供更準確、更全面的評估,進而推動自動文本摘要生成技術(shù)的進展。

XSUM數(shù)據(jù)集是大型英文生成式摘要數(shù)據(jù)集,涵蓋了BBC近10年來多個領域的20多萬篇文章。任務要求機器基于給定的文章,生成符合甚至超過人類領域?qū)<业恼?。該任務的難點在于XSUM訓練集中給定文章的長度相對其他數(shù)據(jù)集較短,且對應的摘要都是專業(yè)的編輯所撰寫,因此摘要的歸納總結(jié)程度非常高,機器需要從有限的正文信息和高度歸納總結(jié)的摘要中學習到文本信息提煉知識用于生成,這對AI系統(tǒng)的理解歸納與生成能力提出了極大的挑戰(zhàn)。此外,該任務的評價指標涵蓋非常,不僅包含常規(guī)的機器評測指標,而且包含多種人類領域?qū)<业娜斯ぴu測指標,這就要求AI系統(tǒng)有非常全面的生成能力。

圖片

奪冠系統(tǒng)有什么過人之處?

面對GENIE - Summarization XSUM比賽提出的挑戰(zhàn),訊飛聯(lián)合團隊提出的KMDR系統(tǒng)從三個方面全面提升機器在生成式文本摘要任務上的能力。

圖片

KMDR系統(tǒng)框架

(1)數(shù)據(jù)內(nèi)知識檢索

XSUM數(shù)據(jù)集具有高的抽象性,文章相對其他數(shù)據(jù)集更短,這可能會給模型學習和推理帶來一定的困難。因此本系統(tǒng)采用了一種數(shù)據(jù)內(nèi)知識檢索的策略,對于XSUM中的每篇文章,使用多種檢索算法從訓練數(shù)據(jù)集合中檢索最相似的文章,然后將它們對應的摘要添加到文章中。通過這種數(shù)據(jù)內(nèi)知識檢索的方式,極大地提高了對抽象數(shù)據(jù)的利用率。

(2)面向抽象摘要的預訓練模型

現(xiàn)有的生成式預訓練模型可能并不適配具有高抽象性的XSUM任務。為此,我們使用了大量新聞數(shù)據(jù),基于PEGASUS模型進行了二次預訓練,旨在不丟失大規(guī)模通用數(shù)據(jù)上學到的語義信息的前提下,使模型更容易學習到抽象的摘要。首先將文章按如圖3所示的方式輸入到訓練好的關(guān)鍵句打分器中,得到打分最高的關(guān)鍵句將被視為摘要,同其他句子作為二次預訓練的數(shù)據(jù)。然后在經(jīng)過二次預訓練的PEGASUS模型基礎上,使用數(shù)據(jù)內(nèi)知識檢索后的XSUM訓練數(shù)據(jù)進行精調(diào),這樣就得到了與任務適配較好的生成模型。

圖片

二次預訓練PEGASUS模型

(3)動態(tài)重排序方法

盡管經(jīng)過上述步驟的模型已經(jīng)與任務適配,能夠生成較好的候選摘要,但生成概率高的結(jié)果并不一定完全符合人類認知,可能會導致比較低的人工評測結(jié)果。為此本系統(tǒng)分別提出了基于PEGASUS 對比學習一體式動態(tài)重排序方法和基于PEGASUS DeBERTa兩段式重排序方法。通過結(jié)合這兩種方法,模型能夠基于多個候選得到更加簡潔流暢、更加符合人類認知水平的摘要。

通過以上創(chuàng)新點的結(jié)合,KMDR系統(tǒng)在GENIE - Summarization XSUM比賽上奪得了冠軍,在人工綜合指標上相對之前榜單最好的結(jié)果進一步提高了1.4%,在機器指標上的結(jié)果也超越了之前榜單的最好結(jié)果。

借助自動文摘技術(shù),機器能夠生成具備更強的總結(jié)歸納能力、更符合人類認知的文本摘要。該項技術(shù)有效助力了“訊飛超腦2030計劃”,進一步推動了機器“能理解會思考”的認知智能技術(shù)發(fā)展,并在文檔關(guān)鍵信息獲取、會議紀要自動生成、商品評論摘要、新聞標題生成等場景上具有廣泛的應用前景。

隨著技術(shù)的不斷精進,“自動文摘”將逐步在訊飛聽見、訊飛智能錄音筆等產(chǎn)品中落地應用,為職場、媒體、講師等泛辦公人群帶來全新的使用體驗。未來,科大訊飛將持續(xù)堅持源頭核心技術(shù)創(chuàng)新,從感知智能深入到認知智能,致力于讓機器“能聽會說能理解會思考”,創(chuàng)造出更大的價值。


    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    中文字幕91在线观看| 玩弄人妻少妇一区二区桃花| 最新午夜福利视频偷拍| av中文字幕一区二区三区在线| 人体偷拍一区二区三区| 人妻亚洲一区二区三区| 亚洲精品日韩欧美精品| 亚洲综合香蕉在线视频| 国产女优视频一区二区| 草草草草在线观看视频| 激情少妇一区二区三区| 国产一级性生活录像片| 自拍偷拍福利视频在线观看| 亚洲av专区在线观看| 精品亚洲一区二区三区w竹菊| 久热在线视频这里只有精品| 国产日韩欧美综合视频| 大尺度激情福利视频在线观看| 国产精品国产亚洲区久久| 精品al亚洲麻豆一区| 午夜视频免费观看成人| 俄罗斯胖女人性生活视频| 人妻久久一区二区三区精品99| 情一色一区二区三区四| 亚洲熟女诱惑一区二区| 欧美精品日韩精品一区| 色好吊视频这里只有精| 丰满少妇被粗大猛烈进出视频| 国产精品免费自拍视频| 欧洲偷拍视频中文字幕| 国产一级二级三级观看| 日本高清视频在线观看不卡| 69老司机精品视频在线观看| 国产精品白丝一区二区| 国产内射一级一片内射高清| 日本少妇中文字幕不卡视频| 欧美二区视频在线观看| 丰满的人妻一区二区三区| 久久热九九这里只有精品| 中文字幕亚洲精品乱码加勒比| 国产精品一区二区香蕉视频 |