一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

百度人工智能技術(shù)委員會主席何中軍:NLP技術(shù)始終走在變革的路上

 生態(tài)文明層 2020-05-06
理解和運(yùn)用自然語言是人工智能需要解決的核心問題之一。隨著深度學(xué)習(xí)技術(shù)的發(fā)展, 語義理解、機(jī)器翻譯等 NLP 任務(wù)都取得了長足的進(jìn)步。百度在 NLP 領(lǐng)域深耕多年,各項(xiàng)技術(shù)也在實(shí)際業(yè)務(wù)中廣泛落地。在 AICon 大會即將召開之際,InfoQ 有幸采訪了百度人工智能技術(shù)委員會主席何中軍,聽他分享百度 NLP 技術(shù)實(shí)踐以及 NLP 技術(shù)未來的發(fā)展方向。
百度 NLP 技術(shù)的落地實(shí)踐

誕生之日起,百度就將自然語言處理技術(shù)廣泛應(yīng)用于其各個(gè)業(yè)務(wù)中,比如百度搜索、query 改寫、分詞、專名識別等。隨著技術(shù)的進(jìn)步,應(yīng)用場景不斷拓展,自然語言處理技術(shù)也發(fā)揮越來越重要的作用。百度很早就做了比較全面的布局,涵蓋語義理解、人機(jī)對話、機(jī)器翻譯、閱讀理解、深度問答、語言生成等重要方向。其中,既有核心技術(shù)、前瞻研究,也有應(yīng)用系統(tǒng)。

語義理解

過去兩年,預(yù)訓(xùn)練技術(shù)在 NLP 領(lǐng)域發(fā)展迅速,刷新了 NLP 各類任務(wù)的最好結(jié)果(SOTA)。百度研發(fā)團(tuán)隊(duì)看到了預(yù)訓(xùn)練技術(shù)帶來的廣闊前景,判斷出這項(xiàng)技術(shù)將會是 NLP 未來發(fā)展的重要方向,也會為公司業(yè)務(wù)線賦能。因此,在語義理解方面,百度 2019 年研發(fā)出了基于知識增強(qiáng)的持續(xù)學(xué)習(xí)語義理解框架 ERNIE。

ERINE 項(xiàng)目地址:

https://github.com/PaddlePaddle/ERNIE

據(jù)何中軍介紹,相對于國際上其他的模型,ERNIE 可以持續(xù)地學(xué)習(xí)海量數(shù)據(jù)中詞匯、結(jié)構(gòu)、語義等知識,使得模型效果不斷提升,而傳統(tǒng)模型主要學(xué)習(xí)語言的共現(xiàn),沒有對海量數(shù)據(jù)中的其他豐富知識進(jìn)行建模。由于對知識的有效利用以及模型的創(chuàng)新,ERNIE 僅用了 1/4 的訓(xùn)練數(shù)據(jù)和 1/16 的 GPU 資源,在 GLUE 評測中首次突破 90 分,超過了國際上許多其他同類模型。

為了使 ERNIE 在業(yè)務(wù)中廣泛落地,百度又提出 ERNIE 輕量化技術(shù),將其響應(yīng)時(shí)間壓縮至千分之一,極大地降低了 ERNIE 性能開銷,使得 ERNIE 在工業(yè)界得到了大規(guī)模應(yīng)用。當(dāng)前 ERNIE 在搜索、信息流、小度音箱、智能客服等數(shù)十個(gè)核心業(yè)務(wù)上落地,提升了產(chǎn)品智能化水平,幫助人們更加方便、快捷、準(zhǔn)確地獲取信息。

隨著 ERNIE 累計(jì)學(xué)習(xí)知識量的積累,機(jī)器資源也面臨著巨大挑戰(zhàn)。據(jù)何中軍稱,“目前,ERNIE 累計(jì)學(xué)習(xí)知識量已經(jīng)超過十億?!?為了解決海量數(shù)據(jù)對機(jī)器資源造成的壓力,百度研發(fā)團(tuán)隊(duì)又基于自研的深度學(xué)習(xí)平臺“飛槳”,研發(fā)出了持續(xù)學(xué)習(xí)的預(yù)訓(xùn)練算法,使得模型的訓(xùn)練不用每次重啟,而是增量的方式進(jìn)行學(xué)習(xí),極大節(jié)省了模型訓(xùn)練成本。同時(shí),基于 ERNIE 研發(fā)了新一代 NLP 開發(fā)平臺,幫助開發(fā)者迅速將最新技術(shù)成果應(yīng)用于自身業(yè)務(wù)。

機(jī)器翻譯

近年來,機(jī)器同傳結(jié)合了語音處理技術(shù)和機(jī)器翻譯技術(shù),無論前瞻研究還是實(shí)際系統(tǒng)應(yīng)用,都取得了較大進(jìn)展。

去年,百度機(jī)器翻譯團(tuán)隊(duì)創(chuàng)新性地提出了語義單元驅(qū)動的機(jī)器同傳模型,并基于此發(fā)布了業(yè)內(nèi)首個(gè)語音到語音的同傳系統(tǒng),提供低時(shí)延、高質(zhì)量的同傳解決方案。

在談到百度機(jī)器同傳在發(fā)展過程中遇到的技術(shù)難點(diǎn)時(shí),何中軍表示:

目前,機(jī)器同傳面臨最大的挑戰(zhàn)是如何在翻譯質(zhì)量和時(shí)間延遲上取得平衡。與文本翻譯不同,同傳系統(tǒng)不能等到一個(gè)句子說完了再開始翻譯,那樣就失去了同傳的意義。而如果不等待較多的信息,翻譯質(zhì)量就會嚴(yán)重下降。因此,百度從人類同傳譯員得到啟發(fā),提出了基于語義信息單元的同傳模型?;镜某霭l(fā)點(diǎn)是將一個(gè)有確定意義的片段作為翻譯的基本單元,使得模型既能夠獲得足夠的上下文信息,又能保證實(shí)時(shí)性。此外,百度還結(jié)合了語音合成技術(shù),研發(fā)了語音到語言的同傳系統(tǒng)。如同身邊一位虛擬同傳譯員,帶上耳機(jī),就可以聽到用自己母語播報(bào)出來的演講內(nèi)容,獲得沉浸式體驗(yàn)。

經(jīng)過持續(xù)技術(shù)創(chuàng)新,如今,百度翻譯在多語言翻譯、同聲傳譯等方向上取得了多項(xiàng)突破,支持全球 200 種語言、近 40000 個(gè)方向的互譯;通過開放平臺,支持了超過 30 萬個(gè)開發(fā)者接入;機(jī)器同傳成功應(yīng)用于幾十場大型國際會議。

NLP 技術(shù)一直在變革

自然語言處理一直是人工智能領(lǐng)域的重要研究方向,由于人類語言的復(fù)雜、靈活、多樣,使得自然語言處理也充滿挑戰(zhàn)。近年來,在人工智能迅速發(fā)展的大背景下,自然語言處理也取得了長足的進(jìn)步。

顯而易見的是,NLP 領(lǐng)域的研究方法和范式發(fā)生了深刻的變革。深度學(xué)習(xí)與自然語言處理具體任務(wù)相結(jié)合,進(jìn)一步挖掘了大數(shù)據(jù)的潛力,系統(tǒng)性能大幅提升。例如,機(jī)器翻譯主流技術(shù)由原來的統(tǒng)計(jì)方法轉(zhuǎn)變?yōu)樯窠?jīng)網(wǎng)絡(luò)的方法,翻譯質(zhì)量的提升超過過去十年的總和;預(yù)訓(xùn)練技術(shù)廣泛應(yīng)用于 NLP 各任務(wù),在國際權(quán)威的基準(zhǔn)測試集 GLUE 上甚至超過了人類平均水平。預(yù)訓(xùn)練(Pre-training)加精細(xì)化調(diào)整(Fine-tuning)幾乎成為 NLP 的標(biāo)配,使得具體領(lǐng)域的小樣本數(shù)據(jù)不再是一個(gè)個(gè)的孤島,而是能站在大數(shù)據(jù)這個(gè)巨人的肩膀上進(jìn)一步發(fā)揮威力。

各領(lǐng)域技術(shù)邊界日趨模糊,互相取長補(bǔ)短,深度融合。例如應(yīng)用于機(jī)器翻譯的序列到序列建模技術(shù),在語音、圖像處理等也都取得了很好的效果,而在圖像處理中廣泛使用的卷積神經(jīng)網(wǎng)絡(luò)也被用來構(gòu)建機(jī)器翻譯模型。如果將圖像作為輸入,文字作為輸出,則可以用序列到序列的技術(shù)進(jìn)行圖文翻譯。語音、語言、視覺等技術(shù)深度融合,促進(jìn)了跨模態(tài)的研究和應(yīng)用。

應(yīng)用場景大幅拓展、不斷深化。自然語言處理技術(shù)使得計(jì)算機(jī)在理解、對話、創(chuàng)作等方面的能力都大大加強(qiáng),在搜索、金融、教育、客服等場景發(fā)揮越來越重要的作用。人們開始習(xí)慣于使用更加自然、口語化的表達(dá)來與計(jì)算機(jī)進(jìn)行交流。由此產(chǎn)生的多樣化、場景化的數(shù)據(jù)又反哺技術(shù),用于訓(xùn)練模型,提升效果。

開源開放的生態(tài)大大降低了 NLP 研發(fā)和應(yīng)用門檻,促進(jìn)了 NLP 的繁榮發(fā)展。比如“飛槳”平臺集成了 NLP 豐富的模型,同時(shí)還提供免費(fèi)的算力,使得開發(fā)者可以很容易的接入,基于業(yè)界領(lǐng)先的技術(shù)和平臺開發(fā)系統(tǒng),而不必從頭做起。再如我們聯(lián)合計(jì)算機(jī)學(xué)會、中文信息學(xué)會舉辦的“語言與智能”技術(shù)競賽,開放大規(guī)模真實(shí)場景數(shù)據(jù),每年都吸引國內(nèi)外數(shù)千支隊(duì)伍報(bào)名參加,共同推進(jìn)技術(shù)發(fā)展與應(yīng)用。

未來的 NLP 技術(shù)何去何從

在談到 NLP 技術(shù)未來的發(fā)展方向時(shí),何中軍表示:

當(dāng)前,NLP 研究和應(yīng)用呈現(xiàn)出百花齊放、百家爭鳴的繁榮發(fā)展態(tài)勢,開源開放的生態(tài)環(huán)境更加促進(jìn)了技術(shù)發(fā)展和產(chǎn)業(yè)應(yīng)用??梢哉f,技術(shù)進(jìn)步與應(yīng)用場景互相作用,共同發(fā)展。技術(shù)進(jìn)步將進(jìn)一步拓寬應(yīng)用場景,而豐富的場景應(yīng)用又驅(qū)動技術(shù)變革。隨著技術(shù)的進(jìn)步,人們將享受到更多便利。

新的學(xué)習(xí)機(jī)制、跨模態(tài)通用表示、更好的學(xué)習(xí)和利用知識等將會是重要的發(fā)展方向。人工神經(jīng)網(wǎng)絡(luò)帶來了學(xué)習(xí)范式的革新,然而人們至今沒有全面清晰地了解人類大腦的工作機(jī)理,腦科學(xué)、認(rèn)知科學(xué)、人工智能等多學(xué)科交叉融合,探索新的學(xué)習(xí)機(jī)制將帶來新的技術(shù)進(jìn)步。結(jié)合語音、視覺等技術(shù)的跨模態(tài)通用表示,將進(jìn)一步增強(qiáng)模型的學(xué)習(xí)和表達(dá)能力,擴(kuò)展 NLP 的研究和應(yīng)用范疇。深入結(jié)合常識、世界知識、文化背景知識等將使得模型從淺層的符號運(yùn)算進(jìn)一步深入認(rèn)知層面。當(dāng)然,NLP 面臨的挑戰(zhàn)遠(yuǎn)不止以上幾點(diǎn),在發(fā)展的道路上也注定不是一帆風(fēng)順,需要我們攜手并肩,共同努力。

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    不卡一区二区高清视频| 欧美日韩国产的另类视频| 日韩日韩日韩日韩在线| 国产免费一区二区三区av大片| 日韩特级黄片免费在线观看| 国产日韩欧美一区二区| 免费亚洲黄色在线观看| 亚洲国产成人av毛片国产| 污污黄黄的成年亚洲毛片 | 一区二区日韩欧美精品| 国产丝袜女优一区二区三区| 大香蕉久久精品一区二区字幕| 初尝人妻少妇中文字幕在线| 夫妻性生活一级黄色录像| 亚洲一区在线观看蜜桃| 不卡视频在线一区二区三区| 国产又爽又猛又粗又色对黄 | 懂色一区二区三区四区| 欧美日韩国产欧美日韩| 欧洲日本亚洲一区二区| 少妇成人精品一区二区| 欧美精品亚洲精品日韩精品| 富婆又大又白又丰满又紧又硬| 亚洲精品蜜桃在线观看| 大香蕉久久精品一区二区字幕 | 亚洲一级在线免费观看| 成人国产激情福利久久| 国产美女精品午夜福利视频 | 久久国产成人精品国产成人亚洲| 国产精品白丝一区二区| 亚洲国产欧美精品久久| 97人妻精品免费一区二区| 无套内射美女视频免费在线观看| 狠色婷婷久久一区二区三区| 欧美尤物在线观看西比尔| 草草视频精品在线观看| 97人妻精品一区二区三区免| 欧美丰满大屁股一区二区三区 | 日韩一区二区三区有码| 国产精品欧美一区二区三区不卡 | 激情三级在线观看视频|