科技行者報(bào)道 來(lái)源 :phys.org 編譯:周雅 我們所知的 WordNet 是一個(gè)英語(yǔ)“詞匯數(shù)據(jù)庫(kù)”,它將英語(yǔ)單詞以“同義詞集合(synset)”作為一個(gè)基本組織單位,集合里提供詞匯的簡(jiǎn)短定義和使用示例,人腦如果有一個(gè)已知的概念,就可以在同義詞集合中找到一個(gè)適合的詞去表達(dá)這個(gè)概念。而現(xiàn)在,美國(guó)德克薩斯大學(xué)奧斯汀分校(UT Austin)的研究人員開(kāi)發(fā)了一種將信息從WordNet數(shù)據(jù)庫(kù)整合到信息檢索(IR,information retrieval)系統(tǒng)的方法,便于通用搜索引擎以及醫(yī)學(xué)知識(shí)或非英語(yǔ)文本等細(xì)分領(lǐng)域的研發(fā)。 說(shuō)明之前,我們先來(lái)了解一下 WordNet ——由普林斯頓大學(xué)(Princeton)的心理學(xué)家、語(yǔ)言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語(yǔ)言學(xué)的英語(yǔ)詞典「常用的英語(yǔ)詞典分為詞典 (Dictionary)、分類(lèi)詞匯匯編 (Thesaurus) 、同義詞和反義詞 (Synonyms and Antonyms) 、慣用法(Usage) 、成語(yǔ) (Idioms) 、俚語(yǔ) (Slang) 和詞源 (Etymology) 等等」。 (圖中四種不同詞性的網(wǎng)絡(luò)之間并無(wú)連接,WordNet為其提供連接) 它是一個(gè)覆蓋范圍寬廣的英語(yǔ)詞匯語(yǔ)義網(wǎng)。名詞,動(dòng)詞,形容詞和副詞各自被組織成一個(gè)同義詞的網(wǎng)絡(luò),每個(gè)同義詞集合都代表一個(gè)基本的語(yǔ)義概念,并且這些集合之間也由各種關(guān)系連接——它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”。 為什么需要一個(gè)WordNet?
WordNet 的內(nèi)容是什么?對(duì)此公開(kāi)資料顯示,人們經(jīng)常區(qū)分詞語(yǔ)知識(shí)和世界知識(shí),前者體現(xiàn)在詞典中,后者體現(xiàn)在百科全書(shū)中,但事實(shí)上二者的界限是模糊的。比如hit(“打”)某人是一種帶有敵意的行為,這是百科知識(shí);而hit跟strike(“擊”)多多少少同義,并且hit可以帶一個(gè)直接賓語(yǔ)論元,這是詞語(yǔ)知識(shí)。但hit的直接賓語(yǔ)應(yīng)該是固體(而不是像gas這樣的氣體),這是詞語(yǔ)知識(shí)還是百科知識(shí)就界限模糊了。不過(guò)毫無(wú)疑問(wèn),要理解語(yǔ)言,這兩部分知識(shí)是缺一不可的。 WordNet 相當(dāng)于一個(gè)統(tǒng)籌。 之所以有了 WordNet,也就有了更多相關(guān)的應(yīng)用落地,比如搜索引擎。那么,搜索引擎如何生成相關(guān)站點(diǎn)鏈接列表? 這要?dú)w功于信息檢索演變進(jìn)程中兩股強(qiáng)大力量的發(fā)展:人工智能(尤其是自然語(yǔ)言處理)和眾包。 當(dāng)我們搜索一個(gè)信息,得到一系列信息,兩者之間如何對(duì)應(yīng)起來(lái)?對(duì)于我們所輸入的詞匯與大量預(yù)測(cè)網(wǎng)頁(yè)之間的關(guān)系,計(jì)算機(jī)算法對(duì)此的解釋是,主要基于其系統(tǒng)所接受的數(shù)以?xún)|計(jì)的文本訓(xùn)練中語(yǔ)言連接的頻率。 但這并不是信息的唯一來(lái)源。對(duì)于重要話(huà)題,專(zhuān)業(yè)的注解者會(huì)強(qiáng)化其語(yǔ)義關(guān)系,調(diào)整搜索結(jié)果和生成結(jié)果的算法,而通過(guò)網(wǎng)絡(luò)檢索者(也就是我們)的點(diǎn)擊,算法會(huì)辨別出哪些鏈接是最佳結(jié)果。 盡管很不可思議,但這個(gè)模型帶來(lái)的改變世界性的成功,也存在一定缺陷。因?yàn)樗阉饕娼o出的結(jié)果往往不像我們想的那樣“智能”,它們?nèi)匀蝗狈?duì)人類(lèi)語(yǔ)言和邏輯的真正理解。除此之外,它們有時(shí)會(huì)重復(fù)、加深我們的搜索結(jié)果中出現(xiàn)的偏差,而不是為我們提供新的信息或觀點(diǎn)。 在研究過(guò)程中,美國(guó)德克薩斯大學(xué)奧斯汀分校信息學(xué)院副教授馬修·里斯(Matthew Lease)提出一個(gè)設(shè)想:利用計(jì)算機(jī)和人類(lèi)大腦的雙重力量,或許能夠創(chuàng)造更加智能的信息檢索系統(tǒng)方式。 為了將人工智能與注釋者的見(jiàn)解以及特定領(lǐng)域資源的信息編碼整合在一起,里斯教授及其同事們正在開(kāi)發(fā)一種新的信息檢索方案,它將有利于通用搜索引擎以及醫(yī)學(xué)知識(shí)或非英語(yǔ)文本等研發(fā)的細(xì)分領(lǐng)域。 8月初,在加拿大溫哥華舉辦的計(jì)算機(jī)語(yǔ)言學(xué)協(xié)會(huì)年度會(huì)議上,里斯、德克薩斯大學(xué)奧斯汀分校和美國(guó)東北大學(xué)的幾位合作者通過(guò)兩篇論文,描述了他們新穎的信息檢索系統(tǒng)想法。他們的研究借助了德克薩斯高級(jí)計(jì)算中心的超級(jí)計(jì)算資源。 在其中一篇論文中,以博士生 An Nguyen 為首,他們提出了一種方法,即結(jié)合多個(gè)注解者輸入的信息,來(lái)確定所有給出的文本中最好的注解方案。他們將這種方法用在了兩個(gè)問(wèn)題的研究上: 分析自由文本搜索描述醫(yī)學(xué)研究的文章,來(lái)提取每項(xiàng)研究的細(xì)節(jié)(例如,健康狀況、患者統(tǒng)計(jì)信息、治療手段和效果),以及通過(guò)識(shí)別命名實(shí)體分析突發(fā)新聞報(bào)道來(lái)識(shí)別事件、人以及所涉及的地方。 里斯同時(shí)提出,在自然語(yǔ)言處理中有一個(gè)重要挑戰(zhàn),即準(zhǔn)確地在自由文本中查找所包含的重要信息,它將使我們把這些信息提取到數(shù)據(jù)庫(kù),并將其與其他數(shù)據(jù)結(jié)合在一起,以做出更加智能的決策和新發(fā)現(xiàn)。相關(guān)解決方案是,里斯這些研究人員已經(jīng)大規(guī)模地利用眾包來(lái)為醫(yī)學(xué)和新聞文章注解,以確保其智能系統(tǒng)將能夠更加精準(zhǔn)地找到每一篇文章中所包含的關(guān)鍵信息。 習(xí)慣上,這些注解歷來(lái)都是由相關(guān)領(lǐng)域?qū)<彝瓿傻?。然而,近?lái),眾包已經(jīng)成為一個(gè)以較低成本獲取大量帶標(biāo)簽數(shù)據(jù)的廣受歡迎的方法??梢灶A(yù)見(jiàn)的是,這些來(lái)自非專(zhuān)業(yè)人士的注解質(zhì)量要比那些領(lǐng)域?qū)<业淖⒔獠?,因此評(píng)估大眾注解者的可靠性是很有必要的,而且將這些個(gè)人注解整合成一套“參考標(biāo)準(zhǔn)”一致的標(biāo)簽也很有必要。 里斯的研究團(tuán)隊(duì)還發(fā)現(xiàn),他們的方法可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)(一種模仿人類(lèi)大腦的人工智能形式),這樣它就可以非常準(zhǔn)確地預(yù)測(cè)出命名實(shí)體,并在未命名文本中提取相關(guān)信息。這個(gè)新方法改進(jìn)了現(xiàn)有的標(biāo)記和訓(xùn)練方法。 該方法還為每一位工作人員的標(biāo)簽質(zhì)量提供了評(píng)估,它可以在任務(wù)之間轉(zhuǎn)移,而且對(duì)誤差分析和智能路由任務(wù)很有用——可以識(shí)別出每個(gè)特定文本的最佳注解人選。 該圖是一個(gè)局部權(quán)值共享分類(lèi)的例子。 如圖所示,單詞被分為了兩組,里斯的研究小組在歸屬于同一組的單詞中,隨機(jī)地選擇待共享權(quán)值后將其嵌入。權(quán)值共享限制了系統(tǒng)必須學(xué)習(xí)的自由參數(shù)的數(shù)量,提高了該神經(jīng)模型的效率和精度,并成為了一個(gè)靈活結(jié)合先驗(yàn)知識(shí)的方法。在這一過(guò)程中,他們將最好的人類(lèi)知識(shí)與機(jī)器學(xué)習(xí)結(jié)合在了一起。 「貢獻(xiàn)者:張燁(Ye Zhang);德州大學(xué)奧斯汀分校 馬修·里斯(Matthew Lease);美國(guó)東北大學(xué) 拜倫·C·華萊士(Byron C. Wallace)」 第一篇論文:Learning to Effectively Select Topics For Information Retrieval Test Collections 鏈接: https:///pdf/1701.07810.pdf 利用現(xiàn)有知識(shí)創(chuàng)造更好的神經(jīng)系統(tǒng)模型 該團(tuán)隊(duì)的另一篇論文以博士生張燁(Ye Zhang)為首,文章提出,自然語(yǔ)言處理 (NLP) 的神經(jīng)模型往往會(huì)忽視現(xiàn)有資源,例如 WordNet 詞匯數(shù)據(jù)庫(kù)。 他們提出了一種方法,可以通過(guò)權(quán)值共享(weight sharing),利用這些現(xiàn)有的語(yǔ)言資源,為了自動(dòng)文本分類(lèi)改善自然語(yǔ)言處理模型。例如,該模型學(xué)習(xí)將醫(yī)學(xué)文章進(jìn)行分類(lèi),將描述臨床試驗(yàn)的研究分類(lèi)到與臨床醫(yī)學(xué)問(wèn)題相關(guān)的定義下。 在權(quán)值共享下,相似的詞匯將共享一個(gè)權(quán)值的其中一部分,或指定的數(shù)值。權(quán)值共享限制了系統(tǒng)必須學(xué)習(xí)的自由參數(shù)的數(shù)量,從而提高該神經(jīng)模型的效率和精度,并起到一個(gè)靈活結(jié)合先驗(yàn)知識(shí)的方式。在這個(gè)過(guò)程中,他們將人類(lèi)知識(shí)與機(jī)器學(xué)習(xí)結(jié)合在了一起。 “神經(jīng)網(wǎng)絡(luò)模型的參數(shù)有很多,并且需要大量的數(shù)據(jù)去配合它們。”里斯因此有了一個(gè)想法,如果能夠以某種方式推出一些與其他先驗(yàn)詞匯相關(guān)的詞匯,那么就沒(méi)必要非要為每個(gè)單獨(dú)的詞匯設(shè)置一個(gè)參數(shù),而可以將多個(gè)單詞配合使用一個(gè)參數(shù),這樣所需要學(xué)習(xí)模型的數(shù)據(jù)就比較少了。這種方法將在沒(méi)有大量數(shù)據(jù)限制的情況下實(shí)現(xiàn)深度學(xué)習(xí)成果。 他們將一種形式的權(quán)值共享應(yīng)用在了一段電影評(píng)論的情感分析和與貧血癥有關(guān)的生物醫(yī)學(xué)搜索中。在分類(lèi)任務(wù)上,相比沒(méi)有使用權(quán)值共享策略的情形,他們的方法不斷獲得了改進(jìn)性能。 來(lái)自美國(guó)東北大學(xué)的合作者拜倫·華萊士(Byron Wallace)也認(rèn)為,這種方式,相當(dāng)于在數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)模型中編寫(xiě)和開(kāi)發(fā)專(zhuān)業(yè)領(lǐng)域知識(shí)提供了一個(gè)通用框架?!?strong style="box-sizing: border-box;">「華萊士曾經(jīng)也是德州大學(xué)奧斯汀分校的教職工,而且也是德克薩斯高級(jí)計(jì)算中心(TACC)的老用戶(hù)?!?/p> 里斯、華萊士和他們的合作者在德克薩斯高級(jí)計(jì)算中心的 Maverick 超級(jí)計(jì)算機(jī)上使用GPU(圖形處理單元)對(duì)其機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行分析和培訓(xùn)。 里斯表示:“訓(xùn)練神經(jīng)計(jì)算模型處理大數(shù)據(jù)需要大量的計(jì)算時(shí)間。而 TACC 恰好就成為了一處很棒、很合適的資源,而且這不僅僅緣于其強(qiáng)大的可用存儲(chǔ),還得益于其大量的節(jié)點(diǎn)和可適用于神經(jīng)模型訓(xùn)練的高效處理速度?!?/p> 據(jù)里斯說(shuō),除了 GPU,TACC 部署了英特爾先進(jìn)的處理架構(gòu),機(jī)器學(xué)習(xí)庫(kù)正在迎頭趕上。 盡管許多深度學(xué)習(xí)庫(kù)一直在對(duì) GPU 的處理進(jìn)行高度優(yōu)化,但從長(zhǎng)遠(yuǎn)來(lái)看,一旦其他架構(gòu)也進(jìn)行了優(yōu)化,它們將變得更快。 TACC 數(shù)據(jù)密集型計(jì)算主管尼爾·加夫尼(Niall Gaffney)表示,在 TACC 的與 Caffe(加州大學(xué)伯克利分校開(kāi)發(fā)的深度學(xué)習(xí)框架,已被充分應(yīng)用到了英特爾的至強(qiáng)Phi處理器中)進(jìn)行的前期工作中,他們發(fā)現(xiàn),這些 CPU 的性能差不多與許多人工智能運(yùn)行時(shí)的 CPU 性能相當(dāng)。 加夫尼認(rèn)為這相當(dāng)于一個(gè)變革,畢竟它將能夠提供更多可以滿(mǎn)足這些研究人員的節(jié)點(diǎn),同時(shí)也允許高性能計(jì)算機(jī)(HPC)用戶(hù)可以在他們的分析階段利用人工智能,而無(wú)需移動(dòng)到一個(gè)不同的GPU 啟用系統(tǒng)。 通過(guò)提高自動(dòng)信息提取和文本分類(lèi)的核心自然語(yǔ)言處理技術(shù),建立在這些技術(shù)上的網(wǎng)絡(luò)搜索引擎可以繼續(xù)提高。 里斯已經(jīng)收到來(lái)自美國(guó)國(guó)家科學(xué)基金會(huì) (NSF) 、美國(guó)博物館和圖書(shū)館服務(wù)研究院 (IMLS) 和美國(guó)國(guó)防高級(jí)研究計(jì)劃局 (DARPA) 的資助,來(lái)改善跨各種任務(wù)、規(guī)模和設(shè)置的眾包質(zhì)量。盡管商業(yè)網(wǎng)絡(luò)搜索公司投入了大量資源來(lái)開(kāi)發(fā)實(shí)用、有效的解決方案,但行業(yè)的需求迫使里斯仍然專(zhuān)注于商業(yè)應(yīng)用問(wèn)題和短期解決方案。這也是為什么像里斯這樣的研究人員得以展開(kāi)這些高風(fēng)險(xiǎn)、潛在變革性的研究之原因。 第二篇論文:Exploiting Domain Knowledge via Grouped Weight Sharing with Application to Text Categorization 鏈接: https:///pdf/1702.02535.pdf |
|
來(lái)自: 科技行者 > 《待分類(lèi)》