一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

知識(shí)圖譜的系統(tǒng)工程觀

 Wangxn625 2021-02-24

1 引言

知識(shí)圖譜是由節(jié)點(diǎn)和邊組成的語義網(wǎng)絡(luò)[1]。節(jié)點(diǎn)可以是實(shí)體,如:一個(gè)人、一本書等,或抽象的概念,如:人工智能、知識(shí)圖譜等。邊可以是實(shí)體的屬性,如:姓名、書名,或?qū)嶓w之間的關(guān)系,如:朋友、配偶。知識(shí)圖譜的早期理念來自于Web之父Tim Berners Lee于1998年提出的Semantic Web[2][3],其最初理想是把基于文本鏈接的萬維網(wǎng)轉(zhuǎn)化成基于實(shí)體鏈接的語義網(wǎng)。

1989年,萬維網(wǎng)之父、圖靈獎(jiǎng)獲得者Tim Berners-Lee提出構(gòu)建一個(gè)全球化的以“鏈接”為中心的信息系統(tǒng)(Linked Information System)。任何人都可以通過添加鏈接把自己的文檔鏈入其中。他認(rèn)為以鏈接為中心和基于圖的組織方式,比起基于樹的層次化組織方式,更加適合于互聯(lián)網(wǎng)這種開放的系統(tǒng)。這一思想逐步被人們實(shí)現(xiàn),并演化發(fā)展成為今天的World Wide Web。

1994年,Tim Berners-Lee 又提出,Web不應(yīng)該僅僅只是網(wǎng)頁之間的互相鏈接。實(shí)際上,網(wǎng)頁中所描述的都是現(xiàn)實(shí)世界中的實(shí)體和人腦中的概念。網(wǎng)頁之間的鏈接實(shí)際包含有語義,即這些實(shí)體或概念之間的關(guān)系,然而機(jī)器卻無法有效的從網(wǎng)頁中識(shí)別出其中蘊(yùn)含的語義。他于1998年提出了Semantic Web的概念[4]。Semantic Web仍然基于圖和鏈接的組織方式,只是圖中的節(jié)點(diǎn)代表的不只是網(wǎng)頁,而是客觀世界中的實(shí)體(如:人、機(jī)構(gòu)、地點(diǎn)等),而超鏈接也被增加了語義描述,具體標(biāo)明實(shí)體之間的關(guān)系(如:出生地是、創(chuàng)辦人是等)。相對(duì)于傳統(tǒng)的網(wǎng)頁互聯(lián)網(wǎng),Semantic Web的本質(zhì)是知識(shí)的互聯(lián)網(wǎng)或事物的互聯(lián)網(wǎng)(Web of Things)。

在Semantic Web被提出之后,出現(xiàn)了一大批新興的語義知識(shí)庫。如作為谷歌知識(shí)圖譜后端的Freebase[5],作為IBM Waston后端的DBPedia[6]和Yago[7],作為Amazon Alexa后端的True Knowledge,作為蘋果Siri后端的Wolfram Alpha,以及Schema.ORG[8],目標(biāo)成為世界最大開放知識(shí)庫的WikiData[9]等。尤其值得一提的是,2010年谷歌收購(gòu)了早期語義網(wǎng)公司MetaWeb,并以其開發(fā)的Freebase為數(shù)據(jù)基礎(chǔ)之一,于2012年正式推出了稱為知識(shí)圖譜的搜索引擎服務(wù)。隨后,知識(shí)圖譜逐步在語義搜索[10][11]、智能問答[12][13][14]、輔助語言理解[15][16]、輔助大數(shù)據(jù)分析[17][18][19]、增強(qiáng)機(jī)器學(xué)習(xí)的可解釋性[20]、結(jié)合圖卷積輔助圖像分類[21][22]等很多領(lǐng)域發(fā)揮出越來越重要的作用。

如圖1所示,本質(zhì)而言,知識(shí)圖譜旨在從數(shù)據(jù)中識(shí)別、發(fā)現(xiàn)和推斷事物、概念之間的復(fù)雜關(guān)系,是事物關(guān)系的可計(jì)算模型。知識(shí)圖譜的構(gòu)建涉及知識(shí)建模、關(guān)系抽取、圖存儲(chǔ)、關(guān)系推理、實(shí)體融合等多方面的技術(shù),而知識(shí)圖譜的應(yīng)用則涉及到語義搜索、智能問答、語言理解、決策分析等多個(gè)領(lǐng)域。構(gòu)建并利用好知識(shí)圖譜需要系統(tǒng)性的利用好涉及知識(shí)表示、數(shù)據(jù)庫、自然語言處理、機(jī)器學(xué)習(xí)等多個(gè)方面技術(shù)。本文嘗試從信息系統(tǒng)工程的觀點(diǎn)總結(jié)知識(shí)圖譜的內(nèi)涵和外延,核心的技術(shù)要素及技術(shù)流程,并從智能問答、語言理解、智能推理、數(shù)據(jù)庫、推薦系統(tǒng)、區(qū)塊鏈等多個(gè)相關(guān)領(lǐng)域進(jìn)行了發(fā)展趨勢(shì)總結(jié)與分析。

圖 1  知識(shí)圖譜:事物關(guān)系的可計(jì)算模型

2 從信息系統(tǒng)工程的觀點(diǎn)看知識(shí)圖譜

2.1 知識(shí)圖譜的規(guī)?;l(fā)展

知識(shí)圖譜并非突然出現(xiàn)的新技術(shù),而是歷史上很多相關(guān)技術(shù)相互影響和繼承發(fā)展的結(jié)果,這包括語義網(wǎng)絡(luò)、知識(shí)表示、本體論、Semantic Web、自然語言處理等,有著來自Web、人工智能和自然語言處理等多方面的技術(shù)基因。從早期的人工智能發(fā)展歷史來看,Semantic Web是傳統(tǒng)人工智能與Web融合發(fā)展的結(jié)果,是知識(shí)表示與推理在Web中的應(yīng)用;RDF/OWL都是面向Web設(shè)計(jì)實(shí)現(xiàn)的標(biāo)準(zhǔn)化的知識(shí)表示語言;而知識(shí)圖譜則可以看做是Semantic Web的一種簡(jiǎn)化后的商業(yè)實(shí)現(xiàn)。

圖 2從語義網(wǎng)絡(luò)到知識(shí)圖譜

在人工智能的早期發(fā)展流派中,符號(hào)派(Symbolism)側(cè)重于模擬人的心智,研究怎樣用計(jì)算機(jī)符號(hào)來表示人腦中的知識(shí)和模擬心智的推理過程;連接派(Connectionism)側(cè)重于模擬人腦的生理結(jié)構(gòu),即人工神經(jīng)網(wǎng)絡(luò)。符號(hào)派一直以來都處于人工智能研究的核心位置。近年來,隨著數(shù)據(jù)的大量積累和計(jì)算能力大幅提升,深度學(xué)習(xí)在視覺、聽覺等感知處理中取得突破性進(jìn)展,進(jìn)而又在圍棋等博弈類游戲、機(jī)器翻譯等領(lǐng)域獲得成功,使得人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)獲得了人工智能研究的核心地位。深度學(xué)習(xí)在處理感知、識(shí)別和判斷等方面表現(xiàn)突出,能幫助構(gòu)建聰明的AI,但在模擬人的思考過程、處理常識(shí)知識(shí)和推理,以及理解人的語言方面仍然舉步維艱。

符號(hào)派關(guān)注的核心是知識(shí)的表示和推理(KRR:Knowledge Representation and Reasoning)。早在1960年,認(rèn)知科學(xué)家Allan M. Collins提出用語義網(wǎng)絡(luò)(Semantic Network)來研究人腦的語義記憶。WordNet[23]是典型的語義網(wǎng)絡(luò),它定義了名詞、動(dòng)詞、形容詞和副詞之間的語義關(guān)系,例如動(dòng)詞之間的蘊(yùn)含關(guān)系(如:“打鼾”蘊(yùn)含著“睡眠”)等。WordNet被廣泛應(yīng)用于語義消歧等自然語言處理領(lǐng)域。

1970 年,隨著專家系統(tǒng)的提出和商業(yè)化發(fā)展,知識(shí)庫構(gòu)建和知識(shí)表示更加得到重視。專家系統(tǒng)的基本想法是:專家是基于大腦中的知識(shí)來進(jìn)行決策,因此,人工智能的核心應(yīng)該是用計(jì)算機(jī)符號(hào)來表示這些知識(shí),并通過推理機(jī)模仿人腦對(duì)知識(shí)進(jìn)行處理。依據(jù)專家系統(tǒng)的觀點(diǎn),計(jì)算機(jī)系統(tǒng)應(yīng)該由知識(shí)庫和推理機(jī)兩部分組成,而不是由函數(shù)等過程性代碼組成。早期專家系統(tǒng)最常用的知識(shí)表示方法包括基于框架的語言(Frame-based Languages)和產(chǎn)生式規(guī)則(Production Rules)等??蚣苷Z言主要用于描述客觀世界的類別、個(gè)體、屬性及關(guān)系等,較多的被應(yīng)用于輔助自然語言理解。產(chǎn)生式規(guī)則主要用于描述類似于IF-THEN的邏輯結(jié)構(gòu),適合于刻畫過程性知識(shí)。

知識(shí)圖譜與傳統(tǒng)專家系統(tǒng)時(shí)代的知識(shí)工程有顯著的不同。與傳統(tǒng)專家系統(tǒng)時(shí)代主要依靠專家手工獲取知識(shí)不同,現(xiàn)代知識(shí)圖譜的顯著特點(diǎn)是規(guī)模巨大,無法單一依靠人工和專家構(gòu)建。傳統(tǒng)的知識(shí)庫,如由Douglas Lenat從1984年開始創(chuàng)建的常識(shí)知識(shí)庫Cyc僅包含700萬條 的事實(shí)描述(Assertion)。Wordnet主要依靠語言學(xué)專家定義名詞、動(dòng)詞、形容詞和副詞之間的語義關(guān)系,目前包含大約20萬條的語義關(guān)系。由著名人工智能專家Marvin Minsky于1999年起開始構(gòu)建的ConceptNet[24]常識(shí)知識(shí)庫依靠了互聯(lián)網(wǎng)眾包、專家創(chuàng)建和游戲三種方法,但早期ConceptNet規(guī)模在百萬級(jí)別,最新的ConceptNet 5.0也僅包含2800萬RDF三元組關(guān)系描述?,F(xiàn)代知識(shí)圖譜如谷歌和百度的知識(shí)圖譜都已經(jīng)包含超過千億級(jí)別的三元組,阿里巴巴于2017年8月份發(fā)布的僅包含核心商品數(shù)據(jù)的知識(shí)圖譜也已經(jīng)達(dá)到百億級(jí)別。DBpedia已經(jīng)包含約30億RDF三元組,多語種的大百科語義網(wǎng)絡(luò)BabelNet包含19億的RDF三元組[25],Yago3.0包含1.3億元組,Wikidata已經(jīng)包含4265萬條數(shù)據(jù)條目,元組數(shù)目也已經(jīng)達(dá)到數(shù)十億級(jí)別。截止目前,開放鏈接數(shù)據(jù)項(xiàng)目Linked Open Data  統(tǒng)計(jì)了其中有效的2973個(gè)數(shù)據(jù)集,總計(jì)包含大約1494億三元組。

現(xiàn)代知識(shí)圖譜對(duì)知識(shí)規(guī)模的要求源于“知識(shí)完備性”難題。馮諾依曼曾估計(jì)單個(gè)個(gè)體的大腦中的全量知識(shí)需要2.4*1020個(gè)bits來存儲(chǔ)[26]。客觀世界擁有不計(jì)其數(shù)的實(shí)體,人的主觀世界還包含有無法統(tǒng)計(jì)的概念,這些實(shí)體和概念之間又具有更多數(shù)量

的復(fù)雜關(guān)系,導(dǎo)致大多數(shù)知識(shí)圖譜都面臨知識(shí)不完全的困境。在實(shí)際的領(lǐng)域應(yīng)用場(chǎng)景中,知識(shí)不完全也是困擾大多數(shù)語義搜索、智能問答、知識(shí)輔助的決策分析系統(tǒng)的首要難題。

圖 3 現(xiàn)代知識(shí)圖譜的規(guī)模化發(fā)展

2.2 規(guī)?;闹R(shí)圖譜系統(tǒng)工程

規(guī)?;闹R(shí)圖譜工程要求系統(tǒng)性的綜合多方面的技術(shù)手段。如圖 4所示,知識(shí)圖譜工程的核心流程包括:知識(shí)建模、知識(shí)抽取、知識(shí)融合、知識(shí)推理、知識(shí)檢索、知識(shí)分析等核心環(huán)節(jié)。一般的技術(shù)流程包括:首先確定知識(shí)表示模型,然后根據(jù)數(shù)據(jù)來源選擇不同的知識(shí)獲取手段導(dǎo)入知識(shí),接下來需要綜合利用知識(shí)推理、知識(shí)融合、知識(shí)挖掘等技術(shù)對(duì)所構(gòu)建的知識(shí)圖譜進(jìn)行質(zhì)量提升,最后根據(jù)場(chǎng)景需求設(shè)計(jì)不同的知識(shí)訪問與呈現(xiàn)方法,如:語義搜索、問答交互、圖譜可視化分析等。下面簡(jiǎn)要概述這些技術(shù)流程的核心技術(shù)要素。

圖 4 規(guī)?;闹R(shí)圖譜系統(tǒng)工程

● 知識(shí)來源

可以從多種來源來獲取知識(shí)圖譜數(shù)據(jù),這包括:文本、結(jié)構(gòu)化數(shù)據(jù)庫、多媒體數(shù)據(jù)、傳感器數(shù)據(jù)和人工眾包等。每一種數(shù)據(jù)源的知識(shí)化都需要綜合各種不同的技術(shù)手段。 例如,對(duì)于文本數(shù)據(jù)源就需要綜合各種自然語言處理技術(shù)(實(shí)體識(shí)別、實(shí)體鏈接、關(guān)系抽取、事件抽取等)來實(shí)現(xiàn)從文本中抽取知識(shí)。

結(jié)構(gòu)化數(shù)據(jù)庫如各種關(guān)系型數(shù)據(jù)庫,也是最常使用的數(shù)據(jù)來源之一。 通常已有的結(jié)構(gòu)化數(shù)據(jù)庫不能直接作為知識(shí)圖譜使用,而需要通過定義結(jié)構(gòu)化數(shù)據(jù)到本體模型之間的語義映射,再通過編寫語義翻譯工具來實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)到知識(shí)圖譜的轉(zhuǎn)化。此外,還需要綜合采用實(shí)體消歧、數(shù)據(jù)融合、知識(shí)鏈接等技術(shù)提升數(shù)據(jù)的規(guī)范化水平和增強(qiáng)數(shù)據(jù)之間的關(guān)聯(lián)。

語義技術(shù)也被用來對(duì)傳感器所產(chǎn)生的數(shù)據(jù)進(jìn)行語義化。這包括對(duì)物聯(lián)設(shè)備進(jìn)行抽象,定義符合語義標(biāo)準(zhǔn)的數(shù)據(jù)接口;對(duì)傳感數(shù)據(jù)進(jìn)行語義封裝和對(duì)傳感數(shù)據(jù)增加上下文語義描述等。

人工眾包是獲取高質(zhì)量知識(shí)圖譜的重要手段。例如:WikiData和Schema.org都是較為典型的知識(shí)眾包技術(shù)手段。此外,還可以開發(fā)針對(duì)文本、圖像等多種媒體數(shù)據(jù)的語義標(biāo)注工具輔助人工進(jìn)行知識(shí)獲取。

● 知識(shí)表示與Schema工程

知識(shí)表示(Knowledge Representation)是指用計(jì)算機(jī)符號(hào)描述和表示人腦中的知識(shí),以支持機(jī)器模擬人的心智進(jìn)行推理的方法與技術(shù)。知識(shí)表示決定了圖譜構(gòu)建的產(chǎn)出目標(biāo),即知識(shí)圖譜的語義描述框架(Description Framework)、Schema與本體(Ontology)、知識(shí)交換語法(Syntax)和實(shí)體命名及ID體系。

基本描述框架定義知識(shí)圖譜的基本數(shù)據(jù)模型(Data Model)和邏輯結(jié)構(gòu)(Structure),如W3C的RDF(Resource Description Framework)。Schema與本體定義知識(shí)圖譜的類集、屬性集、關(guān)系集和詞匯集。交換語法定義知識(shí)實(shí)際存在的物理格式,如Turtle、JSON等。實(shí)體命名及ID體系定義實(shí)體的命名原則及唯一標(biāo)示規(guī)范等。

從知識(shí)圖譜的知識(shí)類型來分,包括:詞(Vocabulary)、實(shí)體(Entity)、關(guān)系(Relation)、事件(Events)、術(shù)語體系(Taxonomy)、規(guī)則(Rules)等。詞一級(jí)的知識(shí)以詞為中心,并定義詞之間的關(guān)系,如WordNet、ConceptNet等。實(shí)體一級(jí)的知識(shí)以實(shí)體為中心,并定義實(shí)體之間的關(guān)系、描述實(shí)體的術(shù)語體系等。事件是一種復(fù)合的實(shí)體。

W3C的RDF把三元組(Triple)作為基本的數(shù)據(jù)模型,其基本的邏輯結(jié)構(gòu)包含主語(Subject)、謂詞(Predicate)、賓語(Object)三個(gè)部分。雖然不同知識(shí)庫的描述框架的表述有所不同,但本質(zhì)上都包含實(shí)體、實(shí)體的屬性和實(shí)體之間的關(guān)系幾個(gè)方面的要素。

● 知識(shí)抽取

知識(shí)抽取按任務(wù)可以分為概念抽取、實(shí)體識(shí)別、關(guān)系抽取、事件抽取和規(guī)則抽取等。傳統(tǒng)專家系統(tǒng)時(shí)代的知識(shí)主要依靠專家手工錄入,難以擴(kuò)大規(guī)?!,F(xiàn)代知識(shí)圖譜的構(gòu)建通常大多依靠已有的結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行轉(zhuǎn)化形成基礎(chǔ)數(shù)據(jù)集,再依靠自動(dòng)化知識(shí)抽取和知識(shí)圖譜補(bǔ)全技術(shù)從多種數(shù)據(jù)來源進(jìn)一步擴(kuò)展知識(shí)圖譜,并通過人工眾包來進(jìn)一步提升知識(shí)圖譜的質(zhì)量。

結(jié)構(gòu)化和文本數(shù)據(jù)是目前最主要的知識(shí)來源。從結(jié)構(gòu)化數(shù)據(jù)庫中獲取知識(shí)一般使用現(xiàn)有的D2R工具[27],如 Triplify、D2RServer、OpenLink、SparqlMap、Ontop等。從文本中獲取知識(shí)主要包括實(shí)體識(shí)別和關(guān)系抽取。以關(guān)系抽取為例,典型的關(guān)系抽取方法可以分為:基于特征模板的方法[28-30],基于核函數(shù)的監(jiān)督學(xué)習(xí)方法[31-39],基于遠(yuǎn)程監(jiān)督的方法[40][47],和基于深度學(xué)習(xí)的監(jiān)督或遠(yuǎn)程監(jiān)督方法,如簡(jiǎn)單CNN、MP-CNN、MWK-CNN、PCNN、PCNN+Att、和MIMLCNN等[42-46]。遠(yuǎn)程監(jiān)督的思想是,利用一個(gè)大型的語義數(shù)據(jù)庫來自動(dòng)獲取關(guān)系類型標(biāo)簽。這些標(biāo)簽可能是含有噪聲的,但是大量的訓(xùn)練數(shù)據(jù)一定程度上可以抵消這些噪聲。另外一些工作通過多任務(wù)學(xué)習(xí)等方法將實(shí)體和關(guān)系做聯(lián)合抽取[47-48]。最新的一些研究則利用強(qiáng)化學(xué)習(xí)來減少人工標(biāo)注和自動(dòng)降低噪音[49]。

● 知識(shí)融合

在構(gòu)建知識(shí)圖譜時(shí),可以從第三方知識(shí)庫產(chǎn)品或已有結(jié)構(gòu)化數(shù)據(jù)獲取知識(shí)輸入。例如,關(guān)聯(lián)開放數(shù)據(jù)項(xiàng)目(Linked Open Data)會(huì)定期發(fā)布其經(jīng)過積累和整理的語義知識(shí)數(shù)據(jù),其中既包括前文介紹過的通用知識(shí)庫 DBpedia和 Yago,也包括面向特定領(lǐng)域的知識(shí)庫產(chǎn)品,如 MusicBrainz和DrugBank等。當(dāng)多個(gè)知識(shí)圖譜進(jìn)行融合,或者將外部關(guān)系數(shù)據(jù)庫合并到本體知識(shí)庫時(shí)需要處理兩個(gè)層面的問題:A. 通過模式層的融合,將新得到的本體融入已有的本體庫中,以及新舊本體的融合;B.數(shù)據(jù)層的融合,包括實(shí)體的指稱、屬性、關(guān)系以及所屬類別等,主要的問題是如何避免實(shí)例以及關(guān)系的沖突問題,造成不必要的冗余。

數(shù)據(jù)層的融合是指實(shí)體和關(guān)系(包括屬性)元組的融合,主要是實(shí)體匹配(或者對(duì)齊),由于知識(shí)庫中有些實(shí)體含義相同但是具有不同的標(biāo)識(shí)符,因此需要對(duì)這些實(shí)體進(jìn)行合并處理[91-92]。此外,還需要對(duì)新增實(shí)體和關(guān)系進(jìn)行驗(yàn)證和評(píng)估,以確保知識(shí)圖譜的內(nèi)容一致性和準(zhǔn)確性,通常采用的方法是在評(píng)估過程中為新加入的知識(shí)賦予可信度值,據(jù)此進(jìn)行知識(shí)的過濾和融合。實(shí)體對(duì)齊的任務(wù)包括實(shí)體消歧和共指消解,即判斷知識(shí)庫中的同名實(shí)體是否代表不同的含義以及知識(shí)庫中是否存在其他命名實(shí)體與之表示相同的含義。實(shí)體消歧(entity disambiguation)專門用于解決同名實(shí)體產(chǎn)生歧義問題的,通常采用聚類法,其關(guān)鍵問題是如何定義實(shí)體對(duì)象與指稱項(xiàng)之間的相似度,常用方法有:空間向量模型(詞袋模型)[56]、語義模型[57]、社會(huì)網(wǎng)絡(luò)模型[58]、百科知識(shí)模型[59]和增量證據(jù)模型[60]。一些最新的工作利用知識(shí)圖譜嵌入方法進(jìn)行實(shí)體對(duì)齊,并引入人機(jī)協(xié)作方式提升實(shí)體對(duì)齊的質(zhì)量[61-62]。

本體是針對(duì)特定領(lǐng)域中Schema定義、概念模型和公理定義而言的,目的是彌合詞匯異構(gòu)性和語義歧義的間隙,使溝通達(dá)成共識(shí)。這種共識(shí)往往是通過一個(gè)反復(fù)的過程達(dá)到,每次迭代都是一次共識(shí)的修改。因此,本體對(duì)齊通常帶來的是共識(shí)模式的演化和變化,本體對(duì)齊的主要問題之一也可以轉(zhuǎn)化為怎樣管理這種演化和變化[63]。常見的本體演化管理框架有KAON[64]、Conto-diff[65]、OntoView等。

● 知識(shí)圖譜補(bǔ)全

常用的知識(shí)圖譜補(bǔ)全方法包括:基于本體推理的補(bǔ)全方法,如基于描述邏輯的推理[66-68],以及相關(guān)的推理機(jī)實(shí)現(xiàn)如:RDFox、Pellet , RACER , HermiT , TrOWL等。這類推理主要針對(duì)TBox,即概念層進(jìn)行推理,也可以用來對(duì)實(shí)體級(jí)的關(guān)系進(jìn)行補(bǔ)全。

另外一類的知識(shí)補(bǔ)全算法實(shí)現(xiàn)基于圖結(jié)構(gòu)和關(guān)系路徑特征的方法,如基于隨機(jī)游走獲取路徑特征的PRA算法[69],基于子圖結(jié)構(gòu)的SFE算法[70],基于層次化隨機(jī)游走模型的PRA算法[71]。這類算法的共同特點(diǎn)是通過兩個(gè)實(shí)體節(jié)點(diǎn)之間的路徑,以及節(jié)點(diǎn)周圍的圖的結(jié)構(gòu)提取特征,并通過隨機(jī)游走等算法降低特征抽取的復(fù)雜度,然后疊加線性的學(xué)習(xí)模型來進(jìn)行關(guān)系的預(yù)測(cè)。此類算法依賴于圖結(jié)構(gòu)和路徑的豐富程度。

更為常見的補(bǔ)全實(shí)現(xiàn)是基于表示學(xué)習(xí)和知識(shí)圖譜嵌入的鏈接預(yù)測(cè)[73-80],簡(jiǎn)單的如前面所介紹最基本的翻譯模型、組合模型和神經(jīng)元模型等。這類簡(jiǎn)單的嵌入模型一般只能實(shí)現(xiàn)單步的推理。更為復(fù)雜一些的模型,如向量空間中引入隨機(jī)游走模型的方法,在同一個(gè)向量空間中將路徑與實(shí)體和關(guān)系一起表示出來再進(jìn)行補(bǔ)全的模型[81-82]。

文本信息也被用來輔助實(shí)現(xiàn)知識(shí)圖譜的補(bǔ)全[50-55]。例如Jointly(w)、Jointly(z) 、DKRL、TEKE、SSP等方法將文本中的實(shí)體和結(jié)構(gòu)化圖譜中的實(shí)體對(duì)齊,然后利用雙方的語義信息來輔助實(shí)現(xiàn)關(guān)系預(yù)測(cè)或抽取。這類模型一般包含3個(gè)部分:三元組解碼器、文本解碼器和聯(lián)合解碼器。三元組解碼器將知識(shí)圖譜中的實(shí)體和關(guān)系轉(zhuǎn)化為低維向量;文本解碼器則是要從文本語料庫中學(xué)習(xí)實(shí)體(詞)的向量表示;聯(lián)合解碼器的目的是要保證實(shí)體/關(guān)系和詞的嵌入向量位于相同的空間中并且集成實(shí)體向量和詞向量。

● 知識(shí)檢索與知識(shí)分析

基于知識(shí)圖譜的知識(shí)檢索的實(shí)現(xiàn)形式主要包括語義檢索和智能問答。傳統(tǒng)搜索引擎依靠網(wǎng)頁之間的超鏈接來實(shí)現(xiàn)網(wǎng)頁的搜索,而語義搜索是直接對(duì)事物進(jìn)行搜索,如人物、機(jī)構(gòu)、地點(diǎn)等。這些事物可能來自于文本、圖片、視頻、音頻、IoT設(shè)備等各種信息資源。而知識(shí)圖譜和語義技術(shù)提供了關(guān)于這些事物的分類、屬性和關(guān)系的描述,使得搜索引擎可以直接對(duì)事物進(jìn)行索引和搜索。

知識(shí)圖譜和語義技術(shù)也被用來輔助做數(shù)據(jù)分析與決策。例如,大數(shù)據(jù)公司PLANTIR基于本體融合和集成多種來源的數(shù)據(jù),通過知識(shí)圖譜和語義技術(shù)增強(qiáng)數(shù)據(jù)之間的關(guān)聯(lián),使得用戶可以用更加直觀的圖譜方式對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘與分析。近年來,描述性數(shù)據(jù)分析(DECLARATIVE DATA ANALYSIS)受到越來越多的重視[83]。描述性數(shù)據(jù)分析是指依賴數(shù)據(jù)本身的語義描述來實(shí)現(xiàn)數(shù)據(jù)分析的方法。不同于計(jì)算性數(shù)據(jù)分析主要以建立各種數(shù)據(jù)分析模型,如深度神經(jīng)網(wǎng)絡(luò),描述性數(shù)據(jù)分析突出預(yù)先抽取數(shù)據(jù)的語義,建立數(shù)據(jù)之間的邏輯,并依靠邏輯推理的方法(如DATALOG)來實(shí)現(xiàn)數(shù)據(jù)分析[84]。

3 發(fā)展趨勢(shì)與展望

3.1 知識(shí)圖譜的系統(tǒng)工程思維

知識(shí)圖譜本身可以看做是一種新型的信息系統(tǒng)基礎(chǔ)設(shè)施。從數(shù)據(jù)維度,知識(shí)圖譜要求用更加規(guī)范的語義來提升企業(yè)數(shù)據(jù)的質(zhì)量,用鏈接數(shù)據(jù)(Linked Data)的思想提升企業(yè)數(shù)據(jù)之間的關(guān)聯(lián)度,終極目標(biāo)是將非結(jié)構(gòu)、無顯示關(guān)聯(lián)的粗糙數(shù)據(jù)逐步萃取提煉為結(jié)構(gòu)化、高度關(guān)聯(lián)的高質(zhì)量知識(shí)。每個(gè)企業(yè)都應(yīng)該將知識(shí)圖譜作為一種面向數(shù)據(jù)的信息系統(tǒng)基礎(chǔ)設(shè)施進(jìn)行持續(xù)性建設(shè)。

從技術(shù)維度,知識(shí)圖譜的構(gòu)建涉及知識(shí)表示、關(guān)系抽取、圖數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)融合、推理補(bǔ)全等多方面的技術(shù),而知識(shí)圖譜的利用涉及語義搜索、知識(shí)問答、自動(dòng)推理、知識(shí)驅(qū)動(dòng)的語言及視覺理解、描述性數(shù)據(jù)分析等多個(gè)方面。要構(gòu)建并利用好知識(shí)圖譜也要求系統(tǒng)性的綜合利用好來自于知識(shí)表示、自然語言處理、機(jī)器學(xué)習(xí)、圖數(shù)據(jù)庫、多媒體處理等多個(gè)相關(guān)領(lǐng)域的技術(shù),而非單個(gè)領(lǐng)域的單一技術(shù)。因此,未來一個(gè)發(fā)展趨勢(shì)是,知識(shí)圖譜的構(gòu)建和利用都應(yīng)注重系統(tǒng)思維。

3.2大規(guī)模的知識(shí)圖譜嵌入與基于表示學(xué)習(xí)的可微分推理

知識(shí)圖譜對(duì)規(guī)模的擴(kuò)展需求使得知識(shí)表示技術(shù)逐漸發(fā)生了多方面的變化:1)從以強(qiáng)邏輯為中心向以按需增強(qiáng)語義表達(dá)能力的變化;2)從較為注重TBox概念型知識(shí)轉(zhuǎn)化為更加注重ABox事實(shí)型知識(shí);3)從以離散的符號(hào)邏輯表示向以連續(xù)的向量空間表示方向發(fā)展。

盡管以連續(xù)向量表示為基礎(chǔ)的知識(shí)圖譜嵌入日益得到重視,但其在實(shí)際應(yīng)用過程中卻仍然面臨較大的困難。這包括:A. 極大規(guī)模的知識(shí)圖譜嵌入的訓(xùn)練及向量化知識(shí)圖譜的存儲(chǔ)計(jì)算問題;B.嵌入過程帶來的信息丟失問題及少樣本數(shù)據(jù)訓(xùn)練不充分的問題。對(duì)于問題A,要求更多的考慮結(jié)合數(shù)據(jù)庫技術(shù)及大數(shù)據(jù)存儲(chǔ)技術(shù)來解決大規(guī)模知識(shí)圖譜帶來的性能問題,而非單一的考慮參數(shù)的規(guī)模。對(duì)于問題B,則需要考慮更多的疊加邏輯規(guī)則和先驗(yàn)知識(shí)來引導(dǎo)知識(shí)圖譜嵌入的訓(xùn)練過程。

另外一個(gè)發(fā)展趨勢(shì)是基于學(xué)習(xí)的可微分推理??晌⒎滞评硗ㄟ^統(tǒng)計(jì)學(xué)習(xí)將推理所依賴的元素參數(shù)化,從而使得推理的過程可微??晌⒎滞评硗ǔP枰瑫r(shí)對(duì)結(jié)構(gòu)和參數(shù)進(jìn)行學(xué)習(xí),因而復(fù)雜度和難度都很高。但一旦實(shí)現(xiàn),其意義是可以實(shí)現(xiàn)從大量數(shù)據(jù)中歸納總結(jié)推理過程,且這些通過大數(shù)據(jù)總結(jié)歸納出的推理過程可以用來產(chǎn)生新的知識(shí)。

3.3少樣本、無監(jiān)督的知識(shí)獲取

知識(shí)圖譜的規(guī)模化構(gòu)建需求對(duì)知識(shí)獲取帶來如下幾個(gè)方面的變化:1)從單一人工獲取到更多的依靠大數(shù)據(jù)和機(jī)器學(xué)習(xí)來實(shí)現(xiàn)自動(dòng)化知識(shí)抽??;2)從單一來源變化為綜合從結(jié)構(gòu)化、半結(jié)構(gòu)化、文本、傳感器等多個(gè)來源,通過多任務(wù)相融合實(shí)現(xiàn)聯(lián)合知識(shí)獲?。?)從依靠少數(shù)專家到依靠互聯(lián)網(wǎng)群體眾包協(xié)同獲取。

大規(guī)模對(duì)自動(dòng)化知識(shí)獲取提出了更高的要求。未來主要發(fā)展趨勢(shì)包括:1) 融合深度學(xué)習(xí)與遠(yuǎn)程監(jiān)督,降低自動(dòng)化抽取對(duì)特征工程和監(jiān)督數(shù)據(jù)的依賴;2)通過強(qiáng)化學(xué)習(xí)降低抽取的的噪音,減少對(duì)標(biāo)注數(shù)據(jù)的依賴;3) 融合多種類型的數(shù)據(jù)通過多任務(wù)學(xué)習(xí)進(jìn)行聯(lián)合知識(shí)抽??;4) 有機(jī)的結(jié)合人工眾包提高知識(shí)抽取的質(zhì)量和加強(qiáng)監(jiān)督信號(hào)。較好的平衡人工和自動(dòng)化抽取,盡可能降低機(jī)器對(duì)標(biāo)注數(shù)據(jù)和特征工程的依賴,并綜合多種來源的知識(shí)進(jìn)行聯(lián)合抽取,特別是發(fā)展少樣本、無監(jiān)督和自監(jiān)督的方法,是未來實(shí)現(xiàn)大規(guī)模知識(shí)獲取的關(guān)鍵因素。

3.4區(qū)塊鏈與去中心化的知識(shí)圖譜

語義網(wǎng)的早期理念實(shí)際上包含三個(gè)方面:知識(shí)的互聯(lián)、去中心化的架構(gòu)和知識(shí)的可信。知識(shí)圖譜在一定程度上實(shí)現(xiàn)了“知識(shí)互聯(lián)”的理念,然而在去中心化的架構(gòu)和知識(shí)可信兩個(gè)方面都仍然沒有較好的解決方案出現(xiàn)。

對(duì)于去中心化,相比起現(xiàn)有的多為集中存儲(chǔ)的知識(shí)圖譜,語義網(wǎng)強(qiáng)調(diào)知識(shí)是以分散的方式互聯(lián)和相互鏈接,知識(shí)的發(fā)布者擁有完整的控制權(quán)。近年來,國(guó)內(nèi)外已經(jīng)有研究機(jī)構(gòu)和企業(yè)開始探索將區(qū)塊鏈技術(shù)去實(shí)現(xiàn)去中心化的知識(shí)互聯(lián)。這包括去中心化的實(shí)體ID管理、基于分布式賬本的術(shù)語及實(shí)體命名管理、基于分布式賬本的知識(shí)溯源、知識(shí)簽名和權(quán)限管理等。

知識(shí)的可信與鑒真也是當(dāng)前很多知識(shí)圖譜項(xiàng)目所面臨的挑戰(zhàn)和問題。由于很多知識(shí)圖譜數(shù)據(jù)來源廣泛,且知識(shí)的可信度量需要作用到實(shí)體和事實(shí)級(jí)別,怎樣有效的對(duì)知識(shí)圖譜中的海量事實(shí)進(jìn)行管理、追蹤和鑒真,也成為區(qū)塊鏈技術(shù)在知識(shí)圖譜領(lǐng)域的一個(gè)重要應(yīng)用方向。

此外,將知識(shí)圖譜引入到智能合約(Smart Contract)中,可以幫助解決目前智能合約內(nèi)生知識(shí)不足的問。例如PCHAIN[148]引入知識(shí)圖譜(Knowledge Graph)Oracle機(jī)制,解決傳統(tǒng)智能合約數(shù)據(jù)不閉環(huán)的問題。

4 結(jié)束語

互聯(lián)網(wǎng)促成了大數(shù)據(jù)的集聚,大數(shù)據(jù)進(jìn)而促進(jìn)了人工智能算法的進(jìn)步。新數(shù)據(jù)和新算法為規(guī)?;R(shí)圖譜構(gòu)建提供了新的技術(shù)基礎(chǔ)和發(fā)展條件,使得知識(shí)圖譜構(gòu)建的來源、方法和技術(shù)手段都發(fā)生極大的變化。知識(shí)圖譜作為知識(shí)的一種形式,已經(jīng)在語義搜索、智能問答、數(shù)據(jù)分析、自然語言理解、視覺理解、物聯(lián)網(wǎng)設(shè)備互聯(lián)等多個(gè)方面發(fā)揮出越來越大的價(jià)值。AI浪潮愈演愈烈,而作為底層支撐的知識(shí)圖譜賽道也從鮮有問津到緩慢升溫,雖然還談不上擁擠,但作為通往未來的必經(jīng)之路,注定會(huì)走上風(fēng)口。

作者簡(jiǎn)介


陳華鈞

浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授,主要研究方向?yàn)橹R(shí)圖譜、自然語言處理、大數(shù)據(jù)與人工智能。中國(guó)中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專業(yè)委員會(huì)副主任、中國(guó)人工智能學(xué)會(huì)知識(shí)工程與分布智能專業(yè)委員會(huì)副主任、CCF術(shù)語工委會(huì)執(zhí)行委員、CCF信息系統(tǒng)專業(yè)委員會(huì)委員等。

王昊奮

上海樂言信息科技有限公司 CTO,主要研究方向?yàn)橹R(shí)圖譜與聊天機(jī)器人,CCF理事,CCF術(shù)語審定工作委員會(huì)主任,CCF信息系統(tǒng)專業(yè)委員會(huì)委員,CCF中文技術(shù)專委委員。

漆桂林

東南大學(xué)教授,主要研究方向人工智能、知識(shí)工程、語義網(wǎng),中國(guó)中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專業(yè)委員會(huì)副主任,CCF會(huì)員。

王鑫

天津大學(xué)、副教授、研究方向:知識(shí)圖譜數(shù)據(jù)管理與機(jī)器學(xué)習(xí)、圖數(shù)據(jù)庫、大數(shù)據(jù)分布式處理、CCF高級(jí)會(huì)員、計(jì)算機(jī)術(shù)語審定工作委員會(huì)執(zhí)行委員、信息系統(tǒng)專委會(huì)委員、數(shù)據(jù)庫專委會(huì)委員,中國(guó)中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專委會(huì)委員。

顧進(jìn)廣

武漢科技大學(xué),教授, 主要研究方向?yàn)檎Z義網(wǎng),分布式計(jì)算,CCF高級(jí)會(huì)員。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    日韩精品免费一区三区| 白白操白白在线免费观看 | 欧美日韩在线第一页日韩| 成年男女午夜久久久精品| 日韩精品一区二区毛片| 亚洲成人久久精品国产| 精品女同一区二区三区| 日韩视频在线观看成人| 午夜福利网午夜福利网| 日系韩系还是欧美久久| 99久久精品午夜一区二区| 欧美成人黄色一区二区三区| 中文人妻精品一区二区三区四区| 日韩中文无线码在线视频| 国产精品成人一区二区在线 | 国产精品午夜性色视频| 99久久人妻精品免费一区| 国产av精品一区二区| 91亚洲国产成人久久精品麻豆| 欧美在线观看视频三区| 国产大屁股喷水在线观看视频 | 欧美日韩国产免费看黄片| 亚洲熟女精品一区二区成人| 日本婷婷色大香蕉视频在线观看 | 九九热最新视频免费观看| 欧美一区日韩一区日韩一区| 中文文精品字幕一区二区| 日韩性生活视频免费在线观看| 青青久久亚洲婷婷中文网| 国产成人精品在线播放| 大尺度剧情国产在线视频| 大香蕉网国产在线观看av| 国产精品欧美日韩中文字幕| 热久久这里只有精品视频| 国产精品欧美激情在线| 日本一品道在线免费观看| 久久福利视频在线观看| 91福利视频日本免费看看| 亚洲av秘片一区二区三区| 国产成人一区二区三区久久| 欧美色婷婷综合狠狠爱|