干貨 | 知識圖譜的技術(shù)與應(yīng)用

leo_qiu的書館 2018-06-14

展開全文

導(dǎo)讀：從一開始的Google搜索，到現(xiàn)在的聊天機(jī)器人、大數(shù)據(jù)風(fēng)控、證券投資、智能醫(yī)療、自適應(yīng)教育、推薦系統(tǒng)，無一不跟知識圖譜相關(guān)。它在技術(shù)領(lǐng)域的熱度也在逐年上升。本文以通俗易懂的方式來講解知識圖譜相關(guān)的知識、尤其對從零開始搭建知識圖譜過程當(dāng)中需要經(jīng)歷的步驟以及每個階段需要考慮的問題都給予了比較詳細(xì)的解釋。對于讀者，我們不要求有任何AI相關(guān)的背景知識。

目錄：

概論
什么是知識圖譜
知識圖譜的表示
知識抽取
知識圖譜的存儲
金融知識圖譜的搭建
定義具體的業(yè)務(wù)問題
數(shù)據(jù)收集 & 預(yù)處理
知識圖譜的設(shè)計
把數(shù)據(jù)存入知識圖譜
上層應(yīng)用的開發(fā)
知識圖譜在其他行業(yè)中的應(yīng)用
實(shí)踐上的幾點(diǎn)建議
結(jié)語

1. 概論

隨著移動互聯(lián)網(wǎng)的發(fā)展，萬物互聯(lián)成為了可能，這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長，而且這些數(shù)據(jù)恰好可以作為分析關(guān)系的有效原料。如果說以往的智能分析專注在每一個個體上，在移動互聯(lián)網(wǎng)時代則除了個體，這種個體之間的關(guān)系也必然成為我們需要深入分析的很重要一部分。在一項(xiàng)任務(wù)中，只要有關(guān)系分析的需求，知識圖譜就“有可能”派的上用場。

2. 什么是知識圖譜？

知識圖譜是由Google公司在2012年提出來的一個新的概念。從學(xué)術(shù)的角度，我們可以對知識圖譜給一個這樣的定義：“知識圖譜本質(zhì)上是語義網(wǎng)絡(luò)（Semantic Network）的知識庫”。但這有點(diǎn)抽象，所以換個角度，從實(shí)際應(yīng)用的角度出發(fā)其實(shí)可以簡單地把知識圖譜理解成多關(guān)系圖（Multi-relational Graph）。

那什么叫多關(guān)系圖呢？學(xué)過數(shù)據(jù)結(jié)構(gòu)的都應(yīng)該知道什么是圖（Graph）。圖是由節(jié)點(diǎn)（Vertex）和邊（Edge）來構(gòu)成，但這些圖通常只包含一種類型的節(jié)點(diǎn)和邊。但相反，多關(guān)系圖一般包含多種類型的節(jié)點(diǎn)和多種類型的邊。比如左下圖表示一個經(jīng)典的圖結(jié)構(gòu)，右邊的圖則表示多關(guān)系圖，因?yàn)閳D里包含了多種類型的節(jié)點(diǎn)和邊。這些類型由不同的顏色來標(biāo)記。

?在知識圖譜里，我們通常用“實(shí)體（Entity）”來表達(dá)圖里的節(jié)點(diǎn)、用“關(guān)系（Relation）”來表達(dá)圖里的“邊”。實(shí)體指的是現(xiàn)實(shí)世界中的事物比如人、地名、概念、藥物、公司等，關(guān)系則用來表達(dá)不同實(shí)體之間的某種聯(lián)系，比如人-“居住在”-北京、張三和李四是“朋友”、邏輯回歸是深度學(xué)習(xí)的“先導(dǎo)知識”等等。

現(xiàn)實(shí)世界中的很多場景非常適合用知識圖譜來表達(dá)。比如一個社交網(wǎng)絡(luò)圖譜里，我們既可以有“人”的實(shí)體，也可以包含“公司”實(shí)體。人和人之間的關(guān)系可以是“朋友”，也可以是“同事”關(guān)系。人和公司之間的關(guān)系可以是“現(xiàn)任職”或者“曾任職”的關(guān)系。類似的，一個風(fēng)控知識圖譜可以包含“電話”、“公司”的實(shí)體，電話和電話之間的關(guān)系可以是“通話”關(guān)系，而且每個公司它也會有固定的電話。

3. 知識圖譜的表示

知識圖譜應(yīng)用的前提是已經(jīng)構(gòu)建好了知識圖譜，也可以把它認(rèn)為是一個知識庫。這也是為什么它可以用來回答一些搜索相關(guān)問題的原因，比如在Google搜索引擎里輸入“Who is the wife of Bill Gates?”，我們直接可以得到答案-“Melinda Gates”。這是因?yàn)槲覀冊谙到y(tǒng)層面上已經(jīng)創(chuàng)建好了一個包含“Bill Gates”和“Melinda Gates”的實(shí)體以及他倆之間關(guān)系的知識庫。所以，當(dāng)我們執(zhí)行搜索的時候，就可以通過關(guān)鍵詞提?。?Bill Gates', 'Melinda Gates', 'wife'）以及知識庫上的匹配可以直接獲得最終的答案。這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的，一個傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁、而不是最終的答案，所以就多了一層用戶自己篩選并過濾信息的過程。

?在現(xiàn)實(shí)世界中，實(shí)體和關(guān)系也會擁有各自的屬性，比如人可以有“姓名”和“年齡”。當(dāng)一個知識圖譜擁有屬性時，我們可以用屬性圖（Property Graph）來表示。下面的圖表示一個簡單的屬性圖。李明和李飛是父子關(guān)系，并且李明擁有一個138開頭的電話號，這個電話號開通時間是2018年，其中2018年就可以作為關(guān)系的屬性。類似的，李明本人也帶有一些屬性值比如年齡為25歲、職位是總經(jīng)理等。

?這種屬性圖的表達(dá)很貼近現(xiàn)實(shí)生活中的場景，也可以很好地描述業(yè)務(wù)中所包含的邏輯。除了屬性圖，知識圖譜也可以用RDF來表示，它是由很多的三元組（Triples）來組成。RDF在設(shè)計上的主要特點(diǎn)是易于發(fā)布和分享數(shù)據(jù)，但不支持實(shí)體或關(guān)系擁有屬性，如果非要加上屬性，則在設(shè)計上需要做一些修改。目前來看，RDF主要還是用于學(xué)術(shù)的場景，在工業(yè)界我們更多的還是采用圖數(shù)據(jù)庫（比如用來存儲屬性圖）的方式。感興趣的讀者可以參考RDF的相關(guān)文獻(xiàn)，在文本里不多做解釋。

4. 知識抽取

知識圖譜的構(gòu)建是后續(xù)應(yīng)用的基礎(chǔ)，而且構(gòu)建的前提是需要把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來。對于垂直領(lǐng)域的知識圖譜來說，它們的數(shù)據(jù)源主要來自兩種渠道：一種是業(yè)務(wù)本身的數(shù)據(jù)，這部分?jǐn)?shù)據(jù)通常包含在公司內(nèi)的數(shù)據(jù)庫表并以結(jié)構(gòu)化的方式存儲；另一種是網(wǎng)絡(luò)上公開、抓取的數(shù)據(jù)，這些數(shù)據(jù)通常是以網(wǎng)頁的形式存在所以是非結(jié)構(gòu)化的數(shù)據(jù)。

前者一般只需要簡單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入，但后者一般需要借助于自然語言處理等技術(shù)來提取出結(jié)構(gòu)化信息。比如在上面的搜索例子里，Bill Gates和Malinda Gate的關(guān)系就可以從非結(jié)構(gòu)化數(shù)據(jù)中提煉出來，比如維基百科等數(shù)據(jù)源。

信息抽取的難點(diǎn)在于處理非結(jié)構(gòu)化數(shù)據(jù)。在下面的圖中，我們給出了一個實(shí)例。左邊是一段非結(jié)構(gòu)化的英文文本，右邊是從這些文本中抽取出來的實(shí)體和關(guān)系。在構(gòu)建類似的圖譜過程當(dāng)中，主要涉及以下幾個方面的自然語言處理技術(shù)：

a. 實(shí)體命名識別（Name Entity Recognition）
b. 關(guān)系抽?。≧elation Extraction）
c. 實(shí)體統(tǒng)一（Entity Resolution）
d. 指代消解（Coreference Resolution）

下面針對每一項(xiàng)技術(shù)解決的問題做簡單的描述，以至于這些是具體怎么實(shí)現(xiàn)的，不在這里一一展開，感興趣的讀者可以查閱相關(guān)資料，或者學(xué)習(xí)我的課程。

?首先是實(shí)體命名識別，就是從文本里提取出實(shí)體并對每個實(shí)體做分類/打標(biāo)簽：比如從上述文本里，我們可以提取出實(shí)體-“NYC”，并標(biāo)記實(shí)體類型為 “Location”；我們也可以從中提取出“Virgil's BBQ”，并標(biāo)記實(shí)體類型為“Restarant”。這種過程稱之為實(shí)體命名識別，這是一項(xiàng)相對比較成熟的技術(shù)，有一些現(xiàn)成的工具可以用來做這件事情。其次，我們可以通過關(guān)系抽取技術(shù)，把實(shí)體間的關(guān)系從文本中提取出來，比如實(shí)體“hotel”和“Hilton property”之間的關(guān)系為“in”；“hotel”和“Time Square”的關(guān)系為“near”等等。

?另外，在實(shí)體命名識別和關(guān)系抽取過程中，有兩個比較棘手的問題：一個是實(shí)體統(tǒng)一，也就是說有些實(shí)體寫法上不一樣，但其實(shí)是指向同一個實(shí)體。比如“NYC”和“New York”表面上是不同的字符串，但其實(shí)指的都是紐約這個城市，需要合并。實(shí)體統(tǒng)一不僅可以減少實(shí)體的種類，也可以降低圖譜的稀疏性（Sparsity）；另一個問題是指代消解，也是文本中出現(xiàn)的“it”, “he”, “she”這些詞到底指向哪個實(shí)體，比如在本文里兩個被標(biāo)記出來的“it”都指向“hotel”這個實(shí)體。

實(shí)體統(tǒng)一和指代消解問題相對于前兩個問題更具有挑戰(zhàn)性。

5. 知識圖譜的存儲

知識圖譜主要有兩種存儲方式：一種是基于RDF的存儲；另一種是基于圖數(shù)據(jù)庫的存儲。它們之間的區(qū)別如下圖所示。RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享，圖數(shù)據(jù)庫則把重點(diǎn)放在了高效的圖查詢和搜索上。其次，RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息，但圖數(shù)據(jù)庫一般以屬性圖為基本的表示形式，所以實(shí)體和關(guān)系可以包含屬性，這就意味著更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場景。

?根據(jù)最新的統(tǒng)計（2018年上半年），圖數(shù)據(jù)庫仍然是增長最快的存儲系統(tǒng)。相反，關(guān)系型數(shù)據(jù)庫的增長基本保持在一個穩(wěn)定的水平。同時，我們也列出了常用的圖數(shù)據(jù)庫系統(tǒng)以及他們最新使用情況的排名。其中Neo4j系統(tǒng)目前仍是使用率最高的圖數(shù)據(jù)庫，它擁有活躍的社區(qū)，而且系統(tǒng)本身的查詢效率高，但唯一的不足就是不支持準(zhǔn)分布式。相反，OrientDB和JanusGraph（原Titan）支持分布式，但這些系統(tǒng)相對較新，社區(qū)不如Neo4j活躍，這也就意味著使用過程當(dāng)中不可避免地會遇到一些刺手的問題。如果選擇使用RDF的存儲系統(tǒng)，Jena或許一個比較不錯的選擇。

6. 金融知識圖譜的搭建

接下來我們看一個實(shí)際的具體案例，講解怎么一步步搭建可落地的金融風(fēng)控領(lǐng)域的知識圖譜系統(tǒng)。首先需要說明的一點(diǎn)是，有可能不少人認(rèn)為搭建一個知識圖譜系統(tǒng)的重點(diǎn)在于算法和開發(fā)。但事實(shí)并不是想象中的那樣，其實(shí)最重要的核心在于對業(yè)務(wù)的理解以及對知識圖譜本身的設(shè)計，這就類似于對于一個業(yè)務(wù)系統(tǒng)，數(shù)據(jù)庫表的設(shè)計尤其關(guān)鍵，而且這種設(shè)計絕對離不開對業(yè)務(wù)的深入理解以及對未來業(yè)務(wù)場景變化的預(yù)估。當(dāng)然，在這里我們先不討論數(shù)據(jù)的重要性。

一個完整的知識圖譜的構(gòu)建包含以下幾個步驟：1. 定義具體的業(yè)務(wù)問題 2. 數(shù)據(jù)的收集 & 預(yù)處理 3. 知識圖譜的設(shè)計 4. 把數(shù)據(jù)存入知識圖譜 5. 上層應(yīng)用的開發(fā)，以及系統(tǒng)的評估。下面我們就按照這個流程來講一下每個步驟所需要做的事情以及需要思考的問題。

6.1 定義具體的業(yè)務(wù)問題

在P2P網(wǎng)貸環(huán)境下，最核心的問題是風(fēng)控，也就是怎么去評估一個借款人的風(fēng)險。在線上的環(huán)境下，欺詐風(fēng)險尤其為嚴(yán)重，而且很多這種風(fēng)險隱藏在復(fù)雜的關(guān)系網(wǎng)絡(luò)之中，而且知識圖譜正好是為這類問題所設(shè)計的，所以我們“有可能”期待它能在欺詐，這個問題上帶來一些價值。

在進(jìn)入下一個話題的討論之前，要明確的一點(diǎn)是，對于自身的業(yè)務(wù)問題到底需不需要知識圖譜系統(tǒng)的支持。因?yàn)樵诤芏嗟膶?shí)際場景，即使對關(guān)系的分析有一定的需求，實(shí)際上也可以利用傳統(tǒng)數(shù)據(jù)庫來完成分析的。所以為了避免使用知識圖譜而選擇知識圖譜，以及更好的技術(shù)選型，以下給出了幾點(diǎn)總結(jié)，供參考。

6.2 數(shù)據(jù)收集 & 預(yù)處理

下一步就是要確定數(shù)據(jù)源以及做必要的數(shù)據(jù)預(yù)處理。針對于數(shù)據(jù)源，我們需要考慮以下幾點(diǎn)：1. 我們已經(jīng)有哪些數(shù)據(jù)？ 2. 雖然現(xiàn)在沒有，但有可能拿到哪些數(shù)據(jù)？ 3. 其中哪部分?jǐn)?shù)據(jù)可以用來降低風(fēng)險？ 4. 哪部分?jǐn)?shù)據(jù)可以用來構(gòu)建知識圖譜？在這里需要說明的一點(diǎn)是，并不是所有跟反欺詐相關(guān)的數(shù)據(jù)都必須要進(jìn)入知識圖譜，對于這部分的一些決策原則在接下來的部分會有比較詳細(xì)的介紹。

對于反欺詐，有幾個數(shù)據(jù)源是我們很容易想得到的，包括用戶的基本信息、行為數(shù)據(jù)、運(yùn)營商數(shù)據(jù)、網(wǎng)絡(luò)上的公開信息等等。假設(shè)我們已經(jīng)有了一個數(shù)據(jù)源的列表清單，則下一步就要看哪些數(shù)據(jù)需要進(jìn)一步的處理，比如對于非結(jié)構(gòu)化數(shù)據(jù)我們或多或少都需要用到跟自然語言處理相關(guān)的技術(shù)。用戶填寫的基本信息基本上會存儲在業(yè)務(wù)表里，除了個別字段需要進(jìn)一步處理，很多字段則直接可以用于建?；蛘咛砑拥街R圖譜系統(tǒng)里。對于行為數(shù)據(jù)來說，我們則需要通過一些簡單的處理，并從中提取有效的信息比如“用戶在某個頁面停留時長”等等。對于網(wǎng)絡(luò)上公開的網(wǎng)頁數(shù)據(jù)，則需要一些信息抽取相關(guān)的技術(shù)。

舉個例子，對于用戶的基本信息，我們很可能需要如下的操作。一方面，用戶信息比如姓名、年齡、學(xué)歷等字段可以直接從結(jié)構(gòu)化數(shù)據(jù)庫中提取并使用。但另一方面，對于填寫的公司名來說，我們有可能需要做進(jìn)一步的處理。比如部分用戶填寫“北京貪心科技有限公司”，另外一部分用戶填寫“北京望京貪心科技有限公司”，其實(shí)指向的都是同一家公司。所以，這時候我們需要做公司名的對齊，用到的技術(shù)細(xì)節(jié)可以參考前面講到的實(shí)體對齊技術(shù)。?

6.3 知識圖譜的設(shè)計

圖譜的設(shè)計是一門藝術(shù)，不僅要對業(yè)務(wù)有很深的理解、也需要對未來業(yè)務(wù)可能的變化有一定預(yù)估，從而設(shè)計出最貼近現(xiàn)狀并且性能高效的系統(tǒng)。在知識圖譜設(shè)計的問題上，我們肯定會面臨以下幾個常見的問題：1. 需要哪些實(shí)體、關(guān)系和屬性？ 2. 哪些屬性可以做為實(shí)體，哪些實(shí)體可以作為屬性？ 3. 哪些信息不需要放在知識圖譜中？

基于這些常見的問題，我們從以往的設(shè)計經(jīng)驗(yàn)中抽象出了一系列的設(shè)計原則。這些設(shè)計原則就類似于傳統(tǒng)數(shù)據(jù)庫設(shè)計中的范式，來引導(dǎo)相關(guān)人員設(shè)計出更合理的知識圖譜系統(tǒng)，同時保證系統(tǒng)的高效性。

接下來，我們舉幾個簡單的例子來說明其中的一些原則。首先是，業(yè)務(wù)原則（Business Principle），它的含義是 “一切要從業(yè)務(wù)邏輯出發(fā)，并且通過觀察知識圖譜的設(shè)計也很容易推測其背后業(yè)務(wù)的邏輯，而且設(shè)計時也要想好未來業(yè)務(wù)可能的變化”。

舉個例子，可以觀察一下下面這個圖譜，并試問自己背后的業(yè)務(wù)邏輯是什么。通過一番觀察，其實(shí)也很難看出到底業(yè)務(wù)流程是什么樣的。做個簡單的解釋，這里的實(shí)體-“申請”意思就是application，如果對這個領(lǐng)域有所了解，其實(shí)就是進(jìn)件實(shí)體。在下面的圖中，申請和電話實(shí)體之間的“has_phone”，“parent phone”是什么意思呢？

?接下來再看一下下面的圖，跟之前的區(qū)別在于我們把申請人從原有的屬性中抽取出來并設(shè)置成了一個單獨(dú)的實(shí)體。在這種情況下，整個業(yè)務(wù)邏輯就變得很清晰，我們很容易看出張三申請了兩個貸款，而且張三擁有兩個手機(jī)號，在申請其中一個貸款的時候他填寫了父母的電話號。總而言之，一個好的設(shè)計很容易讓人看到業(yè)務(wù)本身的邏輯。

?接下來再看一個原則叫做效率原則（Efficiency Principle）。 效率原則讓知識圖譜盡量輕量化、并決定哪些數(shù)據(jù)放在知識圖譜，哪些數(shù)據(jù)不需要放在知識圖譜。在這里舉一個簡單的類比，在經(jīng)典的計算機(jī)存儲系統(tǒng)中，我們經(jīng)常會談?wù)摰絻?nèi)存和硬盤，內(nèi)存作為高效的訪問載體，作為所有程序運(yùn)行的關(guān)鍵。這種存儲上的層次結(jié)構(gòu)設(shè)計源于數(shù)據(jù)的局部性-“l(fā)ocality”，也就是說經(jīng)常被訪問到的數(shù)據(jù)集中在某一個區(qū)塊上，所以這部分?jǐn)?shù)據(jù)可以放到內(nèi)存中來提升訪問的效率。類似的邏輯也可以應(yīng)用到知識圖譜的設(shè)計上：我們把常用的信息存放在知識圖譜中，把那些訪問頻率不高，對關(guān)系分析無關(guān)緊要的信息放在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫當(dāng)中。 效率原則的核心在于把知識圖譜設(shè)計成小而輕的存儲載體。

比如在下面的知識圖譜中，我們完全可以把一些信息比如“年齡”，“家鄉(xiāng)”放到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫當(dāng)中，因?yàn)檫@些數(shù)據(jù)對于：a. 分析關(guān)系來說沒有太多作用 b. 訪問頻率低，放在知識圖譜上反而影響效率

另外，從分析原則（Analytics Principle）的角度，我們不需要把跟關(guān)系分析無關(guān)的實(shí)體放在圖譜當(dāng)中；從冗余原則（Redundancy Principle）的角度，有些重復(fù)性信息、高頻信息可以放到傳統(tǒng)數(shù)據(jù)庫當(dāng)中。

6.4 把數(shù)據(jù)存入知識圖譜

存儲上我們要面臨存儲系統(tǒng)的選擇，但由于我們設(shè)計的知識圖譜帶有屬性，圖數(shù)據(jù)庫可以作為首選。但至于選擇哪個圖數(shù)據(jù)庫也要看業(yè)務(wù)量以及對效率的要求。如果數(shù)據(jù)量特別龐大，則Neo4j很可能滿足不了業(yè)務(wù)的需求，這時候不得不去選擇支持準(zhǔn)分布式的系統(tǒng)比如OrientDB, JanusGraph等，或者通過效率、冗余原則把信息存放在傳統(tǒng)數(shù)據(jù)庫中，從而減少知識圖譜所承載的信息量。通常來講，對于10億節(jié)點(diǎn)以下規(guī)模的圖譜來說Neo4j已經(jīng)足夠了。

6.5 上層應(yīng)用的開發(fā)

等我們構(gòu)建好知識圖譜之后，接下來就要使用它來解決具體的問題。對于風(fēng)控知識圖譜來說，首要任務(wù)就是挖掘關(guān)系網(wǎng)絡(luò)中隱藏的欺詐風(fēng)險。從算法的角度來講，有兩種不同的場景：一種是基于規(guī)則的；另一種是基于概率的。鑒于目前AI技術(shù)的現(xiàn)狀，基于規(guī)則的方法論還是在垂直領(lǐng)域的應(yīng)用中占據(jù)主導(dǎo)地位，但隨著數(shù)據(jù)量的增加以及方法論的提升，基于概率的模型也將會逐步帶來更大的價值。

6.5.1 基于規(guī)則的方法論

首先，我們來看幾個基于規(guī)則的應(yīng)用，分別是不一致性驗(yàn)證、基于規(guī)則的特征提取、基于模式的判斷。

不一致性驗(yàn)證

為了判斷關(guān)系網(wǎng)絡(luò)中存在的風(fēng)險，一種簡單的方法就是做不一致性驗(yàn)證，也就是通過一些規(guī)則去找出潛在的矛盾點(diǎn)。這些規(guī)則是以人為的方式提前定義好的，所以在設(shè)計規(guī)則這個事情上需要一些業(yè)務(wù)的知識。比如在下面的這個圖中，李明和李飛兩個人都注明了同樣的公司電話，但實(shí)際上從數(shù)據(jù)庫中判斷這倆人其實(shí)在不同的公司上班，這就是一個矛盾點(diǎn)。類似的規(guī)則其實(shí)可以有很多，不在這里一一列出。

基于規(guī)則提取特征

我們也可以基于規(guī)則從知識圖譜中提取一些特征，而且這些特征一般基于深度的搜索比如2度，3度甚至更高維度。比如我們可以問一個這樣的問題：“申請人二度關(guān)系里有多少個實(shí)體觸碰了黑名單？”，從圖中我們很容觀察到二度關(guān)系中有兩個實(shí)體觸碰了黑名單（黑名單由紅色來標(biāo)記）。等這些特征被提取之后，一般可以作為風(fēng)險模型的輸入。在此還是想說明一點(diǎn)，如果特征并不涉及深度的關(guān)系，其實(shí)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫則足以滿足需求。

基于模式的判斷

這種方法比較適用于找出團(tuán)體欺詐，它的核心在于通過一些模式來找到有可能存在風(fēng)險的團(tuán)體或者子圖（sub-graph），然后對這部分子圖做進(jìn)一步的分析。這種模式有很多種，在這里舉幾個簡單的例子。比如在下圖中，三個實(shí)體共享了很多其他的信息，我們可以看做是一個團(tuán)體，并對其做進(jìn)一步的分析。

?再比如，我們也可以從知識圖譜中找出強(qiáng)連通圖，并把它標(biāo)記出來，然后做進(jìn)一步風(fēng)險分析。強(qiáng)連通圖意味著每一個節(jié)點(diǎn)都可以通過某種路徑達(dá)到其他的點(diǎn)，也就說明這些節(jié)點(diǎn)之間有很強(qiáng)的關(guān)系。

6.5.2 基于概率的方法

除了基于規(guī)則的方法，也可以使用概率統(tǒng)計的方法。比如社區(qū)挖掘、標(biāo)簽傳播、聚類等技術(shù)都屬于這個范疇。對于這類技術(shù)，在本文里不做詳細(xì)的講解，感興趣的讀者可以參考相關(guān)文獻(xiàn)。

社區(qū)挖掘算法的目的在于從圖中找出一些社區(qū)。對于社區(qū)，我們可以有多種定義，但直觀上可以理解為社區(qū)內(nèi)節(jié)點(diǎn)之間關(guān)系的密度要明顯大于社區(qū)之間的關(guān)系密度。下面的圖表示社區(qū)發(fā)現(xiàn)之后的結(jié)果，圖中總共標(biāo)記了三個不同的社區(qū)。一旦我們得到這些社區(qū)之后，就可以做進(jìn)一步的風(fēng)險分析。

由于社區(qū)挖掘是基于概率的方法論，好處在于不需要人為地去定義規(guī)則，特別是對于一個龐大的關(guān)系網(wǎng)絡(luò)來說，定義規(guī)則這事情本身是一件很復(fù)雜的事情。

?標(biāo)簽傳播算法的核心思想在于節(jié)點(diǎn)之間信息的傳遞。這就類似于，跟優(yōu)秀的人在一起自己也會逐漸地變優(yōu)秀是一個道理。因?yàn)橥ㄟ^這種關(guān)系會不斷地吸取高質(zhì)量的信息，最后使得自己也會不知不覺中變得更加優(yōu)秀。具體細(xì)節(jié)不在這里做更多解釋。

相比規(guī)則的方法論，基于概率的方法的缺點(diǎn)在于：需要足夠多的數(shù)據(jù)。如果數(shù)據(jù)量很少，而且整個圖譜比較稀疏（Sparse），基于規(guī)則的方法可以成為我們的首選。尤其是對于金融領(lǐng)域來說，數(shù)據(jù)標(biāo)簽會比較少，這也是為什么基于規(guī)則的方法論還是更普遍地應(yīng)用在金融領(lǐng)域中的主要原因。

6.5.3 基于動態(tài)網(wǎng)絡(luò)的分析

以上所有的分析都是基于靜態(tài)的關(guān)系圖譜。所謂的靜態(tài)關(guān)系圖譜，意味著我們不考慮圖譜結(jié)構(gòu)本身隨時間的變化，只是聚焦在當(dāng)前知識圖譜結(jié)構(gòu)上。然而，我們也知道圖譜的結(jié)構(gòu)是隨時間變化的，而且這些變化本身也可以跟風(fēng)險有所關(guān)聯(lián)。

在下面的圖中，我們給出了一個知識圖譜T時刻和T+1時刻的結(jié)構(gòu)，我們很容易看出在這兩個時刻中間，圖譜結(jié)構(gòu)（或者部分結(jié)構(gòu)）發(fā)生了很明顯的變化，這其實(shí)暗示著潛在的風(fēng)險。那怎么去判斷這些結(jié)構(gòu)上的變化呢？感興趣的讀者可以查閱跟“dynamic network mining”相關(guān)的文獻(xiàn)。

7. 知識圖譜在其他行業(yè)中的應(yīng)用

除了金融領(lǐng)域，知識圖譜的應(yīng)用可以涉及到很多其他的行業(yè)，包括醫(yī)療、教育、證券投資、推薦等等。其實(shí)，只要有關(guān)系存在，則有知識圖譜可發(fā)揮價值的地方。在這里簡單舉幾個垂直行業(yè)中的應(yīng)用。

比如對于教育行業(yè)，我們經(jīng)常談?wù)搨€性化教育、因材施教的理念。其核心在于理解學(xué)生當(dāng)前的知識體系，而且這種知識體系依賴于我們所獲取到的數(shù)據(jù)比如交互數(shù)據(jù)、評測數(shù)據(jù)、互動數(shù)據(jù)等等。為了分析學(xué)習(xí)路徑以及知識結(jié)構(gòu)，我們則需要針對于一個領(lǐng)域的概念知識圖譜，簡單來講就是概念拓?fù)浣Y(jié)構(gòu)。在下面的圖中，我們給出了一個非常簡單的概念圖譜：比如為了學(xué)習(xí)邏輯回歸則需要先理解線性回歸；為了學(xué)習(xí)CNN，得對神經(jīng)網(wǎng)絡(luò)有所理解等等。所有對學(xué)生的評測、互動分析都離不開概念圖譜這個底層的數(shù)據(jù)。

?在證券領(lǐng)域，我們經(jīng)常會關(guān)心比如“一個事件發(fā)生了，對哪些公司產(chǎn)生什么樣的影響？” 比如有一個負(fù)面消息是關(guān)于公司1的高管，而且我們知道公司1和公司2有種很密切的合作關(guān)系，公司2有個主營產(chǎn)品是由公司3提供的原料基礎(chǔ)上做出來的。

其實(shí)有了這樣的一個知識圖譜，我們很容易回答哪些公司有可能會被這次的負(fù)面事件所影響。當(dāng)然，僅僅是“有可能”，具體會不會有強(qiáng)相關(guān)性必須由數(shù)據(jù)來驗(yàn)證。所以在這里，知識圖譜的好處就是把我們所需要關(guān)注的范圍很快給我們?nèi)Χā＝酉聛淼膯栴}會更復(fù)雜一些，比如既然我們知道公司3有可能被這次事件所影響，那具體影響程度有多大？對于這個問題，光靠知識圖譜是很難回答的，必須要有一個影響模型、以及需要一些歷史數(shù)據(jù)才能在知識圖譜中做進(jìn)一步推理以及計算。

8. 實(shí)踐上的幾點(diǎn)建議

首先，知識圖譜是一個比較新的工具，它的主要作用還是在于分析關(guān)系，尤其是深度的關(guān)系。所以在業(yè)務(wù)上，首先要確保它的必要性，其實(shí)很多問題可以用非知識圖譜的方式來解決。

知識圖譜領(lǐng)域一個最重要的話題是知識的推理。而且知識的推理是走向強(qiáng)人工智能的必經(jīng)之路。但很遺憾的，目前很多語義網(wǎng)絡(luò)的角度討論的推理技術(shù)（比如基于深度學(xué)習(xí)，概率統(tǒng)計）很難在實(shí)際的垂直應(yīng)用中落地。其實(shí)目前最有效的方式還是基于一些規(guī)則的方法論，除非我們有非常龐大的數(shù)據(jù)集。

最后，還是要強(qiáng)調(diào)一點(diǎn)，知識圖譜工程本身還是業(yè)務(wù)為重心，以數(shù)據(jù)為中心。不要低估業(yè)務(wù)和數(shù)據(jù)的重要性。

9. 結(jié)語

知識圖譜是一個既充滿挑戰(zhàn)而且非常有趣的領(lǐng)域。只要有正確的應(yīng)用場景，對于知識圖譜所能發(fā)揮的價值還是可以期待的。我相信在未來不到2，3年時間里，知識圖譜技術(shù)會普及到各個領(lǐng)域當(dāng)中。

很多細(xì)節(jié)性的內(nèi)容很難在一篇文章里面面俱到、如果想對知識圖譜領(lǐng)域有更全面的了解，并且快速開發(fā)出一款可落地的知識圖譜產(chǎn)品，可以參考我近期推出的《知識圖譜技術(shù)與應(yīng)用》課程。在課程里，我會詳細(xì)地給大家介紹怎么從零開始一步步搭建完整的知識圖譜系統(tǒng)，并把每一個細(xì)節(jié)中遇到的問題以及坑給大家講解。

課程匯集了多年在知識圖譜一線的實(shí)踐經(jīng)驗(yàn)，可以幫助學(xué)員快速地對知識圖譜入門。不管是研發(fā)、工程師、產(chǎn)品經(jīng)理還是其他崗位的人或者學(xué)生，通過本課程的學(xué)習(xí)都會對工業(yè)界的知識圖譜實(shí)踐有更清晰的認(rèn)識，并且通過一些小的實(shí)踐作業(yè)讓學(xué)員對知識圖譜的構(gòu)建有跟更深入的理解。本課程不需要任何AI背景。

本課程包含：完整案例的講解、簡單的實(shí)戰(zhàn)練習(xí)、作業(yè)、過程中所涉及到的算法以及實(shí)現(xiàn)等。不包含：語義網(wǎng)絡(luò)相關(guān)的理論、RDF、以及Spark, Hadoop等大數(shù)據(jù)平臺技術(shù)。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： leo_qiu的書館 > 《待分類》

舉報/認(rèn)領(lǐng)