目錄
【說在前面】本人博客新手一枚,象牙塔的老白,職業(yè)場的小白。以下內(nèi)容僅為個(gè)人見解,歡迎批評指正,不喜勿噴![認(rèn)真看圖][認(rèn)真看圖] 【補(bǔ)充說明】如果你對知識圖譜感興趣,歡迎先瀏覽我的另一篇隨筆:基于圖模型的智能推薦算法學(xué)習(xí)筆記 一、知識圖譜的機(jī)遇與挑戰(zhàn)分享一下肖仰華教授的報(bào)告。報(bào)告深度剖析知識圖譜的發(fā)展進(jìn)程,系統(tǒng)整理知識圖譜上半場的主要成果,分析知識圖譜下半場的挑戰(zhàn)與機(jī)遇,以期為各行業(yè)的認(rèn)知智能實(shí)踐帶來有益的參考。 ▌知識圖譜上半場1. 傳統(tǒng)知識工程2. 大數(shù)據(jù)知識工程 ① 大規(guī)模簡單知識表示 ② 知識獲取 ③ 基于知識圖譜的簡單推理 3. 大數(shù)據(jù)知識工程到底解決了哪些問題? ① 語言表達(dá)鴻溝 ② 缺失的因果鏈條 ③ 碎片化數(shù)據(jù)的關(guān)聯(lián)與融合 ④ 深化行業(yè)數(shù)據(jù)的理解與洞察 ⑤ 顯著提升了機(jī)器的自然語言理解水平 ⑥ 基于知識圖譜的大規(guī)模知識服務(wù) ⑦ 知識圖譜可視化已大量應(yīng)用 ⑧ 大數(shù)據(jù)知識工程理論體系日趨完善 ▌知識圖譜下半場1. 應(yīng)用場景轉(zhuǎn)變 2. 新的趨勢 ① 繁雜的應(yīng)用場景 ② 深度的知識應(yīng)用 ③ 密集的專家知識 ④ 有限的數(shù)據(jù)資源 3. 機(jī)遇 4. 應(yīng)對策略 知識表示方面: ① 與其他知識表示的協(xié)同表示與推理 ② 知識圖譜的多模態(tài)表示 ③ 知識圖譜的個(gè)性化表示 知識獲取方面: ① 發(fā)展低成本知識獲取方法 ② 注重多粒度知識獲取 ③ 發(fā)展大規(guī)模常識知識獲取 ④ 復(fù)雜知識獲取機(jī)制與方法 知識應(yīng)用方面: ① 知識圖譜應(yīng)用透明化 ② 基于知識圖譜的可解釋人工智能 ③ 發(fā)展符號知識指導(dǎo)下的機(jī)器學(xué)習(xí)模型 ▌總結(jié) 二、行業(yè)知識圖譜的構(gòu)建與應(yīng)用 分享一下PlantData的文章:行業(yè)知識圖譜構(gòu)建與應(yīng)用。 1. 知識圖譜整體結(jié)構(gòu)描述知識圖譜結(jié)構(gòu)拓?fù)鋱D如圖所示: 企業(yè)全量數(shù)據(jù)應(yīng)用挑戰(zhàn)及應(yīng)對策略: (1)多源異構(gòu)數(shù)據(jù)難以融合 使用知識圖譜(本體)對各類數(shù)據(jù)建模,基于可動(dòng)態(tài)變化的數(shù)據(jù)模型(概念-實(shí)體-屬性-關(guān)系),實(shí)現(xiàn)統(tǒng)一建模。 (2)數(shù)據(jù)模式動(dòng)態(tài)變遷困難 使用可支持?jǐn)?shù)據(jù)模式動(dòng)態(tài)變化的知識圖譜的數(shù)據(jù)存儲。 (3)非結(jié)構(gòu)化數(shù)據(jù)計(jì)算機(jī)難以理解 利用信息抽取技術(shù)。 (4)數(shù)據(jù)使用專業(yè)程度過高 (5)分散的數(shù)據(jù)難以統(tǒng)一消費(fèi)利用 在知識融合的基礎(chǔ)上,基于語義檢索、知識問答、圖計(jì)算、推理、可視化等技術(shù),提供數(shù)據(jù)檢索/分析/利用,統(tǒng)一平臺。 2. 知識建模 (1)以實(shí)體為主體目標(biāo),實(shí)現(xiàn)對不同來源的數(shù)據(jù)進(jìn)行映射與合并。(實(shí)體抽取與合并) (2)利用屬性來表示不同數(shù)據(jù)源中針對實(shí)體的描述,形成對實(shí)體的全方位描述。(屬性映射與歸并) (3)利用關(guān)系來描述各類抽象建模成實(shí)體的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從而支持關(guān)聯(lián)分析。(關(guān)系抽取) (4)通過實(shí)體鏈接技術(shù),實(shí)現(xiàn)圍繞實(shí)體的多種類型數(shù)據(jù)的關(guān)聯(lián)存儲。(實(shí)體鏈接) (5)使用事件機(jī)制描述客觀世界中動(dòng)態(tài)發(fā)展,體現(xiàn)事件與實(shí)體間的關(guān)聯(lián);并利用時(shí)序描述事件的發(fā)展?fàn)顩r。(動(dòng)態(tài)事件描述) 知識建模工具:Protégé(本體編輯器,較局限) 3. 知識抽取知識抽取的主要策略如圖所示(針對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理方式不同): 知識抽取中的文本信息抽取,主要包括:實(shí)體識別、關(guān)系抽取、事件抽取、概念抽取。信息抽取主要有兩大類工具:
非結(jié)構(gòu)化文本數(shù)據(jù)的處理包括以下步驟:
其中,事件抽取可以分為預(yù)定義事件抽取和開放域事件抽取,行業(yè)知識圖譜中主要為預(yù)定義事件抽取。采用模式匹配方法,包括三個(gè)步驟:
還有基于機(jī)器學(xué)習(xí)模型的抽?。篠VM、邏輯回歸、CRF、LSTM等: 補(bǔ)充說明,關(guān)于知識表示,歡迎先瀏覽我的另一篇隨筆:基于圖模型的智能推薦算法學(xué)習(xí)筆記,這里不再贅述。
(1)數(shù)據(jù)層融合:實(shí)體鏈接技術(shù) 即等同性判斷:給定不同數(shù)據(jù)源中的實(shí)體,判斷其是否指向同一個(gè)真實(shí)世界實(shí)體(實(shí)體屬性與關(guān)系的合并)。
實(shí)體鏈接工具:Wikipedia Miner、DBpedia Spotlight等,大部分都是針對百科類的知識庫工作的,基本不支持中文的處理。 (2)語義描述層融合:Schema Mapping
當(dāng)然還有一些別的需要考慮,例如多源知識融合、沖突檢測與解決、跨語言融合、知識驗(yàn)證等。 例如,通過人機(jī)交互接口對錯(cuò)誤信息進(jìn)行人工糾正,并以此作為種子案例,通過強(qiáng)化學(xué)習(xí)加強(qiáng)模型的識別精度和魯棒性。 5. 知識存儲知識圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),其存儲方式主要有兩種方式:RDF存儲和圖數(shù)據(jù)庫。
下面展示各大圖數(shù)據(jù)庫的對比: 6. 知識計(jì)算 (1)基于圖論的相關(guān)算法:
(2)本體推理:使用本體推理進(jìn)行新知識發(fā)現(xiàn)或沖突檢測。
本體知識推理工具:RDFox。 (3)基于規(guī)則的推理:使用規(guī)則引擎,編寫相應(yīng)的業(yè)務(wù)規(guī)則,通過推理輔助業(yè)務(wù)決策。
基于規(guī)則推理工具:Drools 規(guī)則定義。 7. 知識應(yīng)用智能問答(基于語義解析的方法 基于信息檢索的方法)、語義搜索(基于實(shí)體鏈接)、可視化決策支持(D3.js、ECharts)等。 舉例金融業(yè)的基于知識圖譜的風(fēng)險(xiǎn)管理:
可構(gòu)建的圖譜:例如公司圖譜、產(chǎn)品圖譜、?物圖譜、智能預(yù)警等。在行業(yè)應(yīng)用中使用知識圖譜,大致有如下幾種方式:
如果您對異常檢測感興趣,歡迎瀏覽我的另一篇博客:異常檢測算法演變及學(xué)習(xí)筆記 如果您對智能推薦感興趣,歡迎瀏覽我的另一篇博客:智能推薦算法演變及學(xué)習(xí)筆記 、CTR預(yù)估模型演變及學(xué)習(xí)筆記 如果您對時(shí)間序列分析感興趣,歡迎瀏覽我的另一篇博客:時(shí)間序列分析中預(yù)測類問題下的建模方案 、深度學(xué)習(xí)中的序列模型演變及學(xué)習(xí)筆記 如果您對數(shù)據(jù)挖掘感興趣,歡迎瀏覽我的另一篇博客:數(shù)據(jù)挖掘比賽/項(xiàng)目全流程介紹 、機(jī)器學(xué)習(xí)中的聚類算法演變及學(xué)習(xí)筆記 如果您對人工智能算法感興趣,歡迎瀏覽我的另一篇博客:人工智能新手入門學(xué)習(xí)路線和學(xué)習(xí)資源合集(含AI綜述/python/機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow)、人工智能領(lǐng)域常用的開源框架和庫(含機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/強(qiáng)化學(xué)習(xí)/知識圖譜/圖神經(jīng)網(wǎng)絡(luò)) 如果你是計(jì)算機(jī)專業(yè)的應(yīng)屆畢業(yè)生,歡迎瀏覽我的另外一篇博客:如果你是一個(gè)計(jì)算機(jī)領(lǐng)域的應(yīng)屆生,你如何準(zhǔn)備求職面試? 如果你是計(jì)算機(jī)專業(yè)的本科生,歡迎瀏覽我的另外一篇博客:如果你是一個(gè)計(jì)算機(jī)領(lǐng)域的本科生,你可以選擇學(xué)習(xí)什么? 如果你是計(jì)算機(jī)專業(yè)的研究生,歡迎瀏覽我的另外一篇博客:如果你是一個(gè)計(jì)算機(jī)領(lǐng)域的研究生,你可以選擇學(xué)習(xí)什么? 如果你對金融科技感興趣,歡迎瀏覽我的另一篇博客:如果你想了解金融科技,不妨先了解金融科技有哪些可能? 之后博主將持續(xù)分享各大算法的學(xué)習(xí)思路和學(xué)習(xí)筆記:hello world: 我的博客寫作思路 |
|