“新KG”視點 | 漆桂林——知識圖譜和大語言模型的共存之道

天承辦公室 2023-09-24

展開全文

OpenKG

大模型專輯

導(dǎo)讀 知識圖譜和大型語言模型都是用來表示和處理知識的手段。大模型補足了理解語言的能力，知識圖譜則豐富了表示知識的方式，兩者的深度結(jié)合必將為人工智能提供更為全面、可靠、可控的知識處理方法。在這一背景下，OpenKG組織新KG視點系列文章——“大模型專輯”，不定期邀請業(yè)內(nèi)專家對知識圖譜與大模型的融合之道展開深入探討。本期特別邀請到東南大學(xué)漆桂林教授、南京柯基數(shù)據(jù)科技有限公司楊成彪（CTO）和吳剛（CEO）等分享“知識圖譜和大語言模型的共存之道”。

分享嘉賓 | 漆桂林（東南大學(xué)），楊成彪（南京柯基數(shù)據(jù)科技有限公司），吳剛（南京柯基數(shù)據(jù)科技有限公司）

筆記整理 | 鄧鴻杰（OpenKG）

自從2022年11月30日OpenAI公司推出ChatGPT以來，大語言模型（Large Language Model）受到了學(xué)術(shù)界和業(yè)界的廣泛關(guān)注，由于ChatGPT在語言理解和知識問答方面的優(yōu)異表現(xiàn)，大語言模型被認為具備記憶和應(yīng)用世界知識（world knowledge）的能力，這就使得有一些觀點認為另外一種世界知識的表示和推理模型知識圖譜（Knowledge Graph）將要被以ChatGPT為代表的大語言模型所取代。關(guān)于知識圖譜是否會被大模型取代這個話題，已經(jīng)有一些學(xué)者做出過回應(yīng)[Yang 2023] [Pan 2023] [Suchanek 2023]，同時也有一些評測論文討論ChatGPT和GPT4的知識問答能力[Tan 2023]。為了更好地理解大模型跟知識圖譜的關(guān)系，我們需要先了解一下大語言模型和知識圖譜的歷史，然后我們討論一下大語言模型和知識圖譜作為知識庫（Knowledge Base）的優(yōu)缺點，從而得出大語言模型和知識圖譜不是互相替代，而是相互依存的關(guān)系這一結(jié)論，最后我們討論大語言模型和知識圖譜如何從知識庫服務(wù)平臺的角度融合。

知識圖譜和大語言模型的歷史

回顧人工智能的歷史我們會發(fā)現(xiàn)，知識圖譜和大語言模型有著極深的淵源。知識圖譜來源于語義網(wǎng)絡(luò)（Semantic Network）[Sowa, 1991]，而大語言模型是來源于神經(jīng)網(wǎng)絡(luò)（Neural Network）[Anderson 1995]，兩種都是基于圖的表示方法。一般認為，以知識圖譜為代表的符號化知識表示方法更適合表示需要精確化描述的知識和支撐需要可靠而且完備的推理（這一學(xué)派被稱為符號主義），而以神經(jīng)網(wǎng)絡(luò)為代表的參數(shù)化知識表示方法更適合表示非精確描述的知識和進行非精確的推理（這一學(xué)派被稱為連接主義）。

圖1

那么什么是知識呢，根據(jù)牛津字典，知識是通過經(jīng)歷或者教育獲取的事實、信息或者技巧或者技巧。舉例來說，“南京位于江蘇”是一類事實性知識，新聞文本是一類描述性知識，而開酒瓶的技能是一類技能類知識。人類可以通過視覺、語言、教育或者實踐和推理等方式獲取知識。

知識圖譜是一種采用圖模型（即由點和線組成的圖形）來對人類知識進行表示的知識庫或者知識的集合。

圖2

比如說<南京, 位于, 江蘇>就是一條知識，對應(yīng)到圖譜中就是以南京和江蘇為節(jié)點，位于為標簽的邊。

神經(jīng)網(wǎng)絡(luò)可以用于存儲知識，但是這類知識是以參數(shù)的形式存在于神經(jīng)網(wǎng)絡(luò)，無法直觀看到。

圖3

在文獻[Petroni 2019]中，作者提出了一個觀點，即語言模型可以作為知識庫（Language Model as Knowledge Bases），并且給出了一個從語言模型中提取事實性知識的方法（見圖3）。更多語言模型作為知識庫的工作綜述可以參考[AlKhamissi 2022]。

圖4

圖4給出了知識圖譜的歷史發(fā)展，可以看出，知識圖譜是起源于語義網(wǎng)絡(luò)，并且跟語義網(wǎng)（Semantic Web）有著極深的淵源。知識圖譜采取了語義網(wǎng)絡(luò)的圖表示方法，同時參考了語義網(wǎng)的標準化語言RDF和OWL，從而具有嚴格的邏輯語義支撐，可以確保從知識圖譜中查詢得到的結(jié)果是正確的。同時知識圖譜可以跟專家系統(tǒng)中的規(guī)則引擎結(jié)合用于企業(yè)應(yīng)用中的決策支持類任務(wù)。

圖5

再來看看大模型的歷史發(fā)展， 1958年Rosenblatt提出了感知機，從而為神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ)，但是由于感知機無法解決異或（XOR）等線性不可分問題，導(dǎo)致神經(jīng)網(wǎng)絡(luò)的研究不受重視。80年代，隨著多層感知機和反向傳播算法的應(yīng)用，神經(jīng)網(wǎng)絡(luò)開始得到快速發(fā)展，并且跟專家系統(tǒng)一起使得人工智能進入了一個高潮時期。1998年和2012年LSTM和AlexNet的提出讓神經(jīng)網(wǎng)絡(luò)具備了更好的實用性，特別是AlexNet在ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽取得優(yōu)異成績，AlexNet的成功引領(lǐng)了深度學(xué)習(xí)的浪潮。2017年，基于注意力機制的的深度神經(jīng)網(wǎng)絡(luò)模型Transformer被提出，并且很快就在自然語言處理和計算機視覺中被廣泛應(yīng)用。Transformer開啟了預(yù)訓(xùn)練模型的大門，之后2018年BERT和GPT-1都是基于Transformer提出的預(yù)訓(xùn)練語言模型，而GPT-1最終演化成了GPT-3，ChatGPT和GPT-4。

縱觀知識圖譜和大語言模型的發(fā)展歷史，我們可以發(fā)現(xiàn)，以知識圖譜為代表的符號主義和以ChatGPT為代表的連接主義在人工智能的發(fā)展歷史上具有舉足輕重的地位。人工智能的三次發(fā)展高潮，都是跟符號主義和連接主義同時發(fā)力有關(guān)，即第一次人工智能發(fā)展高潮中的感知機和語義網(wǎng)絡(luò)，第二次人工智能發(fā)展高潮中的多層神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)，第三次人工智能發(fā)展高潮中的深度學(xué)習(xí)（以及之后的大語言模型）和知識圖譜。

知識圖譜和大語言模型作為知識庫的優(yōu)缺點

知識圖譜和大語言模型都可以作為知識庫，并且都可以通過自然語言方式進行訪問，但是兩者在知識表示方面的差異使得它們在知識檢索和查詢、知識可視化、知識推理支持等方面有較大差異。下面就從知識問答的角度來分析一下知識圖譜和大語言模型的優(yōu)缺點。

1、從問答的形式來看，知識圖譜和大語言模型都支持自然語言的方式進行查詢，但是存在以下差異：

（1）基于知識圖譜的問答系統(tǒng)對于自然語言問句的解析存在困難，這是因為需要先將自然語言問句轉(zhuǎn)化成一個結(jié)構(gòu)化查詢語言，即SPARQL，但是現(xiàn)有的算法在做轉(zhuǎn)化的時候需要大量的標注數(shù)據(jù)進行訓(xùn)練，從而很難應(yīng)對用戶千變?nèi)f化的問法。

（2）大語言模型不僅僅是一個知識庫，還是一個神經(jīng)網(wǎng)絡(luò)模型，所以可以直接對自然語言進行理解，將一個自然語言問句進行解析并且自動生成答案，在這個過程中基本上不需要人類的參與，所以大語言模型在問答形式方面泛化能力更強，語言解析能力更強，用戶體驗更好。

2、從知識庫包含的知識量來看，現(xiàn)有的知識圖譜雖然包含了大規(guī)模的常識和領(lǐng)域知識，但是規(guī)模跟大模型相比不是一個數(shù)量級。比如說，著名的大規(guī)模開放知識圖譜WikiData[Tanon 2016]目前包含的三元組數(shù)量級為億級別，主要的知識來源是維基百科的Inforbox和一些半結(jié)構(gòu)化數(shù)據(jù)，互聯(lián)網(wǎng)和各種書籍、論文中包含的文本數(shù)據(jù)并沒有有效利用起來，這是因為知識圖譜的構(gòu)建需要做好質(zhì)量控制，而采取信息抽取的方法從開放域抽取結(jié)構(gòu)化知識往往質(zhì)量低下，所以WikiData的數(shù)據(jù)來源主要還是結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)，這就使得WikiData的知識量跟ChatGPT這樣的大語言模型相比要小很多。

3、從知識的質(zhì)量來看，知識圖譜的構(gòu)建有一套嚴格的質(zhì)量控制流程，首先，現(xiàn)有企業(yè)知識圖譜構(gòu)建大部分是基于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)，這些數(shù)據(jù)經(jīng)過了大數(shù)據(jù)平臺處理后質(zhì)量非常高，再經(jīng)過知識圖譜平臺可以在保持質(zhì)量的情況下轉(zhuǎn)成大規(guī)模知識圖譜，對于非結(jié)構(gòu)化數(shù)據(jù)，隨著信息抽取技術(shù)的進步，從文本、圖像、視頻中抽取三元組數(shù)據(jù)的質(zhì)量比較高，再經(jīng)過眾包等方式對抽取后的知識進行加工才能進入知識庫，所以企業(yè)知識圖譜的質(zhì)量是有保障的。其次，對于開放的知識圖譜，比如說WikiData，絕大多數(shù)的知識來源于維基百科的Infobox以及人類編輯，在此基礎(chǔ)上還有利用規(guī)則和沖突檢測方法來進一步提高知識圖譜質(zhì)量的技術(shù)[Tanon 2019]。相比而言，以ChatGPT為代表的大語言模型雖然在知識數(shù)量級上超過了大規(guī)模知識圖譜，但是知識庫的質(zhì)量是一個大問題，這是因為大語言模型的知識獲取過程是一個黑盒方式，容易受到訓(xùn)練語料質(zhì)量的影響，即便是通過人類反饋技術(shù)（如RLHF[Ouyang 2022]）和知識編輯[Cao 2021]技術(shù)提升質(zhì)量，由于大語言模型的黑盒屬性，整體質(zhì)量相比大規(guī)模知識圖譜有一定差距。

圖6

在百科中已有的一些知識，通過知識圖譜很容易得出正確的回答，但是對于大模型來說要準確學(xué)到則是非常困難。如圖6所示，當提問ChatGPT“李鴻章的兒子的后代有哪些“，給出的回答是錯誤的，但是，如果我們有一個包含李鴻章的人物圖譜，那么基于知識圖譜的問答系統(tǒng)可以給出正確的答案，并且給出可視化的解釋（見圖7）。

圖7

4、從知識問答的準確性和可解釋性來看，基于知識圖譜的問答系統(tǒng)雖然在語言解析的泛化性方面不如大語言模型，而且由于知識量的限制，很多問題無法回答，但是在知識問答的準確性方面要優(yōu)于大語言模型。文獻[Tan 2023]給出了基于知識圖譜的問答系統(tǒng)和大語言模型的一個詳細對比，在這個論文中，我們評估了ChatGPT及其LLM家族在八個真實世界基于KB的復(fù)雜問題回答數(shù)據(jù)集上的表現(xiàn)，其中包括六個英文數(shù)據(jù)集和兩個多語言數(shù)據(jù)集，測試用例的總數(shù)約為190,000。為了凸顯測試問題的復(fù)雜性和測試數(shù)據(jù)集的廣泛性，在仔細考慮后，我們選擇了六個代表性的英文單語KBQA數(shù)據(jù)集和兩個多語言KBQA數(shù)據(jù)集進行評估。這些數(shù)據(jù)集包括經(jīng)典數(shù)據(jù)集，如WebQuestionSP [51]，ComplexWebQuestions [43]，GraphQ [42]和QALD-9 [24]，以及新提出的數(shù)據(jù)集，如KQApro [5]，GrailQA [12]和MKQA [22]。由于OpenAI API的限制，我們對一些數(shù)據(jù)集進行了抽樣，如按答案類型抽樣的MKQA和僅使用測試集的GrailQA。

表1

表1中呈現(xiàn)了總體結(jié)果。首先，單語QA測試中，GPT-4模型在2018年之前的數(shù)據(jù)集上的表現(xiàn)基本優(yōu)于傳統(tǒng)SOTA模型，但在2018年后的新數(shù)據(jù)集上相比傳統(tǒng)KBQA模型還有顯著差距。多語言QA測試中，經(jīng)典數(shù)據(jù)集QALD-9的SOTA模型顯著優(yōu)于LLM，但2021年提出的MKQA數(shù)據(jù)集上，GPT-4則實現(xiàn)了對SOTA模型的顯著超越。其次，比較GPT家族中的模型，新模型的性能如預(yù)期般優(yōu)于前一代。

表2

我們在表2中進一步呈現(xiàn)了LLMs在多語言QA上的性能。盡管隨著GPT家族持續(xù)迭代，模型回答不同語言問題的能力呈現(xiàn)出整體上的改善趨勢，但我們觀察到GPT-4在四種語言上均未超過ChatGPT。這表明GPT的多語言能力的演變可能開始放緩。

5、從知識更新的角度來看，由于知識圖譜采用了圖的表示，知識更新可以通過圖上的節(jié)點和邊的插入、刪除和修改操作完成，難點在于如何檢測到新的插入節(jié)點，節(jié)點插入到圖中哪個位置，插入后是否會導(dǎo)致邏輯沖突等[Qi 2015] [Wu 2020]，這些符號化的操作比較直觀，而且可以利用邏輯推理機來輔助，從而確保更新后圖譜的質(zhì)量可以得到保障。相比而言，大語言模型在知識更新方面的能力一直被詬病，比如說ChatGPT剛剛出來的時候，只能回答2021年之前的知識類問題，因為ChatGPT沒有采用2021年之后的數(shù)據(jù)進行訓(xùn)練，而用新的數(shù)據(jù)訓(xùn)練成本非常高。跟知識圖譜采取圖操作相比，對大語言模型進行更新需要耗費大量的服務(wù)器資源，如果是頻繁更新，大語言模型付出的代價遠遠超過知識圖譜。

圖8

圖8給出了一個ChatGPT對最新發(fā)生的一個事件的示例，從這個示例可以看出，ChatGPT對于新發(fā)生的事是沒有更新的，而且到現(xiàn)在還會提到自己所知的知識截止2021年9月。但是，如果采用知識圖譜平臺，這一問題可以得到精確回答，而且可以給出可視化解釋。值得注意的是，知識圖譜的更新成本要遠遠低于大語言模型的更新成本。

圖9

知識圖譜和大語言模型雙知識平臺融合

根據(jù)前面的討論我們知道，知識圖譜和大語言模型都可以看出是知識庫，前者是符號化的知識庫，而后者則是參數(shù)化的知識庫，一個自然的問題就是，這兩種知識庫怎么融合。有一些工作從知識圖譜和大語言模型技術(shù)角度對知識圖譜和大語言模型如何進行融合進行了討論[Pan 2023] [陳2023]，下面我們從知識圖譜平臺的角度來討論知識圖譜跟大語言模型如何融合。

首先，知識圖譜平臺如何增強大語言模型平臺呢？

知識圖譜平臺可以通過人機交互創(chuàng)建和推理高質(zhì)量知識（比如說處理知識的邏輯沖突），并且通過知識增強的方法用于增強大語言模型。
知識圖譜平臺可以表示和生成思維鏈，通過結(jié)構(gòu)化更好的思維鏈提升大模型的推理能力。
知識圖譜平臺可以用于解決大模型不擅長解決的問題，比如說上下文知識遺忘、復(fù)雜知識推理、知識可視化、關(guān)聯(lián)分析和決策類任務(wù)。

其次，大語言模型平臺如何增強知識圖譜平臺呢？

大語言模型作為一種基礎(chǔ)模型，為知識圖譜平臺的知識獲取自動化提供了有效的解決方案。
知識圖譜的表示學(xué)習(xí)和推理（比如說KG embedding和部分的ontology reasoning）可以基于大模型完成，即知識圖譜的表示學(xué)習(xí)和大語言模型的表示學(xué)習(xí)互相增強。
本體和規(guī)則的學(xué)習(xí)可以通過大模型平臺實現(xiàn)高度自動化（還是需要引入人機交互來更好實現(xiàn)）。

最后，知識圖譜平臺和大語言模型平臺如何協(xié)同完成復(fù)雜知識處理任務(wù)？

大語言模型平臺可以利用知識圖譜平臺生成的符號化知識對企業(yè)中的各種知識進行集成，對大語言模型平臺的指令進行分解，完成復(fù)雜任務(wù)（比如說微軟Office 365 Copilot）。
知識圖譜平臺和大語言模型平臺協(xié)同完成復(fù)雜問題的知識問答，這里可以發(fā)揮大語言模型的語義理解能力和知識量大的優(yōu)勢，同時發(fā)揮基于知識圖譜的問答系統(tǒng)的知識精確性和答案可解釋性的優(yōu)勢。
知識圖譜平臺用于沉淀大模型平臺中任務(wù)驅(qū)動的關(guān)鍵知識，用于完成需要精確、可解釋的問答和行動。

圖10

圖10給出了一個知識圖譜平臺的架構(gòu)圖，包括數(shù)據(jù)處理層、平臺層、知識處理層和應(yīng)用層。數(shù)據(jù)處理層利用知識獲取組件和知識接入組建處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，形成三元組知識；平臺層對數(shù)據(jù)和知識進行運維和管理（數(shù)據(jù)融合、運維和任務(wù)管理）；知識處理層對數(shù)據(jù)處理層和平臺層處理的知識進行質(zhì)量評估和知識融合；應(yīng)用層則是利用知識圖譜來支撐各種應(yīng)用，比如說關(guān)聯(lián)分析和智能問答。

圖11

參考圖10的知識圖譜平臺設(shè)計，圖11給出了我們設(shè)計的一個知識圖譜和大語言模型融合的雙知識服務(wù)平臺架構(gòu)。從這個架構(gòu)中我們可以清晰地看出大語言模型跟知識圖譜的核心技術(shù)具有驚人的相似性：大語言模型的預(yù)訓(xùn)練跟知識圖譜的知識建模相似，都需要人工整理和理解數(shù)據(jù)，但是也可以通過某種自動化方式提升效率；監(jiān)督微調(diào)跟知識抽取對應(yīng)，都是用于從數(shù)據(jù)中提取知識，只不過大語言模型利用微調(diào)提取的知識存儲與神經(jīng)網(wǎng)絡(luò)；大語言模型跟知識圖譜一樣需要做知識更新和融合，大語言模型的推理對應(yīng)于知識圖譜的知識計算。另外，大模型和知識圖譜都需要考慮知識管理，而且都需要考慮知識眾包、知識質(zhì)量評估、知識鏈接等。

從圖11還可以看出，知識圖譜構(gòu)建成本可以通過大語言模型得到極大的降低，大語言模型可以提升知識自動建模的效率（具體方法可以參考[Giglou 2023]），可以為知識抽取生成標注數(shù)據(jù)，利用大語言模型的知識理解能力，可以設(shè)計通用信息抽取方法，利用一個模型抽取實體、關(guān)系、屬性值、事件，大語言模型還可以做零樣本知識生成，利用通用信息抽取得到的三元組，通過人工校對形成大標注數(shù)據(jù)還可以用于訓(xùn)練監(jiān)督模型，大語言模型可以有助于提升知識融合的自動化[Zhang 2023]與沖突解決[Wang 2023]，并且大模型可以有助于知識圖譜的知識表示學(xué)習(xí)[Pan 2023]。另外，知識圖譜可以為大語言模型提供語料生成，Prompt增強和推理增強。

反之，知識圖譜可以為大語言模型提供知識增強、推理增強和知識檢索等能力提升。在監(jiān)督微調(diào)階段，可以通過KG2Instruction技術(shù)將知識圖譜的轉(zhuǎn)化成指令用于微調(diào)，還可以通過OntoPrompt將本體用于提示微調(diào)[Ye 2022]；在知識融合和更新階段，可以通過知識圖譜的三元組對大語言模型進行編輯從而實現(xiàn)知識更新[Cao 2021]，并且可以將大語言模型跟知識圖譜通過表示學(xué)習(xí)進行融合[Nayyeri 2023]，以及將一個大模型的知識遷移給另外一個大模型[Choi 2022]；在模型推理階段，可以通過知識圖譜生成提示[Chen 2022]或者指令[Du, 2022]用于增強模型的推理能力。

大語言模型和知識圖譜作為知識庫都需要運維管理，兩者都會涉及到API開放、數(shù)據(jù)管理和知識質(zhì)量評估。如何評估一個大模型的內(nèi)容生成質(zhì)量，關(guān)系到大模型能否落地[Chang 2023]，而知識圖譜有比較完善的質(zhì)量控制體系[Wang 2021]。另外，大語言模型和知識圖譜的管理都涉及到知識眾包的工作，從而提升模型訓(xùn)練的質(zhì)量和知識圖譜構(gòu)建的質(zhì)量。

總結(jié)與展望

大語言模型的出現(xiàn)打開了通用人工智能的大門，而且令人驚嘆的是，大語言模型學(xué)習(xí)了人類的知識，并且可以利用這些知識來解決問題。人工智能發(fā)展到現(xiàn)在，一直想做的事就是讓機器能夠跟人類一樣學(xué)習(xí)海量知識，這就是“知識工程”提出的目標，之后知識工程專家們孜孜不倦地努力構(gòu)建了不少“大規(guī)模”知識庫，比如說wordnet, wikidata，這些開放知識庫對于人工智能的成功起到了很好的促進作用，但是還不是實際意義的大知識，而以ChatGPT為代表的大語言模型的出現(xiàn)改變了這個現(xiàn)狀。但是大語言模型作為一個知識庫存在很多問題，比如說知識質(zhì)量問題、問答精確度不足和不可解釋問題，如果跟知識圖譜或者其他符號化知識結(jié)合，將有無限想象空間，人工智能將進入真正的大知識時代。為了實現(xiàn)這一目標，我們認為融合知識圖譜平臺和大語言模型平臺勢在必行，并且基于一個已經(jīng)落地的知識圖譜平臺架構(gòu)，提出了一個可能的知識圖譜和大語言模型的融合框架，希望可以對新一代知識工程的發(fā)展起到一點微薄之力。

參考文獻

[Anderson 1995] James A. Anderson, An Introduction to Neural Networks, The MIT Press，1995.

[AlKhamissi 2022] Badr AlKhamissi, A Review on Language Models as Knowledge Bases，arXiv:2204.06031 [cs.CL]，2022.

[陳2023] 陳華鈞. 大模型時代的知識圖譜技術(shù)棧. 中國計算機學(xué)會通訊. 19卷9期. 2023。

[Chang 2023] Yupeng Chang, et.al., A Survey on Evaluation of Large Language Models, arXiv:2307.03109 [cs.CL], 2023.

[Chen 2022] Xiang Chen, Ningyu Zhang, Xin Xie, Shumin Deng, Yunzhi Yao, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen: KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction. WWW 2022: 2778-2788

[Choi 2022] Dongha Choi, HongSeok Choi, Hyunju Lee, Domain Knowledge Transferring for Pre-trained Language Model via Calibrated Activation Boundary Distillation, Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL), 2022.

[Cao 2021] Nicola De Cao, Wilker Aziz, Ivan Titov, Editing Factual Knowledge in Language Models, Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021.

[Du, 2022] Haowei Du, et.al., Knowledge-Enhanced Iterative Instruction Generation and Reasoning for Knowledge Base Question Answering, In Proceeding of 2022 CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC), 2022.

[Giglou 2023] Hamed Babaei Giglou,et.al., LLMs4OL: Large Language Models for Ontology Learning, arXiv:2307.16648 [cs.AI], 2023.

[Nayyeri 2023] Mojtaba Nayyeri, et.al. Integrating Knowledge Graph embedding and pretrained Language Models in Hypercomplex Spaces, In Proceedings of the 22nd International Semantic Web Conference (ISWC), 2023.

[Ouyang 2022] Long Ouyang, et al, Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022.

[Pan 2023] Shirui Pan, et.al., Unifying Large Language Models and Knowledge Graphs: A Roadmap, arXiv:2306.08302 [cs.CL], 2023.

[Petroni 2019] Fabio Petroni, et.al., Language Models as Knowledge Bases? Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019.

[Qi 2015] Guilin Qi, Zhe Wang, Kewen Wang, Xuefeng Fu, Zhiqiang Zhuang: Approximating Model-Based ABox Revision in DL-Lite: Theory and Practice. Proceedings of the 29th Conference on Artificial Intelligence (AAAI), 254-260, 2015.

[Suchanek 2023] Fabian M. Suchanek, Anh Tuan Luu, Knowledge Bases and Language Models: Complementing Forces, Proceeding of International Joint Conference on Rules and Reasoning (RuleML+RR), 2023.

[Sowa, 1991] J. F. Sowa: Principles of Semantic Networks: Exploration in the Representation of Knowledge, Morgan Kaufmann Publishers, INC. San Mateo, California, 1991.

[Tan 2023] Yiming Tan, et.al., Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of the Question Answering Performance of the GPT LLM Family, Proceedings of the 22nd International Semantic Web Conference (ISWC), 2023.

[Tanon 2016] Thomas Pellissier Tanon, Denny Vrandecic, Sebastian Schaffert, Thomas Steiner, Lydia Pintscher: From Freebase to Wikidata: The Great Migration. Proceedings of 25th International World Wide Web Conference (WWW), 1419-1428, 2016

[Tanon 2019] Thomas Pellissier Tanon, Camille Bourgaux, Fabian M. Suchanek:

Learning How to Correct a Knowledge Base from the Edit History. Proceedings of 28th International World Wide Web Conference (WWW), 1465-1475, 2019.

[Wang 2021] Xiangyu Wang, et.al., Knowledge graph quality control: A survey, Fundamental Research, Vol.1(5), 2021.

[Wang 2023] Keyu Wang, et.al., An Embedding-based Approach to Inconsistency-tolerant Reasoning with Inconsistent Ontologies, arXiv:2304.01664 [cs.AI], 2023.

[Wu 2020] Tianxing Wu, Haofen Wang, Cheng Li, Guilin Qi, Xing Niu, Meng Wang, Lin Li, Chaomin Shi: Knowledge graph construction from multiple online encyclopedias. World Wide Web 23(5): 2671-2698 (2020)

[Yang 2023] Linyao Yang, et.al., ChatGPT is not Enough: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling, arXiv:2306.11489 [cs.CL], 2023.

[Ye 2022] Hongbin Ye,et.al., Ontology-enhanced Prompt-tuning for Few-shot Learning. Proceedings of the ACM Web Conference (WWW), 778-787, 2022.

[Zhang 2023] Rui Zhang, et.al., AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models, arXiv:2307.11772 [cs.IR], 2023.

以上就是本次分享的內(nèi)容，謝謝。

作者簡介

INTRODUCTION

漆桂林

漆桂林，東南大學(xué)教授，博士生導(dǎo)師，東南大學(xué)認知智能研究所所長，獲得江蘇省六大人才高峰計劃資助。現(xiàn)任中國中文信息學(xué)會語言與知識計算專業(yè)委員會副主任和中國科學(xué)技術(shù)情報學(xué)會知識組織專業(yè)委員會副主任。是澳大利亞Griffith大學(xué)訪問教授（2011年11月-2012年2月和2013年6月-2013年7月）和法國圖盧茲第一大學(xué)訪問教授（2013年1月-2013年2月）。1998年畢業(yè)于宜春學(xué)院數(shù)學(xué)專業(yè)，2002年獲得江西師范大學(xué)數(shù)學(xué)與信息系碩士學(xué)位，2006年獲得英國貝爾法斯特女皇大學(xué)計算機博士學(xué)位。2006年8月至2009年8月在德國Karlsruhe大學(xué)AIFB研究所做博士后研究。

作者簡介

INTRODUCTION

楊成彪

楊成彪，南京柯基數(shù)據(jù)CTO，東南大學(xué)人工智能方向博士，知識圖譜和自然語言處理技術(shù)專家。申請知識圖譜、深度學(xué)習(xí)相關(guān)發(fā)明專利十余項。在人工智能和大數(shù)據(jù)行業(yè)10年的產(chǎn)品研發(fā)經(jīng)驗，成功研發(fā)多款現(xiàn)象級AI產(chǎn)品，榮獲了“江蘇省優(yōu)秀人工智能產(chǎn)品金獎”、“十佳優(yōu)秀人工智能軟件產(chǎn)品”等獎項。

作者簡介

INTRODUCTION

吳剛

吳剛，南京柯基數(shù)據(jù)CEO。中國人民大學(xué)信息學(xué)院碩導(dǎo)，畢業(yè)于中科院軟件所，人機交互與智能信息處理專業(yè)。現(xiàn)擔任中華預(yù)防醫(yī)學(xué)會慢性病預(yù)防與控制分會委員，中國生物醫(yī)藥產(chǎn)業(yè)鏈創(chuàng)新與轉(zhuǎn)化聯(lián)盟醫(yī)藥情報專委會副主委，中文信息學(xué)會語言與知識計算專業(yè)委員會委員，醫(yī)療健康與生物信息專委委員，中國衛(wèi)生信息與健康醫(yī)療大數(shù)據(jù)學(xué)會委員。曾在全球領(lǐng)先的醫(yī)藥和科技、金融信息服務(wù)商湯森路透擔任中國首席顧問，負責(zé)產(chǎn)品解決方案咨詢工作。

OpenKG

OpenKG（中文開放知識圖譜）旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包，并促進知識圖譜算法、工具及平臺的開源開放。