OpenKG 大模型專輯 分享嘉賓 | 漆桂林(東南大學(xué)),楊成彪(南京柯基數(shù)據(jù)科技有限公司),吳剛(南京柯基數(shù)據(jù)科技有限公司) 筆記整理 | 鄧鴻杰(OpenKG) 01 知識圖譜和大語言模型的歷史 回顧人工智能的歷史我們會發(fā)現(xiàn),知識圖譜和大語言模型有著極深的淵源。知識圖譜來源于語義網(wǎng)絡(luò)(Semantic Network)[Sowa, 1991],而大語言模型是來源于神經(jīng)網(wǎng)絡(luò)(Neural Network)[Anderson 1995],兩種都是基于圖的表示方法。一般認為,以知識圖譜為代表的符號化知識表示方法更適合表示需要精確化描述的知識和支撐需要可靠而且完備的推理(這一學(xué)派被稱為符號主義),而以神經(jīng)網(wǎng)絡(luò)為代表的參數(shù)化知識表示方法更適合表示非精確描述的知識和進行非精確的推理(這一學(xué)派被稱為連接主義)。 那么什么是知識呢,根據(jù)牛津字典,知識是通過經(jīng)歷或者教育獲取的事實、信息或者技巧或者技巧。舉例來說,“南京位于江蘇”是一類事實性知識,新聞文本是一類描述性知識,而開酒瓶的技能是一類技能類知識。人類可以通過視覺、語言、教育或者實踐和推理等方式獲取知識。 知識圖譜是一種采用圖模型(即由點和線組成的圖形)來對人類知識進行表示的知識庫或者知識的集合。 比如說<南京, 位于, 江蘇>就是一條知識,對應(yīng)到圖譜中就是以南京和江蘇為節(jié)點,位于為標簽的邊。 神經(jīng)網(wǎng)絡(luò)可以用于存儲知識,但是這類知識是以參數(shù)的形式存在于神經(jīng)網(wǎng)絡(luò),無法直觀看到。 在文獻[Petroni 2019]中,作者提出了一個觀點,即語言模型可以作為知識庫(Language Model as Knowledge Bases),并且給出了一個從語言模型中提取事實性知識的方法(見圖3)。更多語言模型作為知識庫的工作綜述可以參考[AlKhamissi 2022]。 圖4給出了知識圖譜的歷史發(fā)展,可以看出,知識圖譜是起源于語義網(wǎng)絡(luò),并且跟語義網(wǎng)(Semantic Web)有著極深的淵源。知識圖譜采取了語義網(wǎng)絡(luò)的圖表示方法,同時參考了語義網(wǎng)的標準化語言RDF和OWL,從而具有嚴格的邏輯語義支撐,可以確保從知識圖譜中查詢得到的結(jié)果是正確的。同時知識圖譜可以跟專家系統(tǒng)中的規(guī)則引擎結(jié)合用于企業(yè)應(yīng)用中的決策支持類任務(wù)。 再來看看大模型的歷史發(fā)展, 1958年Rosenblatt提出了感知機,從而為神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ),但是由于感知機無法解決異或(XOR)等線性不可分問題,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的研究不受重視。80年代,隨著多層感知機和反向傳播算法的應(yīng)用,神經(jīng)網(wǎng)絡(luò)開始得到快速發(fā)展,并且跟專家系統(tǒng)一起使得人工智能進入了一個高潮時期。1998年和2012年LSTM和AlexNet的提出讓神經(jīng)網(wǎng)絡(luò)具備了更好的實用性,特別是AlexNet在ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽取得優(yōu)異成績,AlexNet的成功引領(lǐng)了深度學(xué)習(xí)的浪潮。2017年,基于注意力機制的的深度神經(jīng)網(wǎng)絡(luò)模型Transformer被提出,并且很快就在自然語言處理和計算機視覺中被廣泛應(yīng)用。Transformer開啟了預(yù)訓(xùn)練模型的大門,之后2018年BERT和GPT-1都是基于Transformer提出的預(yù)訓(xùn)練語言模型,而GPT-1最終演化成了GPT-3,ChatGPT和GPT-4。 縱觀知識圖譜和大語言模型的發(fā)展歷史,我們可以發(fā)現(xiàn),以知識圖譜為代表的符號主義和以ChatGPT為代表的連接主義在人工智能的發(fā)展歷史上具有舉足輕重的地位。人工智能的三次發(fā)展高潮,都是跟符號主義和連接主義同時發(fā)力有關(guān),即第一次人工智能發(fā)展高潮中的感知機和語義網(wǎng)絡(luò),第二次人工智能發(fā)展高潮中的多層神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng),第三次人工智能發(fā)展高潮中的深度學(xué)習(xí)(以及之后的大語言模型)和知識圖譜。 知識圖譜和大語言模型作為知識庫的優(yōu)缺點 知識圖譜和大語言模型都可以作為知識庫,并且都可以通過自然語言方式進行訪問,但是兩者在知識表示方面的差異使得它們在知識檢索和查詢、知識可視化、知識推理支持等方面有較大差異。下面就從知識問答的角度來分析一下知識圖譜和大語言模型的優(yōu)缺點。 1、從問答的形式來看,知識圖譜和大語言模型都支持自然語言的方式進行查詢,但是存在以下差異: (1)基于知識圖譜的問答系統(tǒng)對于自然語言問句的解析存在困難,這是因為需要先將自然語言問句轉(zhuǎn)化成一個結(jié)構(gòu)化查詢語言,即SPARQL,但是現(xiàn)有的算法在做轉(zhuǎn)化的時候需要大量的標注數(shù)據(jù)進行訓(xùn)練,從而很難應(yīng)對用戶千變?nèi)f化的問法。 (2)大語言模型不僅僅是一個知識庫,還是一個神經(jīng)網(wǎng)絡(luò)模型,所以可以直接對自然語言進行理解,將一個自然語言問句進行解析并且自動生成答案,在這個過程中基本上不需要人類的參與,所以大語言模型在問答形式方面泛化能力更強,語言解析能力更強,用戶體驗更好。 2、從知識庫包含的知識量來看,現(xiàn)有的知識圖譜雖然包含了大規(guī)模的常識和領(lǐng)域知識,但是規(guī)模跟大模型相比不是一個數(shù)量級。比如說,著名的大規(guī)模開放知識圖譜WikiData[Tanon 2016]目前包含的三元組數(shù)量級為億級別,主要的知識來源是維基百科的Inforbox和一些半結(jié)構(gòu)化數(shù)據(jù),互聯(lián)網(wǎng)和各種書籍、論文中包含的文本數(shù)據(jù)并沒有有效利用起來,這是因為知識圖譜的構(gòu)建需要做好質(zhì)量控制,而采取信息抽取的方法從開放域抽取結(jié)構(gòu)化知識往往質(zhì)量低下,所以WikiData的數(shù)據(jù)來源主要還是結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這就使得WikiData的知識量跟ChatGPT這樣的大語言模型相比要小很多。 3、從知識的質(zhì)量來看,知識圖譜的構(gòu)建有一套嚴格的質(zhì)量控制流程,首先,現(xiàn)有企業(yè)知識圖譜構(gòu)建大部分是基于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)經(jīng)過了大數(shù)據(jù)平臺處理后質(zhì)量非常高,再經(jīng)過知識圖譜平臺可以在保持質(zhì)量的情況下轉(zhuǎn)成大規(guī)模知識圖譜,對于非結(jié)構(gòu)化數(shù)據(jù),隨著信息抽取技術(shù)的進步,從文本、圖像、視頻中抽取三元組數(shù)據(jù)的質(zhì)量比較高,再經(jīng)過眾包等方式對抽取后的知識進行加工才能進入知識庫,所以企業(yè)知識圖譜的質(zhì)量是有保障的。其次,對于開放的知識圖譜,比如說WikiData,絕大多數(shù)的知識來源于維基百科的Infobox以及人類編輯,在此基礎(chǔ)上還有利用規(guī)則和沖突檢測方法來進一步提高知識圖譜質(zhì)量的技術(shù)[Tanon 2019]。相比而言,以ChatGPT為代表的大語言模型雖然在知識數(shù)量級上超過了大規(guī)模知識圖譜,但是知識庫的質(zhì)量是一個大問題,這是因為大語言模型的知識獲取過程是一個黑盒方式,容易受到訓(xùn)練語料質(zhì)量的影響,即便是通過人類反饋技術(shù)(如RLHF[Ouyang 2022])和知識編輯[Cao 2021]技術(shù)提升質(zhì)量,由于大語言模型的黑盒屬性,整體質(zhì)量相比大規(guī)模知識圖譜有一定差距。 在百科中已有的一些知識,通過知識圖譜很容易得出正確的回答,但是對于大模型來說要準確學(xué)到則是非常困難。如圖6所示,當提問ChatGPT“李鴻章的兒子的后代有哪些“,給出的回答是錯誤的,但是,如果我們有一個包含李鴻章的人物圖譜,那么基于知識圖譜的問答系統(tǒng)可以給出正確的答案,并且給出可視化的解釋(見圖7)。 表1中呈現(xiàn)了總體結(jié)果。首先,單語QA測試中,GPT-4模型在2018年之前的數(shù)據(jù)集上的表現(xiàn)基本優(yōu)于傳統(tǒng)SOTA模型,但在2018年后的新數(shù)據(jù)集上相比傳統(tǒng)KBQA模型還有顯著差距。多語言QA測試中,經(jīng)典數(shù)據(jù)集QALD-9的SOTA模型顯著優(yōu)于LLM,但2021年提出的MKQA數(shù)據(jù)集上,GPT-4則實現(xiàn)了對SOTA模型的顯著超越。其次,比較GPT家族中的模型,新模型的性能如預(yù)期般優(yōu)于前一代。 我們在表2中進一步呈現(xiàn)了LLMs在多語言QA上的性能。盡管隨著GPT家族持續(xù)迭代,模型回答不同語言問題的能力呈現(xiàn)出整體上的改善趨勢,但我們觀察到GPT-4在四種語言上均未超過ChatGPT。這表明GPT的多語言能力的演變可能開始放緩。 5、從知識更新的角度來看,由于知識圖譜采用了圖的表示,知識更新可以通過圖上的節(jié)點和邊的插入、刪除和修改操作完成,難點在于如何檢測到新的插入節(jié)點,節(jié)點插入到圖中哪個位置,插入后是否會導(dǎo)致邏輯沖突等[Qi 2015] [Wu 2020],這些符號化的操作比較直觀,而且可以利用邏輯推理機來輔助,從而確保更新后圖譜的質(zhì)量可以得到保障。相比而言,大語言模型在知識更新方面的能力一直被詬病,比如說ChatGPT剛剛出來的時候,只能回答2021年之前的知識類問題,因為ChatGPT沒有采用2021年之后的數(shù)據(jù)進行訓(xùn)練,而用新的數(shù)據(jù)訓(xùn)練成本非常高。跟知識圖譜采取圖操作相比,對大語言模型進行更新需要耗費大量的服務(wù)器資源,如果是頻繁更新,大語言模型付出的代價遠遠超過知識圖譜。 圖8給出了一個ChatGPT對最新發(fā)生的一個事件的示例,從這個示例可以看出,ChatGPT對于新發(fā)生的事是沒有更新的,而且到現(xiàn)在還會提到自己所知的知識截止2021年9月。但是,如果采用知識圖譜平臺,這一問題可以得到精確回答,而且可以給出可視化解釋。值得注意的是,知識圖譜的更新成本要遠遠低于大語言模型的更新成本。 知識圖譜和大語言模型雙知識平臺融合 首先,知識圖譜平臺如何增強大語言模型平臺呢?
其次,大語言模型平臺如何增強知識圖譜平臺呢?
最后,知識圖譜平臺和大語言模型平臺如何協(xié)同完成復(fù)雜知識處理任務(wù)?
參考圖10的知識圖譜平臺設(shè)計,圖11給出了我們設(shè)計的一個知識圖譜和大語言模型融合的雙知識服務(wù)平臺架構(gòu)。從這個架構(gòu)中我們可以清晰地看出大語言模型跟知識圖譜的核心技術(shù)具有驚人的相似性:大語言模型的預(yù)訓(xùn)練跟知識圖譜的知識建模相似,都需要人工整理和理解數(shù)據(jù),但是也可以通過某種自動化方式提升效率;監(jiān)督微調(diào)跟知識抽取對應(yīng),都是用于從數(shù)據(jù)中提取知識,只不過大語言模型利用微調(diào)提取的知識存儲與神經(jīng)網(wǎng)絡(luò);大語言模型跟知識圖譜一樣需要做知識更新和融合,大語言模型的推理對應(yīng)于知識圖譜的知識計算。另外,大模型和知識圖譜都需要考慮知識管理,而且都需要考慮知識眾包、知識質(zhì)量評估、知識鏈接等。 從圖11還可以看出,知識圖譜構(gòu)建成本可以通過大語言模型得到極大的降低,大語言模型可以提升知識自動建模的效率(具體方法可以參考[Giglou 2023]),可以為知識抽取生成標注數(shù)據(jù),利用大語言模型的知識理解能力,可以設(shè)計通用信息抽取方法,利用一個模型抽取實體、關(guān)系、屬性值、事件,大語言模型還可以做零樣本知識生成,利用通用信息抽取得到的三元組,通過人工校對形成大標注數(shù)據(jù)還可以用于訓(xùn)練監(jiān)督模型,大語言模型可以有助于提升知識融合的自動化[Zhang 2023]與沖突解決[Wang 2023],并且大模型可以有助于知識圖譜的知識表示學(xué)習(xí)[Pan 2023]。另外,知識圖譜可以為大語言模型提供語料生成,Prompt增強和推理增強。 反之,知識圖譜可以為大語言模型提供知識增強、推理增強和知識檢索等能力提升。在監(jiān)督微調(diào)階段,可以通過KG2Instruction技術(shù)將知識圖譜的轉(zhuǎn)化成指令用于微調(diào),還可以通過OntoPrompt將本體用于提示微調(diào)[Ye 2022];在知識融合和更新階段,可以通過知識圖譜的三元組對大語言模型進行編輯從而實現(xiàn)知識更新[Cao 2021],并且可以將大語言模型跟知識圖譜通過表示學(xué)習(xí)進行融合[Nayyeri 2023],以及將一個大模型的知識遷移給另外一個大模型[Choi 2022];在模型推理階段,可以通過知識圖譜生成提示[Chen 2022]或者指令[Du, 2022]用于增強模型的推理能力。 大語言模型和知識圖譜作為知識庫都需要運維管理,兩者都會涉及到API開放、數(shù)據(jù)管理和知識質(zhì)量評估。如何評估一個大模型的內(nèi)容生成質(zhì)量,關(guān)系到大模型能否落地[Chang 2023],而知識圖譜有比較完善的質(zhì)量控制體系[Wang 2021]。另外,大語言模型和知識圖譜的管理都涉及到知識眾包的工作,從而提升模型訓(xùn)練的質(zhì)量和知識圖譜構(gòu)建的質(zhì)量。 總結(jié)與展望 大語言模型的出現(xiàn)打開了通用人工智能的大門,而且令人驚嘆的是,大語言模型學(xué)習(xí)了人類的知識,并且可以利用這些知識來解決問題。人工智能發(fā)展到現(xiàn)在,一直想做的事就是讓機器能夠跟人類一樣學(xué)習(xí)海量知識,這就是“知識工程”提出的目標,之后知識工程專家們孜孜不倦地努力構(gòu)建了不少“大規(guī)模”知識庫,比如說wordnet, wikidata,這些開放知識庫對于人工智能的成功起到了很好的促進作用,但是還不是實際意義的大知識,而以ChatGPT為代表的大語言模型的出現(xiàn)改變了這個現(xiàn)狀。但是大語言模型作為一個知識庫存在很多問題,比如說知識質(zhì)量問題、問答精確度不足和不可解釋問題,如果跟知識圖譜或者其他符號化知識結(jié)合,將有無限想象空間,人工智能將進入真正的大知識時代。為了實現(xiàn)這一目標,我們認為融合知識圖譜平臺和大語言模型平臺勢在必行,并且基于一個已經(jīng)落地的知識圖譜平臺架構(gòu),提出了一個可能的知識圖譜和大語言模型的融合框架,希望可以對新一代知識工程的發(fā)展起到一點微薄之力。 以上就是本次分享的內(nèi)容,謝謝。 作者簡介 INTRODUCTION 漆桂林 漆桂林,東南大學(xué)教授,博士生導(dǎo)師,東南大學(xué)認知智能研究所所長,獲得江蘇省六大人才高峰計劃資助。現(xiàn)任中國中文信息學(xué)會語言與知識計算專業(yè)委員會副主任和中國科學(xué)技術(shù)情報學(xué)會知識組織專業(yè)委員會副主任。是澳大利亞Griffith大學(xué)訪問教授(2011年11月-2012年2月和2013年6月-2013年7月)和法國圖盧茲第一大學(xué)訪問教授(2013年1月-2013年2月)。1998年畢業(yè)于宜春學(xué)院數(shù)學(xué)專業(yè),2002年獲得江西師范大學(xué)數(shù)學(xué)與信息系碩士學(xué)位,2006年獲得英國貝爾法斯特女皇大學(xué)計算機博士學(xué)位。2006年8月至2009年8月在德國Karlsruhe大學(xué)AIFB研究所做博士后研究。 作者簡介 INTRODUCTION 楊成彪 楊成彪,南京柯基數(shù)據(jù)CTO,東南大學(xué)人工智能方向博士,知識圖譜和自然語言處理技術(shù)專家。申請知識圖譜、深度學(xué)習(xí)相關(guān)發(fā)明專利十余項。在人工智能和大數(shù)據(jù)行業(yè)10年的產(chǎn)品研發(fā)經(jīng)驗,成功研發(fā)多款現(xiàn)象級AI產(chǎn)品,榮獲了“江蘇省優(yōu)秀人工智能產(chǎn)品金獎”、“十佳優(yōu)秀人工智能軟件產(chǎn)品”等獎項。 作者簡介 INTRODUCTION 吳剛 吳剛,南京柯基數(shù)據(jù)CEO。中國人民大學(xué)信息學(xué)院碩導(dǎo),畢業(yè)于中科院軟件所,人機交互與智能信息處理專業(yè)。現(xiàn)擔任中華預(yù)防醫(yī)學(xué)會慢性病預(yù)防與控制分會委員,中國生物醫(yī)藥產(chǎn)業(yè)鏈創(chuàng)新與轉(zhuǎn)化聯(lián)盟醫(yī)藥情報專委會副主委,中文信息學(xué)會語言與知識計算專業(yè)委員會委員,醫(yī)療健康與生物信息專委委員,中國衛(wèi)生信息與健康醫(yī)療大數(shù)據(jù)學(xué)會委員。曾在全球領(lǐng)先的醫(yī)藥和科技、金融信息服務(wù)商湯森路透擔任中國首席顧問,負責(zé)產(chǎn)品解決方案咨詢工作。 OpenKG OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進知識圖譜算法、工具及平臺的開源開放。 |
|
來自: 天承辦公室 > 《001科學(xué)原理》