【聯(lián)數(shù)】臧根林：知識(shí)降維作圖譜人工智能有階梯

ZZvvh2vjnmrpl4 2019-08-11

展開(kāi)全文

文章導(dǎo)讀
大數(shù)據(jù)技術(shù)發(fā)展非常快速，2012年在中國(guó)開(kāi)始提出大數(shù)據(jù)，短短幾年時(shí)間已經(jīng)從一種高大上的技術(shù)變成了基礎(chǔ)性的技術(shù)，各行各業(yè)都在使用大數(shù)據(jù)。但如何讓大數(shù)據(jù)發(fā)揮更大價(jià)值，大家都把目光轉(zhuǎn)向人工智能的時(shí)候，發(fā)現(xiàn)人工智能離自己實(shí)際使用有相當(dāng)?shù)木嚯x，甚至無(wú)從下手。其實(shí)，先把大數(shù)據(jù)構(gòu)建成自己領(lǐng)域的知識(shí)圖譜，形成機(jī)器學(xué)習(xí)、模型訓(xùn)練的知識(shí)資源，正是通往人工智能的階梯。

作者：臧根林

CCF大數(shù)據(jù)專(zhuān)家委員會(huì)委員，博士，拓爾思知識(shí)圖譜研究院院長(zhǎng)。

由谷歌（Google）旗下DeepMind公司戴密斯·哈薩比斯領(lǐng)銜的團(tuán)隊(duì)開(kāi)發(fā)的阿爾法圍棋（AlphaGo）人工智能機(jī)器人在2016年3月與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn)，以4比1的總比分獲勝，引爆了新一輪人工智能熱潮。人工智能研究從1956年開(kāi)始，經(jīng)過(guò)三起三落，至今已經(jīng)60多年了，但始終發(fā)展沒(méi)有達(dá)到我們的期望，現(xiàn)在有了大數(shù)據(jù)技術(shù)，在機(jī)器學(xué)習(xí)模型訓(xùn)練方面有了重大提升，在語(yǔ)義理解、圖像識(shí)別等方面都有了不少突破，也出現(xiàn)了AI播音員等，但我們發(fā)現(xiàn)要實(shí)際運(yùn)用的時(shí)候，人工智能離我們還有相當(dāng)遠(yuǎn)的距離。比如無(wú)人駕駛汽車(chē)，試驗(yàn)階段是沒(méi)有問(wèn)題的，真正上路為我們服務(wù)，能在復(fù)雜路況下像老司機(jī)一樣安全駕駛，誰(shuí)也說(shuō)不清還需要等多少年。

怎么樣才能讓人工智能為人類(lèi)服務(wù)？我認(rèn)為這個(gè)問(wèn)題非常像把一條狗訓(xùn)練成警犬的過(guò)程。狗的智商不如人類(lèi)，但在“硬件”方面有優(yōu)勢(shì)，比如奔跑速度、嗅覺(jué)等等，我們要訓(xùn)練一條狗成為警犬，就必須讓它學(xué)習(xí)，能理解人類(lèi)的意圖，知道要它做什么。訓(xùn)練狗的過(guò)程實(shí)際上知識(shí)降維的過(guò)程，我們?nèi)祟?lèi)腦子里的知識(shí)結(jié)構(gòu)非常復(fù)雜，其存儲(chǔ)結(jié)構(gòu)、關(guān)聯(lián)思維、決策判斷過(guò)程至今也無(wú)法完全研究明白。要把這么復(fù)雜的知識(shí)結(jié)構(gòu)讓狗能理解，只能把維度降下來(lái)，比如找出一包毒品可以得到一份食物的獎(jiǎng)勵(lì)，也就是將毒品這個(gè)實(shí)體和它喜歡的食品這個(gè)實(shí)體建立了關(guān)系。訓(xùn)練人工智能其實(shí)也就是這樣，計(jì)算機(jī)的計(jì)算、存儲(chǔ)能力可擴(kuò)展，超級(jí)計(jì)算機(jī)可以實(shí)現(xiàn)我們?nèi)祟?lèi)無(wú)法達(dá)到的高性能計(jì)算，但無(wú)法完全模擬我們?nèi)祟?lèi)的思維，只有我們把知識(shí)結(jié)構(gòu)降維，形成一個(gè)計(jì)算機(jī)能看懂的結(jié)構(gòu)，它的優(yōu)勢(shì)才能發(fā)揮。這樣降維后形成的知識(shí)，基本上圍繞著實(shí)體、實(shí)體的屬性、實(shí)體之間的關(guān)系這三個(gè)要素展開(kāi)，這種知識(shí)架構(gòu)就是知識(shí)圖譜。特別是現(xiàn)實(shí)世界中的大量知識(shí)是非結(jié)構(gòu)化的，如聲音、圖像等，當(dāng)計(jì)算機(jī)擅長(zhǎng)處理的是結(jié)構(gòu)化數(shù)據(jù)。知識(shí)圖譜可以把實(shí)體的結(jié)構(gòu)化信息和非結(jié)構(gòu)信息關(guān)聯(lián)起來(lái)。所以有一種說(shuō)法，叫知識(shí)圖譜是大數(shù)據(jù)走向人工智能的階梯。

知識(shí)圖譜本質(zhì)上就是一個(gè)用圖數(shù)據(jù)結(jié)構(gòu)等技術(shù)作載體，描述客觀事物及其關(guān)系的大型知識(shí)庫(kù)。在具體實(shí)現(xiàn)上，知識(shí)圖譜用語(yǔ)義網(wǎng)（Semantic Web）中的資源描述框架（ResourceDescription Framework,RDF）對(duì)知識(shí)體系和實(shí)例數(shù)據(jù)二個(gè)層面的內(nèi)容進(jìn)行統(tǒng)一表示，共同構(gòu)成一個(gè)完整的知識(shí)系統(tǒng)。

世界本身不存在結(jié)構(gòu)化或非結(jié)構(gòu)化問(wèn)題，在信息化時(shí)代之前也沒(méi)有人去區(qū)分結(jié)構(gòu)化或非結(jié)構(gòu)化，但人類(lèi)進(jìn)入信息化時(shí)代，什么都想通過(guò)計(jì)算來(lái)得到結(jié)果，就產(chǎn)生了信息是否結(jié)構(gòu)化問(wèn)題。所以這個(gè)問(wèn)題是人類(lèi)為了將就計(jì)算機(jī)而產(chǎn)生的問(wèn)題。知識(shí)圖譜把這個(gè)問(wèn)題進(jìn)一步加深了，因?yàn)槲覀儾粌H僅想讓計(jì)算機(jī)幫我們計(jì)算信息，還想讓計(jì)算機(jī)學(xué)會(huì)跟我們?nèi)祟?lèi)一樣去思考去判斷，也就是現(xiàn)在很熱門(mén)的人工智能。為了教育計(jì)算機(jī)看懂人類(lèi)的知識(shí)，我們類(lèi)似給幼兒設(shè)計(jì)看圖識(shí)字本一樣，將知識(shí)整理成知識(shí)圖譜。

知識(shí)圖譜的本質(zhì)是具有有向圖結(jié)構(gòu)的知識(shí)庫(kù)，知識(shí)圖譜是人工智能應(yīng)用不可或缺的基礎(chǔ)資源。知識(shí)圖譜分為兩類(lèi)：通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜。通用的知識(shí)圖譜可以認(rèn)為是百科全書(shū)，比如Google 知識(shí)圖譜、DBpedia、YAGO和Freebase等；領(lǐng)域知識(shí)圖譜是基于領(lǐng)域數(shù)據(jù)構(gòu)建的知識(shí)圖譜，用于領(lǐng)域分析研究工作。通用知識(shí)圖譜的本體根類(lèi)型，基本上就是實(shí)體（entity），然后再分類(lèi)。通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜，從基礎(chǔ)架構(gòu)上基本相同，但由于領(lǐng)域知識(shí)圖譜面向更為復(fù)雜的領(lǐng)域數(shù)據(jù)和場(chǎng)景，從構(gòu)建和應(yīng)用上來(lái)講更加復(fù)雜。

雖然知識(shí)圖譜概念由美國(guó)谷歌公司在2012年5月首次提出，但知識(shí)圖譜這樣的理念和表達(dá)思路在中國(guó)已經(jīng)存在超過(guò)二千年，五行理論和相生相克圖就是一個(gè)典型的知識(shí)圖譜結(jié)構(gòu)。知識(shí)圖譜描述的關(guān)鍵三要素是實(shí)體、屬性和實(shí)體之間的關(guān)系，五行相生相克圖（圖1）正是完整表達(dá)了這樣的三個(gè)要素，金、木、水、火、土每個(gè)字不但表達(dá)一種類(lèi)型實(shí)體，而且字面本身已經(jīng)蘊(yùn)含了屬性解釋?zhuān)纭八弊肿匀痪褪侵甘澜缟弦磺幸后w性質(zhì)的實(shí)體，每個(gè)實(shí)體都和另外四個(gè)發(fā)生聯(lián)系，四條連線代表了實(shí)體之間相生或相克的關(guān)系。

圖1 五行相生相克圖

圖2 公共安全領(lǐng)域五要素圖

在很多領(lǐng)域的知識(shí)圖譜，其實(shí)和五行相生相克圖都有相似之處，圖2就是是公安部門(mén)數(shù)據(jù)存儲(chǔ)的常用分類(lèi)，將數(shù)據(jù)分為人（人口信息）、地址（門(mén)牌樓等）、案件、物品（刀、槍、毒品等）及組織（某黑社會(huì)、邪教組織等）。

知識(shí)圖譜可以用于各個(gè)行業(yè)領(lǐng)域，用于領(lǐng)域的數(shù)據(jù)整合和業(yè)務(wù)分析，比如政府分析、媒體分析、電商分析、金融分析、公安情報(bào)分析、學(xué)術(shù)領(lǐng)域、學(xué)科分析、軍事信息搜索等。面向不同領(lǐng)域有不同的領(lǐng)域本體（Domain Ontoloty），領(lǐng)域本體是領(lǐng)域知識(shí)圖譜的基礎(chǔ)概念。在領(lǐng)域知識(shí)圖譜工程中，最先需要確定的是本體中的對(duì)象類(lèi)型。各個(gè)領(lǐng)域都有自己關(guān)注的主要對(duì)象，領(lǐng)域的信息化是圍繞這些對(duì)象而產(chǎn)生和收集數(shù)據(jù)，所以在構(gòu)建領(lǐng)域知識(shí)圖譜中，這些主要對(duì)象就是知識(shí)圖譜中主要的對(duì)象類(lèi)型。

圖3 領(lǐng)域知識(shí)圖譜構(gòu)建和知識(shí)加工原理圖

領(lǐng)域知識(shí)圖譜構(gòu)建的過(guò)程，就是分別將領(lǐng)域中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化加工成知識(shí)對(duì)象和關(guān)系的過(guò)程，針對(duì)三種類(lèi)型的數(shù)據(jù)分別構(gòu)建，構(gòu)建后的文本類(lèi)型和多媒體類(lèi)型的對(duì)象，又可以通過(guò)人工或機(jī)器的方式進(jìn)行知識(shí)加工，從中提取有價(jià)值的實(shí)體、事件和關(guān)系。圖3顯示的就是領(lǐng)域知識(shí)圖譜構(gòu)建和知識(shí)加工原理。

大數(shù)據(jù)技術(shù)發(fā)展非常快速，2012年在中國(guó)開(kāi)始提出大數(shù)據(jù)，短短幾年時(shí)間已經(jīng)從一種高大上的技術(shù)變成了基礎(chǔ)性的技術(shù)，各行各業(yè)都在使用大數(shù)據(jù)。但如何讓大數(shù)據(jù)發(fā)揮更大價(jià)值，大家都把目光轉(zhuǎn)向人工智能的時(shí)候，發(fā)現(xiàn)人工智能離自己實(shí)際使用有相當(dāng)?shù)木嚯x，甚至無(wú)從下手。其實(shí)，先把大數(shù)據(jù)構(gòu)建成自己領(lǐng)域的知識(shí)圖譜，形成機(jī)器學(xué)習(xí)、模型訓(xùn)練的知識(shí)資源，正是通往人工智能的階梯。

編者評(píng)點(diǎn)

本文的題目叫《知識(shí)降維作圖譜人工智能有階梯》，初見(jiàn)這個(gè)題目，就感覺(jué)非常恰當(dāng)，非常準(zhǔn)確、非常得體。人工智能無(wú)疑是當(dāng)前最熱門(mén)的概念之一，如何實(shí)現(xiàn)人工智能，是我們?nèi)祟?lèi)一直的夙愿。但是，幾十年來(lái)，人工智能學(xué)科的發(fā)展經(jīng)歷了數(shù)次起起伏伏，即使今天這個(gè)概念又一次火爆起來(lái)，我們也不敢盲目追捧，需要冷靜對(duì)待，要真正的理解人工智能的難點(diǎn)，找到突破的方向，我想，本文從一個(gè)側(cè)面給出了較好的解釋和答案。我很欣賞作者在文中的如下闡述：“我們?nèi)祟?lèi)腦子里的知識(shí)結(jié)構(gòu)非常復(fù)雜，其存儲(chǔ)結(jié)構(gòu)、關(guān)聯(lián)思維、決策判斷過(guò)程至今也無(wú)法完全研究明白”，所以，“只有我們把知識(shí)結(jié)構(gòu)降維，形成一個(gè)計(jì)算機(jī)能看懂的結(jié)構(gòu)，它的優(yōu)勢(shì)才能發(fā)揮。這樣降維后形成的知識(shí)，基本上圍繞著實(shí)體、實(shí)體的屬性、實(shí)體之間的關(guān)系這三個(gè)要素展開(kāi)，這種知識(shí)架構(gòu)就是知識(shí)圖譜”，由于知識(shí)圖譜有效的關(guān)聯(lián)了實(shí)體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，因此，我們把知識(shí)圖譜看作大數(shù)據(jù)走向人工智能的階梯。這個(gè)論斷至少現(xiàn)在看上去是合理的。

知識(shí)圖譜的產(chǎn)生和發(fā)展經(jīng)歷了多個(gè)階段，從計(jì)算機(jī)領(lǐng)域引入本體論思想，到語(yǔ)義Web的提出，再到關(guān)聯(lián)數(shù)據(jù)（Linked Data）的誕生，直到谷歌公司推出知識(shí)圖譜，一路走來(lái)，理論基礎(chǔ)逐漸扎實(shí)，領(lǐng)域工具逐漸豐富，應(yīng)用前景逐漸明朗。

在知識(shí)圖譜獲得蓬勃發(fā)展的今天，我們經(jīng)常把知識(shí)圖譜分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜，在通用知識(shí)圖譜的研究中，我們發(fā)現(xiàn)當(dāng)前主流的通用知識(shí)圖譜如DBpedia、YAGO和Freebase等都是國(guó)外的成果，因此迫切的需要國(guó)內(nèi)的相關(guān)機(jī)構(gòu)組織開(kāi)發(fā)有代表性的中文通用知識(shí)圖譜，這應(yīng)該是一個(gè)艱巨的任務(wù)，但是我們必須要做，這可能會(huì)關(guān)系到將來(lái)中文人工智能的基礎(chǔ)問(wèn)題。在領(lǐng)域知識(shí)圖譜的研究中，如何針對(duì)不同領(lǐng)域知識(shí)的特點(diǎn)，研究不同領(lǐng)域的知識(shí)抽取策略，提高知識(shí)抽取的自動(dòng)化程度和準(zhǔn)確率是我們關(guān)注的重點(diǎn)。隨著知識(shí)圖譜研究的深入，又演化出了事理圖譜等新的概念，這些都值得我們關(guān)注。

我相信，知識(shí)圖譜肯定不是終點(diǎn)，它會(huì)進(jìn)一步演化、發(fā)展，既然我們找到了一條讓機(jī)器理解、利用知識(shí)的有效途徑，我們就應(yīng)該在這條路上越走越遠(yuǎn)，去發(fā)現(xiàn)更加美好的風(fēng)景。正如文章結(jié)尾所說(shuō)，既然今天我們?nèi)匀弧鞍l(fā)現(xiàn)人工智能離實(shí)際使用有相當(dāng)?shù)木嚯x，甚至無(wú)從下手”。那么就“先把大數(shù)據(jù)構(gòu)建成自己領(lǐng)域的知識(shí)圖譜，形成機(jī)器學(xué)習(xí)、模型訓(xùn)練的知識(shí)資源，正是通往人工智能的階梯。

| 馮建周

《聯(lián)數(shù)》責(zé)任編委

CCF大數(shù)據(jù)專(zhuān)家委員會(huì)通訊委員

燕山大學(xué)副教授

作者回評(píng)

| 臧根林

感謝馮建周教授的點(diǎn)評(píng)，點(diǎn)評(píng)很到位。谷歌、百度等企業(yè)研究的知識(shí)圖譜屬于通用知識(shí)圖譜，主要用于智能檢索、智能問(wèn)答等，學(xué)術(shù)界研究的知識(shí)圖譜也偏重于通用知識(shí)圖譜，正是由于通用性，導(dǎo)致知識(shí)屬性廣泛，很難進(jìn)行屬性統(tǒng)計(jì)、智能計(jì)算等，而大量行業(yè)性應(yīng)用需要的是領(lǐng)域知識(shí)圖譜，不但知識(shí)可檢索，還希望屬性可統(tǒng)計(jì)、關(guān)系可計(jì)算。領(lǐng)域知識(shí)圖譜需要很強(qiáng)的領(lǐng)域行業(yè)知識(shí)，不在該領(lǐng)域里面的人很難深入研究，我們希望學(xué)術(shù)界更多的研究領(lǐng)域知識(shí)圖譜，這樣更接地氣。拓爾思長(zhǎng)期專(zhuān)注于大數(shù)據(jù)和人工智能核心尖端技術(shù)的研發(fā)和創(chuàng)新應(yīng)用，在人工智能、大數(shù)據(jù)、知識(shí)圖譜、自然語(yǔ)言理解等領(lǐng)域始終處于先進(jìn)水平，曾獲得國(guó)家級(jí)科技獎(jiǎng)。我們的研究提出了知識(shí)圖譜負(fù)關(guān)系、時(shí)態(tài)關(guān)系等概念，都是和領(lǐng)域知識(shí)圖譜特點(diǎn)緊密相關(guān)的。結(jié)合拓爾思的優(yōu)勢(shì)，在我們深耕應(yīng)用超過(guò)20年的某些領(lǐng)域，構(gòu)建成有特色的知識(shí)圖譜，我們相信這可以成為提升行業(yè)人工智能應(yīng)用的階梯。

主編點(diǎn)評(píng)

| 潘柱廷

在大數(shù)據(jù)興起的早期，有一個(gè)流行說(shuō)法是“非結(jié)構(gòu)化”數(shù)據(jù)。其實(shí)所謂非結(jié)構(gòu)化數(shù)據(jù)即不是二維表結(jié)構(gòu)數(shù)據(jù)，也不是常規(guī)數(shù)據(jù)庫(kù)管理系統(tǒng)擅于處理的數(shù)據(jù)結(jié)構(gòu)。

其實(shí)所有的數(shù)據(jù)都是有結(jié)構(gòu)的：非結(jié)構(gòu)化的視頻音頻是完美的適合按照時(shí)間播放的結(jié)構(gòu)；非結(jié)構(gòu)化的社會(huì)關(guān)系是典型的圖結(jié)構(gòu)。

也許面對(duì)所謂“非結(jié)構(gòu)化”數(shù)據(jù)，應(yīng)當(dāng)改用一個(gè)新詞匯——“適算結(jié)構(gòu)”——適合計(jì)算的數(shù)據(jù)結(jié)構(gòu)。所謂“非適算結(jié)構(gòu)”就指最適合表達(dá)客觀事物對(duì)象的那個(gè)結(jié)構(gòu)，卻不太適合在計(jì)算機(jī)進(jìn)行采集、存儲(chǔ)、處理、傳輸、展現(xiàn)。

而知識(shí)圖譜，作為原本一個(gè)典型的“非適算結(jié)構(gòu)”，已經(jīng)在技術(shù)和應(yīng)用的共同努力下，逐步演化成了一個(gè)應(yīng)用非常廣泛的的“適算結(jié)構(gòu)”。

文章來(lái)源：本文刊載于《中國(guó)信息化》雜志2019年第4期(2019年4月20日)

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： ZZvvh2vjnmrpl4 > 《大數(shù)據(jù)》

舉報(bào)/認(rèn)領(lǐng)