2018年09月10日 23:22:18 賈辛洪 今天和大家分享一下阿里2017云棲大會知識圖譜專場的內(nèi)容,一共有六場報告。
網(wǎng)上有整個報告的視頻,接近四個小時。我在下面列出了每個報告的提綱或者部分內(nèi)容,讀者可以觀看自己感興趣的部分或者完整視頻。 一、阿里知識圖譜現(xiàn)狀在阿里,知識圖譜有兩個重量級應(yīng)用:淘寶的商品知識圖譜和神馬搜索的通用知識圖譜。下圖是各自的發(fā)展歷程: 第一部分:如何建設(shè)商品知識圖譜淘寶商品知識圖譜的大致框架、建設(shè)步驟、核心技術(shù)和實際中的應(yīng)用:
下圖是商品知識圖譜的數(shù)據(jù)大圖: 其包含了四個核心節(jié)點:商品、產(chǎn)品、品牌、條碼。圍繞著這四個節(jié)點進行擴展,最終形成知識圖譜中實體的關(guān)系結(jié)構(gòu)。 讀者可能不能很好地區(qū)分圖中產(chǎn)品和商品的概念,主講人給出了解釋:產(chǎn)品是由阿里進行統(tǒng)一規(guī)范,商品是產(chǎn)品的次級概念,由商家在這個基礎(chǔ)上擴充其定義。比如iphoneX是一個產(chǎn)品,商家A賣的iphoneX則定義為商品iphoneX-A,商家B賣的iphoneX則定義為商品iphoneX-B。這種結(jié)構(gòu)使系統(tǒng)能夠?qū)ι唐愤M行更好地分析(比如統(tǒng)計銷量)。 存儲商品圖譜數(shù)據(jù)在百億級,圖數(shù)據(jù)庫存儲開銷很大。為了保證毫秒級響應(yīng)和成本控制的考量,阿里的研究團隊采用了分級存儲的架構(gòu): 分級存儲:
智能識別引擎對用戶查詢進行自然語言處理,得到關(guān)鍵詞,查詢知識圖譜,返回用戶需要的商品。 推理引擎
應(yīng)用:導(dǎo)購
第二部分:通用知識圖譜構(gòu)建和應(yīng)用移動搜索的發(fā)展路徑: 神馬知識圖譜的特點: 構(gòu)建方法: 知識圖譜在通用領(lǐng)域的應(yīng)用: 1.知識卡片 在專欄的第一篇文章中我們也提到過,知識卡片能夠提升用戶查詢的體驗。 2.精準(zhǔn)問答 3.基于知識圖譜的實體推薦 二、知識工程:機器智能的加速器1.數(shù)據(jù)、知識與智能為數(shù)據(jù)添加語義信息,從而得到知識;知識為智能的產(chǎn)生提供支持。 2.知識工程四十年這一部分我們在之前的文章也有介紹過,知識圖譜是怎么從語義網(wǎng)絡(luò)、專家系統(tǒng)、語義網(wǎng)發(fā)展過來的。 3.大數(shù)據(jù)環(huán)境下知識工程挑戰(zhàn)及研究內(nèi)容4.在科技大數(shù)據(jù)中的應(yīng)用李老師以清華大學(xué)學(xué)術(shù)大數(shù)據(jù)項目AMiner為例,介紹了知識圖譜的具體應(yīng)用場景。Aminer構(gòu)建了一個學(xué)者的社交網(wǎng)絡(luò),提供了比較全面的搜索和數(shù)據(jù)挖掘服務(wù)。AMiner對搞學(xué)術(shù)研究的讀者幫助比較大,可以方便地查到某個領(lǐng)域有哪些頂尖學(xué)者、或者出眾的論文。有時候我們可能會碰到這種情況,想了解論文作者的具體信息,但是有些情況下,我們在搜索引擎中并不能通過作者的名字查到相關(guān)信息,尤其是中國的作者(同名和多字同音增加了搜索難度)。但是通過AMiner,也許你能夠更快地找到你需要的信息。例如,一開始我并不知道蘇儉老師名字的儉,我通過搜索引擎搜索su jian加上她所在的單位,最后才費力地找到她的中文名。通過AMiner,輸入su jian,第一個結(jié)果就是她的條目(超過1000個結(jié)果,但是她的引用數(shù)最高)。有興趣的讀者可以自己去探索一下這個系統(tǒng)。 三、Semantic and sentiment analysis for KG construction蘇儉老師分享了他們在在自然語言處理方面的工作。包括命名實體識別、指代消歧、實體鏈接、關(guān)系抽取、事件抽取、文本分類、情感分析。 四、中文知識圖譜概況浙江大學(xué)陳華均老師介紹了:
五、當(dāng)知識圖譜遇上聊天機器人:機遇與挑戰(zhàn)狗尾草CTO王昊奮結(jié)合他們的產(chǎn)品——琥珀,從四個方面做了如下報告: 1.聊天機器人簡介2.技術(shù)挑戰(zhàn)3.需要什么樣的知識圖譜4.聊天機器人的機遇和挑戰(zhàn)六、知識圖譜推理技術(shù)的進展及應(yīng)用漆桂林老師報告內(nèi)容分為下面三塊:
|
|