前幾天,谷歌發(fā)布了一個全新的書籍搜索產(chǎn)品:“Talk to Books”,用戶可以通過對話的方式得到一本書籍的推薦,比如輸入:“What is thebest programming language?”(什么是最好的編程語言?),就會被推薦《C Programming for Arduino 》。這個產(chǎn)品是典型的知識圖譜技術(shù)的應(yīng)用,它讓搜索引擎可以理解用戶的問題和每一本書的內(nèi)容,進(jìn)而進(jìn)行精準(zhǔn)匹配——就像有人在豆瓣給你薦書一樣。事實上,知識圖譜仍舊在驅(qū)動著已有20多年歷史的搜索引擎進(jìn)化。 智能搜索時代來臨 以前的搜索引擎長什么樣?聯(lián)想一下我們用得最多的百度,不難描述:簡潔的白色頁面有一個搜索框,鍵入關(guān)鍵詞后,就會得到一個網(wǎng)頁列表,而決定用戶體驗的只有一個因素:結(jié)果是否足夠多,排序是否足夠準(zhǔn)。 然而今天的百度,已經(jīng)變得截然不同。除了首頁有了信息流外,搜索結(jié)果頁變得更加豐富,左側(cè)結(jié)果列表頁內(nèi)容更加多樣化,聚合了百科、新聞、圖片等等內(nèi)容,右側(cè)變得前所未有的豐富。比如你搜索馬云,出現(xiàn)在右側(cè)的關(guān)聯(lián)內(nèi)容列表就有三個:阿里創(chuàng)始成員、知名企業(yè)家、馬云風(fēng)云史。 信息的聚合似乎還不能讓用戶感知到搜索引擎的“智能”,頂多是“豐富”。如果你搜索“太陽的質(zhì)量”、“2的五次方等于多少”、“形容大海的成語”、“成龍的老婆是誰”,就會發(fā)現(xiàn)百度可以精準(zhǔn)地理解你的問題,再給你個性化的結(jié)果,它不只是可以理解一段文字,也可以理解圖片和聲音,比如你可以用百度App上傳一張植物的圖片,百度會告訴你這是什么。 在百度App搜索在精準(zhǔn)化上表現(xiàn)更明顯,搜索不同內(nèi)容,每次的結(jié)果頁面前面的卡片都截然不同。理論上來說,移動搜索更需要這樣的智能聚合。手機屏幕很小,如果按照傳統(tǒng)的列表來展示搜索結(jié)果頁對用戶并不友好,精準(zhǔn)、智能和個性化地呈現(xiàn)結(jié)果十分重要,直接決定用戶體驗。PC搜索的體驗是由排序算法決定的,而移動搜索的體驗是由精準(zhǔn)程度決定的,最終搜索引擎應(yīng)該只給用戶一個答案——他最需要的答案。 谷歌“Talk to Books”只會給你推薦一本你最需要的書,而不是一個書籍的列表,Siri、度秘這樣的語音助理,給你的答案同樣只有一個,PC搜索要豐富,移動搜索求精準(zhǔn),少即是多。 說到底,相對于五年前而言,搜索引擎更能理解你的意圖——不論是自然語言、關(guān)鍵詞、語音還是圖片,都可以揣摩到你想要找什么內(nèi)容的意圖,同時更加智能地整合更適合的結(jié)果到一個頁面。搜索的case不能窮舉,搜索結(jié)果頁面的不同也無法一一列舉,因為這是完全個性化的,針對不同搜索需求采取不同形式,對結(jié)果進(jìn)行展現(xiàn),一擊即中。 互聯(lián)網(wǎng)從來不缺新技術(shù)和新產(chǎn)品,信息流、短視頻、AI、區(qū)塊鏈、IoT、邊緣計算,新生事物層出不窮。搜索引擎作為互聯(lián)網(wǎng)最基礎(chǔ)也是最廣泛的應(yīng)用之一,每天被我們使用,其潛移默化的進(jìn)化被許多人忽視。如果拿一張五年前的搜索截圖和今天的進(jìn)行對比,你一定會發(fā)現(xiàn)它們截然不同,智能化是核心變化——智能地理解搜索需求,智能地呈現(xiàn)個性而精準(zhǔn)的結(jié)果。 知識圖譜成搜索新基石 搜索引擎的技術(shù)基石是什么?自然語言處理技術(shù),不論是爬取、處理和索引網(wǎng)頁,還是理解用戶的搜索訴求,關(guān)鍵技術(shù)就是自然語言處理技術(shù)。五年前這個答案是正確的,今天再來看這個問題,答案已經(jīng)變成了知識圖譜。 知識圖譜是在技術(shù)層面,將現(xiàn)實世界的知識點進(jìn)行關(guān)聯(lián),形成一個知識網(wǎng)絡(luò),對機器來說就是圖譜。比如提到李彥宏,我們就會想到百度,互聯(lián)網(wǎng)大佬,企業(yè)家,山西等等標(biāo)簽,每一個標(biāo)簽會有對應(yīng)的內(nèi)容,如互聯(lián)網(wǎng)大佬就是馬云、馬化騰等等,如此不斷聯(lián)想不斷關(guān)聯(lián)就可以形成一個龐大的知識點網(wǎng)絡(luò)。 搜索引擎的知識圖譜比上面所聯(lián)想的要龐大很多,因為形成知識圖譜的過程本質(zhì)是在建立認(rèn)知,理解世界。每個人都有自己的知識面,或者說知識結(jié)構(gòu),本質(zhì)就是不同的知識圖譜,一個人窮盡一生能夠構(gòu)建的知識圖譜在搜索引擎面前都是滄海一束,因為后者是映射的整個真實世界。 當(dāng)構(gòu)建了知識圖譜,就可以利用它來讓搜索變得更加智能。一方面,有知識圖譜等于對世界有了認(rèn)知,再加上自然語言處理技術(shù),可以理解用戶的自然語言、聽懂用戶的語音命令,理解各種內(nèi)容進(jìn)而更好地匹配答案。另一方面,基于知識圖譜和自然語言處理技術(shù)孵化出了許多創(chuàng)新的智能搜索產(chǎn)品,如智能問答、對話式搜索、信息流等等,比如被視作“被動搜索引擎”的信息流,每個用戶看到的結(jié)果都不一樣,看了一篇文章的行為會決定接下來會被推薦什么,一切都是動態(tài)的,而其基礎(chǔ)除了用戶理解和內(nèi)容理解技術(shù)以外,同樣包括知識圖譜:內(nèi)容被建立了圖譜,用戶被貼上了標(biāo)簽(畫像),進(jìn)而智能推薦。 總之,今天的智能搜索邏輯,跟當(dāng)年基于關(guān)鍵詞匹配的搜索邏輯已經(jīng)截然不同了。五年前搜索引擎是在理解你的搜索需求后,通過關(guān)鍵詞去索引庫匹配答案,如今的搜索引擎可以理解你的需求,結(jié)合知識圖譜去關(guān)聯(lián)對應(yīng)的內(nèi)容,知識圖譜成為基石。 谷歌是知識圖譜的始作俑者,而在知識圖譜的探索上,百度在中國走在了前面,2014年上半年就已開始提供線上服務(wù),四年的時間線上服務(wù)量整體上增長了300多倍,正是因為構(gòu)建了知識圖譜,所以百度能夠提供跟五年前截然不同的智能搜索體驗。日前,在蘇州第十三屆中國電子信息技術(shù)年會上,百度知識圖譜獲電子學(xué)會科技進(jìn)步一等獎,證明了其學(xué)術(shù)價值。事實上,緊隨百度步伐,搜狗搜索、神馬搜索都已構(gòu)建起自己的知識圖譜,以求實現(xiàn)智能搜索服務(wù)。 百度副總裁,AI技術(shù)平臺體系(AIG)總負(fù)責(zé)人王海峰透露,百度知識圖譜已有幾個億的節(jié)點(知識點),它們基于百度對幾千億的鏈接(每個鏈接是一個內(nèi)容,也是一個實體)進(jìn)行智能挖掘而形成,隨著百度連接的內(nèi)容越來越多(包括網(wǎng)頁和平臺內(nèi)容),這個知識圖譜正在以幾何級數(shù)量爆發(fā)式增長。同時百度在歷史、商業(yè)、通信、零售、科技等等垂直行業(yè)上進(jìn)行知識圖譜的完善細(xì)化,讓搜索引擎更懂領(lǐng)域知識。 王海峰認(rèn)為,“互聯(lián)網(wǎng)很大程度是真實世界的一個鏡像,而搜索引擎又是互聯(lián)網(wǎng)的一個鏡像,所以,搜索引擎很大程度上成了真實世界的鏡像。”知識圖譜是搜索引擎描述和映射真實世界的關(guān)鍵。王海峰是自然語言處理領(lǐng)域的頂尖專家,是百度AI技術(shù)的奠基人,也是百度知識圖譜的推動者。智能搜索時代來臨,王海峰提前對AI和知識圖譜技術(shù)的布局,給百度奠定了堅實的技術(shù)基礎(chǔ)。 知識圖譜不只是改變搜索 智能搜索是知識圖譜最典型的應(yīng)用,不過,既然知識圖譜的本質(zhì)是數(shù)字世界對真實世界的認(rèn)知的構(gòu)建,它的應(yīng)用場景就不只是智能搜索。 很早以前,就有一種說話,互聯(lián)網(wǎng)的本質(zhì)是將原子世界變?yōu)楸忍?。過去幾十年,互聯(lián)網(wǎng)最大的價值是讓實體世界數(shù)字化,比如大量的數(shù)據(jù)可以被傳感器、攝像頭、人工采集錄入存儲。未來幾十年,人工智能會讓數(shù)字世界構(gòu)建對實體世界的認(rèn)知,不只是對現(xiàn)實世界從空間和時間維度進(jìn)行“快照存儲”,而是要理解真實世界正在發(fā)生的一切,理解這個世界,而要認(rèn)知世界就要構(gòu)建知識圖譜。 王海峰此前曾表達(dá)過一個觀點:知識是人工智能的基礎(chǔ),因為機器可以模仿人類的視覺、聽覺等感知能力,但這種感知能力不是人類的專屬,動物也具備感知能力,甚至某些感知能力比人類更強,比如狗的嗅覺,認(rèn)知語言是人區(qū)別于其他動物的能力,同時,知識也使人不斷地進(jìn)步,不斷地凝練、傳承知識,是推動人不斷進(jìn)步的重要基礎(chǔ),知識對于人工智能的價值就在于讓機器具備認(rèn)知能力。 AlphaGo或許不需要知識圖譜,不過倘若將AI應(yīng)用到金融、零售、醫(yī)療、媒體、娛樂、出行諸多行業(yè),就無法離開知識圖譜。去年,我國政府制定了《新一代人工智能發(fā)展規(guī)劃》,將人工智能上升到國家戰(zhàn)略層面,并提出:人工智能產(chǎn)業(yè)要成為新的重要經(jīng)濟增長點,而且要在2030年成為世界主要人工智能創(chuàng)新中心,為躋身創(chuàng)新型國家前列和經(jīng)濟強國奠定重要基礎(chǔ)。伴隨著互聯(lián)網(wǎng)+的浪潮,人工智能滲透到各行各業(yè)成為一個大趨勢,它要在不同行業(yè)發(fā)揮作用的關(guān)鍵,就是構(gòu)建知識圖譜。 比如智能金融中,機器要能夠反欺詐,或者智能授信,就必須建立金融行業(yè)的知識圖譜——當(dāng)然,技術(shù)層面這個過程可能叫做建模。百度2015年就有過嘗試,將知識圖譜應(yīng)用在股票領(lǐng)域,旗下產(chǎn)品股市通通過數(shù)據(jù)(招股書、年報、公告、研報、新聞、行情)、信息(股東、子公司、供應(yīng)商、客戶、合作伙伴、競爭對手)與股票的關(guān)系,以及股票與股票之間的關(guān)系,在股票領(lǐng)域首創(chuàng)知識圖譜,實現(xiàn)智能選股。再比如智能醫(yī)療中,機器要能給病人看病開藥,沒有準(zhǔn)確和完善的醫(yī)療知識圖譜根本做不到。 除了AI外,目前最熱門的新技術(shù),IoT(物聯(lián)網(wǎng))、區(qū)塊鏈,其本質(zhì)都是為了更好地映射真實世界——IoT更好地感知世界,區(qū)塊鏈解決現(xiàn)實世界的信任問題。通過映射真實世界得到數(shù)據(jù)后,再由AI進(jìn)行智能化的處理,進(jìn)而給出反饋,只要涉及到映射真實世界,知識圖譜都是不可或缺的技術(shù),可見其應(yīng)用將遠(yuǎn)遠(yuǎn)不止智能搜索,百度在知識圖譜上的積累將會進(jìn)一步釋放出價值。百度使命是讓復(fù)雜的世界更簡單,理解這個復(fù)雜的世界,將其映射為機器可以理解的知識圖譜,也是必經(jīng)之路。 熱點事件追蹤: 淘寶造富計劃 掌門1對1 美團(tuán)無人車 算法看門狗 金融科技井噴 中國版米其林 社交之王 Uber撞人 新世相 新氧融資 金蝶第二春 劉強東的平臺經(jīng)濟學(xué) 互聯(lián)網(wǎng)上市潮 教育科技 耐克拿下跳一跳 盒馬外賣 阿里收購餓了么 相機爭奪戰(zhàn) 頭條瞄準(zhǔn)愛奇藝 陌陌收購探探 |
|