圖論是理解大數(shù)據(jù)的關(guān)鍵嗎？ Posted on 2014年06月3日 by DinK in 咨詢研究企業(yè) with 0 Comments

高山仙人掌 2014-06-04

展開(kāi)全文

現(xiàn)在大數(shù)據(jù)成為一個(gè)熱門話題，然而無(wú)論是網(wǎng)頁(yè)，產(chǎn)品信息，車輛的功能，文本，病例還是氣象等數(shù)據(jù)，對(duì)數(shù)據(jù)的理解的第一步就是要理解數(shù)據(jù)之間的關(guān)聯(lián)。利用圖論，我們將能夠進(jìn)一步提高我們對(duì)數(shù)據(jù)的理解能力，同時(shí)構(gòu)建和分析圖論模型將使得我們能夠自動(dòng)獲取答案。本文我們將以搜索引擎為例介紹圖論在大數(shù)據(jù)分析中的作用：

如今， Google已經(jīng)成為了很多人日常生活中不可或缺的一部分，這個(gè)搜索引擎巨頭通過(guò)圍繞在它的核心能力也就是對(duì)互聯(lián)網(wǎng)的索引，把一系列服務(wù)整合起來(lái)提供給用戶。

Google的網(wǎng)絡(luò)爬蟲(chóng)和PageRank算法使得人們搜索網(wǎng)絡(luò)的方式發(fā)生了革命性的變化。 通過(guò)對(duì)網(wǎng)頁(yè)鏈接數(shù)量和重要性的分類， Google能夠比競(jìng)爭(zhēng)對(duì)手更快地提供更加相關(guān)的信息。

網(wǎng)站和網(wǎng)站之間的鏈接組成了一個(gè)圖，這不是我們通常所說(shuō)的可視化的圖，而是一種用來(lái)表示每個(gè)網(wǎng)頁(yè)如何與其他網(wǎng)頁(yè)發(fā)生關(guān)系的模型。

PageRank算法就是采用這種模型來(lái)判斷一個(gè)網(wǎng)頁(yè)的重要性的。一個(gè)網(wǎng)頁(yè)擁有越多的外部鏈接，它的重要性就可能越高，如果一個(gè)網(wǎng)頁(yè)被更多的權(quán)威信息源所引用，那么這個(gè)網(wǎng)頁(yè)的重要性也就越高。 Google搜索引擎的搜索結(jié)果一般來(lái)說(shuō)比競(jìng)爭(zhēng)對(duì)手要更快更好，就是因?yàn)樗乃惴êw了互聯(lián)網(wǎng)頁(yè)面之間的絕大部分鏈接。

把類似的想法應(yīng)用到其他數(shù)據(jù)上，來(lái)分析數(shù)據(jù)之間的關(guān)聯(lián)，也能夠揭示一些數(shù)據(jù)背后的本質(zhì)。告訴我們哪些是相關(guān)的，哪些是重要的。

圖論就是研究數(shù)據(jù)聯(lián)系的模式

要理解我們?nèi)绾螐臄?shù)據(jù)中得出答案，我們需要了解我們傳統(tǒng)上是如何與數(shù)據(jù)打交道的。幾乎所有的試圖從數(shù)據(jù)中尋找答案的過(guò)程都是通過(guò)搜索實(shí)現(xiàn)的。

搜索首先總是從提出問(wèn)題開(kāi)始的。我們把已知的與數(shù)據(jù)聯(lián)系的越好，我們提出的問(wèn)題就越可能找到答案。比如說(shuō)，如果你找不到你的鑰匙，可能你會(huì)問(wèn)：”我的鑰匙在哪里？”。不過(guò)，這可不是一個(gè)容易得到答案的問(wèn)題。它太寬泛了。而如果你問(wèn)：“我的鑰匙是不是掉在收銀臺(tái)了？” 這個(gè)問(wèn)題比第一個(gè)問(wèn)題要具體一些。如果你的鑰匙在收銀臺(tái)，那這個(gè)問(wèn)題就是一個(gè)好的問(wèn)題。如果不是的話，這個(gè)問(wèn)題也不是個(gè)好問(wèn)題。

對(duì)數(shù)據(jù)庫(kù)的查詢與上述方式類似。要想得到你想要的結(jié)果，你需要構(gòu)造一個(gè)與你的數(shù)據(jù)相關(guān)的查詢條件。你可以使用的查詢語(yǔ)句不計(jì)其數(shù)，但是只有少部分能夠讓你得到你需要的答案。

這樣的情況才是數(shù)據(jù)科學(xué)的真正難點(diǎn)所在，也是為什么好的分析師鳳毛麟角的原因。最好的數(shù)據(jù)科學(xué)家是那些既懂得數(shù)據(jù)，又懂得那些提出正確問(wèn)題的人。

如果把互聯(lián)網(wǎng)看成數(shù)據(jù)集的話，那么搜索引擎就是你的查詢工具。

幾十年來(lái)，搜索引擎都在抓取網(wǎng)絡(luò)信息，索引網(wǎng)頁(yè)以便能夠被搜索到。通過(guò)構(gòu)造不同的搜索條件，用戶可以得到不同的結(jié)果。搜索引擎服務(wù)商們不斷的改進(jìn)他們的產(chǎn)品。然而搜索引擎的真正創(chuàng)新出現(xiàn)在2000年左右。

當(dāng)時(shí)， Google的PageRank算法通過(guò)對(duì)每個(gè)鏈接以及其鏈接的內(nèi)容進(jìn)行建模。通過(guò)圖論建模， Google把網(wǎng)頁(yè)之間的聯(lián)系進(jìn)行了量化，以幫助用戶更快地獲得相關(guān)的結(jié)果。這一算法使用了網(wǎng)頁(yè)之間的關(guān)系來(lái)提高搜索結(jié)果的質(zhì)量。而無(wú)論哪種搜索引擎，用體提供的搜索條件描述性越好，就越能夠得到好的結(jié)果。

你的搜索條件與Google的PageRank算法之間建立了一個(gè)聯(lián)系。而Google通過(guò)圖論建模，建立了一個(gè)你的搜索條件與相關(guān)頁(yè)面之間的聯(lián)系。如果沒(méi)有關(guān)于相關(guān)頁(yè)面和鏈接的模型， Google就需要更精確的搜索條件才能得到滿意的結(jié)果。然而，即便是采用更先進(jìn)的搜索技術(shù)，現(xiàn)在的數(shù)據(jù)問(wèn)題也會(huì)使得構(gòu)造一個(gè)正確的查詢條件變得困難。

現(xiàn)在大數(shù)據(jù)成為一個(gè)熱門話題，然而無(wú)論是網(wǎng)頁(yè)，產(chǎn)品信息，車輛的功能，文本，病例還是氣象等數(shù)據(jù)，對(duì)數(shù)據(jù)的理解的第一步就是要理解數(shù)據(jù)之間的關(guān)聯(lián)。認(rèn)同這一點(diǎn)的話，就能夠理解為什么圖論在將來(lái)能夠?yàn)槿藗兊臄?shù)據(jù)分析提供思路。

今天，我們對(duì)數(shù)據(jù)的很多分析和研究方式已經(jīng)被圖論深深地影響了。而在未來(lái)，利用圖論，我們能夠進(jìn)一步提高我們對(duì)數(shù)據(jù)的理解能力。構(gòu)建和分析圖論模型將使得我們能夠自動(dòng)獲取答案。當(dāng)我們把數(shù)據(jù)自己聯(lián)系起來(lái)的時(shí)候，數(shù)據(jù)中隱藏的答案會(huì)自己出現(xiàn)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：高山仙人掌 > 《其他》

舉報(bào)/認(rèn)領(lǐng)