現(xiàn)在大數(shù)據(jù)成為一個(gè)熱門話題, 然而無(wú)論是網(wǎng)頁(yè), 產(chǎn)品信息, 車輛的功能, 文本, 病例還是氣象等數(shù)據(jù), 對(duì)數(shù)據(jù)的理解的第一步就是要理解數(shù)據(jù)之間的關(guān)聯(lián)。利用圖論, 我們將能夠進(jìn)一步提高我們對(duì)數(shù)據(jù)的理解能力,同時(shí)構(gòu)建和分析圖論模型將使得我們能夠自動(dòng)獲取答案。本文我們將以搜索引擎為例介紹圖論在大數(shù)據(jù)分析中的作用: 如今, Google已經(jīng)成為了很多人日常生活中不可或缺的一部分,這個(gè)搜索引擎巨頭通過(guò)圍繞在它的核心能力也就是對(duì)互聯(lián)網(wǎng)的索引, 把一系列服務(wù)整合起來(lái)提供給用戶。 Google的網(wǎng)絡(luò)爬蟲(chóng)和PageRank算法使得人們搜索網(wǎng)絡(luò)的方式發(fā)生了革命性的變化。 通過(guò)對(duì)網(wǎng)頁(yè)鏈接數(shù)量和重要性的分類, Google能夠比競(jìng)爭(zhēng)對(duì)手更快地提供更加相關(guān)的信息。 網(wǎng)站和網(wǎng)站之間的鏈接組成了一個(gè)圖, 這不是我們通常所說(shuō)的可視化的圖, 而是一種用來(lái)表示每個(gè)網(wǎng)頁(yè)如何與其他網(wǎng)頁(yè)發(fā)生關(guān)系的模型。 PageRank算法就是采用這種模型來(lái)判斷一個(gè)網(wǎng)頁(yè)的重要性的。一個(gè)網(wǎng)頁(yè)擁有越多的外部鏈接, 它的重要性就可能越高, 如果一個(gè)網(wǎng)頁(yè)被更多的權(quán)威信息源所引用, 那么這個(gè)網(wǎng)頁(yè)的重要性也就越高。 Google搜索引擎的搜索結(jié)果一般來(lái)說(shuō)比競(jìng)爭(zhēng)對(duì)手要更快更好, 就是因?yàn)樗乃惴êw了互聯(lián)網(wǎng)頁(yè)面之間的絕大部分鏈接。 把類似的想法應(yīng)用到其他數(shù)據(jù)上, 來(lái)分析數(shù)據(jù)之間的關(guān)聯(lián), 也能夠揭示一些數(shù)據(jù)背后的本質(zhì)。 告訴我們哪些是相關(guān)的, 哪些是重要的。 圖論就是研究數(shù)據(jù)聯(lián)系的模式要理解我們?nèi)绾螐臄?shù)據(jù)中得出答案, 我們需要了解我們傳統(tǒng)上是如何與數(shù)據(jù)打交道的。幾乎所有的試圖從數(shù)據(jù)中尋找答案的過(guò)程都是通過(guò)搜索實(shí)現(xiàn)的。 搜索首先總是從提出問(wèn)題開(kāi)始的。 我們把已知的與數(shù)據(jù)聯(lián)系的越好, 我們提出的問(wèn)題就越可能找到答案。 比如說(shuō), 如果你找不到你的鑰匙,可能你會(huì)問(wèn):”我的鑰匙在哪里?”。 不過(guò), 這可不是一個(gè)容易得到答案的問(wèn)題。它太寬泛了。 而如果你問(wèn):“我的鑰匙是不是掉在收銀臺(tái)了?” 這個(gè)問(wèn)題比第一個(gè)問(wèn)題要具體一些。 如果你的鑰匙在收銀臺(tái), 那這個(gè)問(wèn)題就是一個(gè)好的問(wèn)題。如果不是的話, 這個(gè)問(wèn)題也不是個(gè)好問(wèn)題。 對(duì)數(shù)據(jù)庫(kù)的查詢與上述方式類似。 要想得到你想要的結(jié)果, 你需要構(gòu)造一個(gè)與你的數(shù)據(jù)相關(guān)的查詢條件。 你可以使用的查詢語(yǔ)句不計(jì)其數(shù), 但是只有少部分能夠讓你得到你需要的答案。 這樣的情況才是數(shù)據(jù)科學(xué)的真正難點(diǎn)所在, 也是為什么好的分析師鳳毛麟角的原因。 最好的數(shù)據(jù)科學(xué)家是那些既懂得數(shù)據(jù), 又懂得那些提出正確問(wèn)題的人。 如果把互聯(lián)網(wǎng)看成數(shù)據(jù)集的話, 那么搜索引擎就是你的查詢工具。 幾十年來(lái), 搜索引擎都在抓取網(wǎng)絡(luò)信息, 索引網(wǎng)頁(yè)以便能夠被搜索到。 通過(guò)構(gòu)造不同的搜索條件, 用戶可以得到不同的結(jié)果。 搜索引擎服務(wù)商們不斷的改進(jìn)他們的產(chǎn)品。然而搜索引擎的真正創(chuàng)新出現(xiàn)在2000年左右。 當(dāng)時(shí), Google的PageRank算法通過(guò)對(duì)每個(gè)鏈接以及其鏈接的內(nèi)容進(jìn)行建模。通過(guò)圖論建模, Google把網(wǎng)頁(yè)之間的聯(lián)系進(jìn)行了量化, 以幫助用戶更快地獲得相關(guān)的結(jié)果。 這一算法使用了網(wǎng)頁(yè)之間的關(guān)系來(lái)提高搜索結(jié)果的質(zhì)量。 而無(wú)論哪種搜索引擎, 用體提供的搜索條件描述性越好, 就越能夠得到好的結(jié)果。 你的搜索條件與Google的PageRank算法之間建立了一個(gè)聯(lián)系。而Google通過(guò)圖論建模,建立了一個(gè)你的搜索條件與相關(guān)頁(yè)面之間的聯(lián)系。 如果沒(méi)有關(guān)于相關(guān)頁(yè)面和鏈接的模型, Google就需要更精確的搜索條件才能得到滿意的結(jié)果。 然而, 即便是采用更先進(jìn)的搜索技術(shù), 現(xiàn)在的數(shù)據(jù)問(wèn)題也會(huì)使得構(gòu)造一個(gè)正確的查詢條件變得困難。 現(xiàn)在大數(shù)據(jù)成為一個(gè)熱門話題, 然而無(wú)論是網(wǎng)頁(yè), 產(chǎn)品信息, 車輛的功能, 文本, 病例還是氣象等數(shù)據(jù), 對(duì)數(shù)據(jù)的理解的第一步就是要理解數(shù)據(jù)之間的關(guān)聯(lián)。認(rèn)同這一點(diǎn)的話, 就能夠理解為什么圖論在將來(lái)能夠?yàn)槿藗兊臄?shù)據(jù)分析提供思路。 今天, 我們對(duì)數(shù)據(jù)的很多分析和研究方式已經(jīng)被圖論深深地影響了。 而在未來(lái), 利用圖論, 我們能夠進(jìn)一步提高我們對(duì)數(shù)據(jù)的理解能力。 構(gòu)建和分析圖論模型將使得我們能夠自動(dòng)獲取答案。當(dāng)我們把數(shù)據(jù)自己聯(lián)系起來(lái)的時(shí)候, 數(shù)據(jù)中隱藏的答案會(huì)自己出現(xiàn)。 |
|