“大數(shù)據(jù)”成為2012年的關(guān)鍵詞匯,被認(rèn)為將會(huì)帶來(lái)生活、工作與思維的重大變革。谷歌、亞馬遜等互聯(lián)網(wǎng)企業(yè)在利用大數(shù)據(jù)方面所做的工作使數(shù)據(jù)行業(yè)看到了新的發(fā)展路徑。大數(shù)據(jù)在教育、醫(yī)療、汽車(chē)、服務(wù)性行業(yè)的應(yīng)用所彰顯的能量使企業(yè)、研究者對(duì)大數(shù)據(jù)的未來(lái)充滿信心?!哆B線》雜志主編克里斯?安德森甚至早在2008年就斷言數(shù)據(jù)洪流將會(huì)帶來(lái)理論的終結(jié),科學(xué)方法將會(huì)過(guò)時(shí),其原話是“面對(duì)大規(guī)模數(shù)據(jù),科學(xué)家“假設(shè)、模型、檢驗(yàn)”的方法變得過(guò)時(shí)了”。 技術(shù)的變遷在任何行業(yè)都是值得歡欣鼓舞的,但不妨在此處借用蘇珊?朗格在《哲學(xué)新視野》中的論述表達(dá)一點(diǎn)謹(jǐn)慎: 某些觀念有時(shí)會(huì)以驚人的力量給知識(shí)狀況帶來(lái)巨大的沖擊。由于這些觀念能一下子解決許多問(wèn)題,所以,它們似乎有希望解決所有基本問(wèn)題,澄清所有不明了的疑點(diǎn)。每個(gè)人都想迅速的抓住它們,作為進(jìn)入某種新實(shí)證科學(xué)的法寶,作為可用來(lái)建構(gòu)一個(gè)綜合分析體系的概念軸心。這種‘宏大概念’突然流行起來(lái),一時(shí)間把所有東西都擠到了一邊。 蘇珊·朗格認(rèn)為這是由于“所有敏感而活躍的人都立即致力于對(duì)它進(jìn)行開(kāi)發(fā)這個(gè)事實(shí)造成的”,這一論述放置在今日對(duì)大數(shù)據(jù)的狂熱崇拜之中也極為恰當(dāng),大數(shù)據(jù)的流行并不意味著其它的理解與思考方式就不再適合存在,正如微軟的Mundie先生所說(shuō),“以數(shù)據(jù)為中心的經(jīng)濟(jì)還處于發(fā)展初期,你可以看到它的輪廓,但它的技術(shù)上的、基礎(chǔ)結(jié)構(gòu)的、甚至商業(yè)模型的影響還沒(méi)有被完全理解?!钡豢煞裾J(rèn)的是人們確實(shí)將更多的學(xué)術(shù)興趣轉(zhuǎn)移到這一領(lǐng)域,而一旦人們能夠以審慎的思路開(kāi)始清晰的闡述它們,即便一時(shí)不能提供完美的解決方案,至少也是能讓人有所獲益的途徑。 人們?cè)谡務(wù)摯髷?shù)據(jù)的美好圖景時(shí)當(dāng)然沒(méi)有完全忘記它可能帶來(lái)的風(fēng)險(xiǎn),但擔(dān)憂多集中于大數(shù)據(jù)的后果,如信息安全,而沒(méi)有集中于如何看待大數(shù)據(jù)本身。本文將就當(dāng)前尤其國(guó)內(nèi)技術(shù)環(huán)境下,進(jìn)入大數(shù)據(jù)時(shí)代所面臨的風(fēng)險(xiǎn)和存在的問(wèn)題做簡(jiǎn)要分析,以希望能厘清概念,澄清一些誤解。 大數(shù)據(jù)的面臨的風(fēng)險(xiǎn)主要表現(xiàn)在以下幾方面: 一、海量數(shù)據(jù)的計(jì)算速度 零售業(yè)巨頭沃爾瑪每小時(shí)處理超過(guò)一百萬(wàn)客戶交易,輸入數(shù)據(jù)庫(kù)中的數(shù)據(jù)預(yù)計(jì)超過(guò)2.5PB(拍字節(jié),2的50次方)——相當(dāng)于美國(guó)國(guó)會(huì)圖書(shū)館書(shū)籍存量的167倍,通信系統(tǒng)制造商思科預(yù)計(jì),到2013年因特網(wǎng)上流動(dòng)的數(shù)據(jù)量每年將達(dá)到667EB(艾字節(jié),2的60次方) ,數(shù)據(jù)增長(zhǎng)的速度將持續(xù)超過(guò)承載其傳送的網(wǎng)絡(luò)發(fā)展速度。 來(lái)自淘寶的數(shù)據(jù)統(tǒng)計(jì)顯示,他們一天產(chǎn)生的數(shù)據(jù)量即可達(dá)到甚至超過(guò)30TB,這僅僅是一家互聯(lián)網(wǎng)公司一日之內(nèi)的數(shù)據(jù)量,處理如此體量的數(shù)據(jù),首先面臨的就是技術(shù)方面的問(wèn)題。海量的交易數(shù)據(jù)、交互數(shù)據(jù)使得大數(shù)據(jù)在規(guī)模和復(fù)雜程度上超出了常用技術(shù)按照合理的成本和時(shí)限抓取、存儲(chǔ)及分析這些數(shù)據(jù)集的能力。 現(xiàn)在談到大數(shù)據(jù),難以避免言必稱(chēng)美國(guó)的傾向,那么美國(guó)究竟如何應(yīng)對(duì)這這方面的問(wèn)題呢? 美國(guó)政府六個(gè)部門(mén)啟動(dòng)的大數(shù)據(jù)研究計(jì)劃中,包括: DARPA的大數(shù)據(jù)研究項(xiàng)目:多尺度異常檢測(cè)項(xiàng)目,旨在解決大規(guī)模數(shù)據(jù)集的異常檢測(cè)和特征化;網(wǎng)絡(luò)內(nèi)部威脅計(jì)劃,旨在通過(guò)分析傳感器和其他來(lái)源的信息,進(jìn)行網(wǎng)絡(luò)威脅和非常規(guī)戰(zhàn)爭(zhēng)行為的自動(dòng)識(shí)別; Machine Reading項(xiàng)目,旨在實(shí)現(xiàn)人工智能的應(yīng)用和發(fā)展學(xué)習(xí)系統(tǒng),對(duì)自然文本進(jìn)行知識(shí)插入。 NSF的大數(shù)據(jù)研究?jī)?nèi)容:從大量、多樣、分散和異構(gòu)的數(shù)據(jù)集中提取有用信息的核心技術(shù);開(kāi)發(fā)一種以統(tǒng)一的理論框架為原則的統(tǒng)計(jì)方法和可伸縮的網(wǎng)絡(luò)模型算法,以區(qū)別適合隨機(jī)性網(wǎng)絡(luò)的方法。 國(guó)家人文基金會(huì)(NEH)項(xiàng)目包括:分析大數(shù)據(jù)的變化對(duì)人文社會(huì)科學(xué)的影響,如數(shù)字化的書(shū)籍和報(bào)紙數(shù)據(jù)庫(kù),從網(wǎng)絡(luò)搜索,傳感器和手機(jī)記錄交易數(shù)據(jù)。 能源部(DOE)的大數(shù)據(jù)研究項(xiàng)目包括:機(jī)器學(xué)習(xí)、數(shù)據(jù)流的實(shí)時(shí)分析、非線性隨機(jī)的數(shù)據(jù)縮減技術(shù)和可擴(kuò)展的統(tǒng)計(jì)分析技術(shù)。 從這份研究計(jì)劃可以看出,絕大多數(shù)研究項(xiàng)目都是應(yīng)對(duì)大數(shù)據(jù)帶來(lái)的技術(shù)挑戰(zhàn),目前我們所使用的數(shù)據(jù)庫(kù)技術(shù)誕生于上世紀(jì)70年代,大數(shù)據(jù)時(shí)代首先需要解決的是整個(gè)IT結(jié)構(gòu)的重新架構(gòu),提升對(duì)不斷增長(zhǎng)的海量數(shù)據(jù)的存儲(chǔ)、處理能力。 筆者最早進(jìn)入數(shù)據(jù)分析領(lǐng)域是在1986年,使用的機(jī)器是長(zhǎng)城,520,小的IBM機(jī)器,在完成數(shù)據(jù)輸入、問(wèn)卷輸入之后,做一個(gè)最簡(jiǎn)單的命令操作,需要等三個(gè)小時(shí)之后才能出結(jié)果,我們現(xiàn)在面對(duì)大數(shù)據(jù)時(shí)的處理能力,形象化來(lái)講就是當(dāng)年P(guān)C機(jī)對(duì)小數(shù)據(jù)的處理能力。 這也就是大數(shù)據(jù)常和云計(jì)算聯(lián)系在一起的原因,實(shí)時(shí)的大型數(shù)據(jù)集分析至少需要使用像MapReduce和Hadoop那樣的分析技術(shù)并有數(shù)千臺(tái)電腦同時(shí)工作,因?yàn)橄胱龅綄?shí)時(shí)分析,需要在數(shù)據(jù)庫(kù)中空出分析工作空間,控制對(duì)資源和數(shù)據(jù)的訪問(wèn),同時(shí)不影響生產(chǎn)系統(tǒng)。 在現(xiàn)有的技術(shù)條件下談大數(shù)據(jù)需要充分考慮到硬件設(shè)施和分析技術(shù)的不足,因?yàn)檫@是前提,這也正是數(shù)據(jù)中心成為谷歌、亞馬遜最高機(jī)密的原因,F(xiàn)acebook的開(kāi)源硬件計(jì)劃得到眾多企業(yè)包括國(guó)內(nèi)的騰訊響應(yīng)的積極響應(yīng)也是基于這方面的現(xiàn)實(shí)需要。 第二、海量數(shù)據(jù)帶來(lái)的風(fēng)險(xiǎn)是處處都是假規(guī)律。 “如果只就人類(lèi)的認(rèn)識(shí)是零星、細(xì)小的而言,小之中蘊(yùn)含著智慧,因?yàn)槿祟?lèi)的認(rèn)識(shí)更多的是依靠實(shí)驗(yàn),而不是依靠了解。最大的危險(xiǎn)必然是不顧后果的運(yùn)用局部知識(shí)。”舒馬赫在《小的是美好的》一書(shū)中用這段話來(lái)表達(dá)對(duì)核能、農(nóng)業(yè)化學(xué)物、運(yùn)輸技術(shù)大規(guī)模運(yùn)用的擔(dān)憂,也適用于今日調(diào)查行業(yè)、企業(yè)、研究者對(duì)全數(shù)據(jù)的迷信、忽視抽樣所帶來(lái)的風(fēng)險(xiǎn)。 對(duì)于海量數(shù)據(jù)數(shù)據(jù)的計(jì)算能力隨著分布式緩存、基于MPP的分布式數(shù)據(jù)庫(kù)、分布式文件系統(tǒng)、各種NoSQL分布式存儲(chǔ)方案等新技術(shù)的普及可以解決,但這只是關(guān)于數(shù)據(jù)處理的第一步(甚至這種處理方式本身都存在很大風(fēng)險(xiǎn)),還并不是最大的風(fēng)險(xiǎn),大數(shù)據(jù)最為嚴(yán)重的風(fēng)險(xiǎn)存在于數(shù)據(jù)分析層面。 (一)數(shù)據(jù)量的增大,會(huì)帶來(lái)規(guī)律的喪失和嚴(yán)重失真 維克托·邁爾-舍恩伯格在其著作《大數(shù)據(jù)的時(shí)代》中也指出這一點(diǎn),“數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確,一些錯(cuò)誤的數(shù)據(jù)會(huì)混進(jìn)數(shù)據(jù)庫(kù),” 此外,大數(shù)據(jù)的另外一層定義,多樣性,即來(lái)源不同的各種信息混雜在一起會(huì)加大數(shù)據(jù)的混亂程度,統(tǒng)計(jì)學(xué)者和計(jì)算機(jī)科學(xué)家指出,巨量數(shù)據(jù)集和細(xì)顆粒度的測(cè)量會(huì)導(dǎo)致出現(xiàn)“錯(cuò)誤發(fā)現(xiàn)”的風(fēng)險(xiǎn)增加。那種認(rèn)為假設(shè)、檢驗(yàn)、驗(yàn)證的科學(xué)方法已經(jīng)過(guò)時(shí)的論調(diào),正是出于面對(duì)大數(shù)據(jù)時(shí)的混亂與迷茫,因?yàn)闊o(wú)法處理非結(jié)構(gòu)化的海量數(shù)據(jù),從中找出確定性的結(jié)論,索性擁抱凱文凱利所稱(chēng)的混亂。這種想法在某些領(lǐng)域是有效地,比如它可以解釋生物的選擇性,東非草原上植物的選擇過(guò)程,但是未必能解釋人,解釋事件過(guò)程和背后的規(guī)律。 大數(shù)據(jù)意味著更多的信息,但同時(shí)也意味著更多的虛假關(guān)系信息,斯坦福大學(xué)Trevor Hastie教授用‘在一堆稻草里面找一根針’來(lái)比喻大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘,問(wèn)題是很多稻草長(zhǎng)得像針一樣,‘如何找到一根針’是現(xiàn)在數(shù)據(jù)挖掘的問(wèn)題上面臨的最大問(wèn)題,海量數(shù)據(jù)帶來(lái)顯著性檢驗(yàn)的問(wèn)題,將使我們很難找到真正的關(guān)聯(lián)。 我們以一個(gè)實(shí)際的案例來(lái)看一下樣本量不斷增大之后,會(huì)出現(xiàn)的問(wèn)題:
上表是關(guān)于2006年網(wǎng)絡(luò)游戲歷程擴(kuò)散的回歸分析,當(dāng)樣本量是5241個(gè)的時(shí)候,你會(huì)發(fā)現(xiàn)用一個(gè)簡(jiǎn)單的線性回歸擬合這個(gè)數(shù)據(jù),年齡、文化程度、收入這三個(gè)變量顯著,當(dāng)我們把樣本量增加到10482個(gè)的時(shí)候,發(fā)現(xiàn)獨(dú)生子女和女性開(kāi)始顯著,增加到20964個(gè)的時(shí)候,體制外這個(gè)變量也開(kāi)始顯著,當(dāng)樣本增加到33萬(wàn)的時(shí)候,所有變量都具有顯著性,這意味著世間萬(wàn)物都是有聯(lián)系的。那么在這個(gè)時(shí)候,如果說(shuō)上億個(gè)人呢?樣本大到一定程度的時(shí)候,很多結(jié)果自然就會(huì)變得顯著,會(huì)無(wú)法進(jìn)行推論,或者得出虛假的統(tǒng)計(jì)學(xué)關(guān)系。此外,斷裂數(shù)據(jù)、缺失數(shù)據(jù)(下文將會(huì)進(jìn)行分析)的存在將會(huì)使這種虛假關(guān)系隨著數(shù)據(jù)量的增長(zhǎng)而增長(zhǎng),我們將很難再接觸到真相。 事實(shí)上,真實(shí)的規(guī)律是這樣的:
這是網(wǎng)絡(luò)游戲2006年歷程擴(kuò)散的結(jié)果,實(shí)際模型是這樣的,通過(guò)這個(gè)模型我們可以看到: 1.分文化程度、體制內(nèi)外不同年齡的人群在游戲使用上存在顯著差異,可以清晰的看到在2006年網(wǎng)絡(luò)游戲呈現(xiàn)出文化程度主導(dǎo)下的創(chuàng)新擴(kuò)散規(guī)律。 2.在高文化程度人群中,開(kāi)始向34歲-40歲擴(kuò)散,呈現(xiàn)大幅增長(zhǎng),并形成一個(gè)峰值。 3.在低文化程度群體中,比如高中、初中在年輕群體中迅速擴(kuò)散,形成一個(gè)峰值。 4.在2006年,網(wǎng)絡(luò)游戲從文化程度的幾個(gè)角度開(kāi)始擴(kuò)散,年齡不再只是高低之分,而是與文化程度變量綜合形成的效果 。 我們看到網(wǎng)絡(luò)游戲這種波浪式的擴(kuò)散過(guò)程,不僅可以找到2006年是誰(shuí)在使用網(wǎng)絡(luò)游戲,也可以用生命周期、家庭周期來(lái)解釋原因,而通過(guò)對(duì)體制內(nèi)與體制外人群的使用差異分析,又可以展現(xiàn)出工作空間不同所帶來(lái)的人的行為差異。當(dāng)我們把2006年的結(jié)果放回網(wǎng)絡(luò)游戲的整個(gè)擴(kuò)散歷程中時(shí),所能看到就已經(jīng)不再是網(wǎng)絡(luò)游戲本身,而是新技術(shù)帶來(lái)的社會(huì)變遷過(guò)程。 對(duì)一個(gè)社會(huì)現(xiàn)象進(jìn)行客觀深刻準(zhǔn)確的分析,對(duì)事物的理解需要數(shù)據(jù),但更需要分析思維,在大數(shù)據(jù)時(shí)代,理論并非不重要,而是變得更加重要。我們所指的理論也并非僵化一成不變的固守舊有理論,而是在處理問(wèn)題的過(guò)程中意識(shí)到海量數(shù)據(jù)所帶來(lái)的復(fù)雜性,堅(jiān)持分析方法和理論的不斷創(chuàng)新。 (二)抽樣分析+全數(shù)據(jù)驗(yàn)證的分析思路 維克托·邁爾·舍恩伯格在介紹大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析思維轉(zhuǎn)變時(shí)提到過(guò)三個(gè)觀點(diǎn),其中之一是:分析所有的數(shù)據(jù),而不再僅僅依靠一小部分?jǐn)?shù)據(jù)。全數(shù)據(jù)一時(shí)甚囂塵上,企業(yè)、研究者以為大數(shù)據(jù)就是全數(shù)據(jù),以至于再談抽樣都似乎帶有保守主義色彩,這種看法無(wú)疑是對(duì)大數(shù)據(jù)和抽樣二者都存在偏見(jiàn)和不足,而一個(gè)風(fēng)行的詞匯恰恰對(duì)于從事這項(xiàng)活動(dòng)的人來(lái)說(shuō)意味著什么才是及其重要的,如果認(rèn)為大數(shù)據(jù)就是收集所有樣本的信息,讓數(shù)據(jù)自己說(shuō)話,那么在方法論上就是狹隘的,而這種狹隘卻因?yàn)槠溟W爍著開(kāi)放、客觀、全面的光芒而被忽視。 這種觀點(diǎn)面臨的第一個(gè)風(fēng)險(xiǎn)就是“全數(shù)據(jù)”在哪里?數(shù)據(jù)量達(dá)到何種程度時(shí),可以認(rèn)為是“全”數(shù)據(jù)? 這里也涉及了全數(shù)據(jù)的第二個(gè)問(wèn)題全(暫且假定我們通過(guò)人們?cè)诠雀枭陷斎胨阉鳁l目就找到了真正意義上的全:谷歌利用搜索記錄而預(yù)測(cè)到流感爆發(fā)的案例被廣為引用以說(shuō)明數(shù)據(jù)自會(huì)說(shuō)話,當(dāng)人們開(kāi)始在網(wǎng)上搜索關(guān)于感冒的詞匯表明他感染了流感,建立流感與空間、病毒的關(guān)系,能夠成功的預(yù)測(cè)一場(chǎng)流感) 數(shù)據(jù)確實(shí)能看到變化,通過(guò)變化作出“預(yù)測(cè)”,但無(wú)法解釋變化的影響因素,維克托·邁爾·舍恩伯格對(duì)此的回答是:我們要相關(guān)性,不要因果關(guān)系。這并非是這位作者有選擇的選擇,而是放棄抽樣而直接采用大數(shù)據(jù)的必然。 維克托?邁爾?舍恩伯格認(rèn)為可以允許不精確而使用大數(shù)據(jù)的簡(jiǎn)單算法解決問(wèn)題,而1936年《文學(xué)文摘》和蓋洛普在總統(tǒng)選舉預(yù)測(cè)中的不同表現(xiàn),至今仍然向我們表明科學(xué)、嚴(yán)謹(jǐn)抽樣的重要性?!段膶W(xué)文摘》依靠紙媒時(shí)代巨大的發(fā)行量獲得240萬(wàn)民眾的數(shù)據(jù),而蓋洛普僅在嚴(yán)格抽樣基礎(chǔ)上研究了5000人,是“小數(shù)據(jù)”的復(fù)雜算法超過(guò)“大數(shù)據(jù)”的簡(jiǎn)單算法的真實(shí)案例。 沒(méi)有抽樣的擬合,直接面對(duì)大數(shù)據(jù),將使我們失去對(duì)人的了解,對(duì)真實(shí)規(guī)律的追尋,畢竟不是所有的社會(huì)事實(shí)都一場(chǎng)流感一樣易于預(yù)測(cè),況且即便是谷歌被廣為贊譽(yù)的流感預(yù)測(cè)案例也被認(rèn)為存在問(wèn)題:在與傳統(tǒng)的流感監(jiān)測(cè)數(shù)據(jù)比較之后,根據(jù)互聯(lián)網(wǎng)流感搜索實(shí)時(shí)更新的Google流感趨勢(shì)被發(fā)現(xiàn)明顯高估了流感峰值水平??茖W(xué)家指出基于搜索有太多的噪音影響了它的精確度這表明基于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的流感跟蹤將不是替代而只能補(bǔ)充傳統(tǒng)的流行病監(jiān)測(cè)網(wǎng)絡(luò)。他們正在開(kāi)發(fā)噪音較少的替代跟蹤方法,例如基于Twitter的流感跟蹤只包含真正病人的帖子,而不是轉(zhuǎn)載的流感新聞報(bào)道。 三、封閉數(shù)據(jù)與斷裂數(shù)據(jù) 封閉數(shù)據(jù)和斷裂數(shù)據(jù)所帶來(lái)的問(wèn)題在第二部分已經(jīng)提到,它們會(huì)產(chǎn)生虛假的統(tǒng)計(jì)學(xué)關(guān)系,影響分析結(jié)果的準(zhǔn)確性和可檢驗(yàn)性,下面具體對(duì)這兩方面的問(wèn)題做一個(gè)分析。 (一)封閉數(shù)據(jù)使數(shù)據(jù)缺乏多樣化 “數(shù)據(jù)增值的關(guān)鍵在于整合,但自由整合的前提是數(shù)據(jù)的開(kāi)放。開(kāi)放數(shù)據(jù)是指將原始的數(shù)據(jù)及其相關(guān)元數(shù)據(jù)以可以下載的電子格式放在互聯(lián)網(wǎng)上,讓其他方自由使用。開(kāi)放數(shù)據(jù)和公開(kāi)數(shù)據(jù)是兩個(gè)不同的概念,公開(kāi)是信息層面的,開(kāi)放是數(shù)據(jù)庫(kù)層面的。開(kāi)放數(shù)據(jù)的意義,不僅僅是滿足公民的知情權(quán),更在于讓大數(shù)據(jù)時(shí)代最重要的生產(chǎn)資料數(shù)據(jù)自由地流動(dòng)起來(lái),以催生創(chuàng)新,推動(dòng)知識(shí)經(jīng)濟(jì)和網(wǎng)絡(luò)經(jīng)濟(jì)的發(fā)展。” 開(kāi)放是大數(shù)據(jù)的題中之義,也是我國(guó)政府、企業(yè)在大數(shù)據(jù)時(shí)代必須適應(yīng)的轉(zhuǎn)變,而我們目前面臨的情況仍然是一個(gè)平臺(tái)一個(gè)數(shù)據(jù),數(shù)據(jù)壁壘造成的局面是:有所有數(shù)據(jù),同時(shí)又什么數(shù)都缺。 比如在醫(yī)療領(lǐng)域,大數(shù)據(jù)被認(rèn)為為醫(yī)療領(lǐng)域帶來(lái)希望 —計(jì)算機(jī)可以在模仿人類(lèi)專(zhuān)家在直覺(jué)方面更進(jìn)一步,而不必依賴(lài)EBM這樣的小數(shù)據(jù)集了。醫(yī)療信息體系仍在使用陳舊的數(shù)據(jù)屏障,在這個(gè)體系中,只有通過(guò)審核的、標(biāo)準(zhǔn)的、被編輯過(guò)的數(shù)據(jù)才能被接收,由于缺乏一致性,許多可用的數(shù)據(jù)被拒之門(mén)外。這個(gè)屏障創(chuàng)造了同質(zhì)化的數(shù)據(jù),而排除了能使系統(tǒng)真正有用的多樣性。 再以新浪、搜狐、網(wǎng)易、騰訊四大微博的數(shù)據(jù)平臺(tái)為例,四家公司的數(shù)據(jù)各自為陣,相互獨(dú)立,關(guān)于微博用戶行為分析都是基于對(duì)自己現(xiàn)有用戶的分析,這種封閉的數(shù)據(jù)環(huán)境下,很多層面的具體分析都將受到很大的局限,比如重疊用戶的分析,什么特征的人群會(huì)只在一個(gè)平臺(tái)上開(kāi)設(shè)賬號(hào),什么特征的人會(huì)在不同平臺(tái)上都開(kāi)設(shè)賬號(hào),在不同平臺(tái)上使用風(fēng)格是否相同,在不同賬號(hào)下活躍度是否相同,影響因素是什么?這是在封閉的數(shù)據(jù)環(huán)境下無(wú)法進(jìn)行分析的。 數(shù)據(jù)是企業(yè)最重要的資產(chǎn),而且隨著數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,將會(huì)變得更有價(jià)值。但封閉的數(shù)據(jù)環(huán)境會(huì)阻礙數(shù)據(jù)價(jià)值的實(shí)現(xiàn),對(duì)企業(yè)應(yīng)用和研究發(fā)現(xiàn)來(lái)講都是如此,因此我們需要合理的機(jī)制在保護(hù)數(shù)據(jù)安全的情況下開(kāi)放數(shù)據(jù),使數(shù)據(jù)得到充分利用。有效的解決辦法之一是公正的第三方數(shù)據(jù)分析公司、研究機(jī)構(gòu)作為中間商收集數(shù)據(jù)、分析數(shù)據(jù),在數(shù)據(jù)層面打破現(xiàn)實(shí)世界的界限,進(jìn)行多家公司的數(shù)據(jù)共享而不是一家公司盲人摸象,這才能實(shí)現(xiàn)真正意義上的大數(shù)據(jù),賦予數(shù)據(jù)更廣闊全面的分析空間,才會(huì)對(duì)產(chǎn)業(yè)結(jié)構(gòu)和數(shù)據(jù)分析本身產(chǎn)生思維轉(zhuǎn)變和有意義的變革。 (二)斷裂數(shù)據(jù)使數(shù)據(jù)缺乏結(jié)構(gòu)化 封閉數(shù)據(jù)使我們無(wú)法看到多樣化的數(shù)據(jù),斷裂數(shù)據(jù)則使數(shù)據(jù)缺乏結(jié)構(gòu)化。來(lái)自IDC的報(bào)告顯示,2012年全球數(shù)字信息中90%的數(shù)據(jù)都是視頻、聲音和圖像文件這樣的非結(jié)構(gòu)化數(shù)據(jù) ,缺乏結(jié)構(gòu)化本身是可以通過(guò)新技術(shù)解決的問(wèn)題,正因?yàn)槿绱瞬攀惯@個(gè)問(wèn)題變得棘手。對(duì)新技術(shù)的過(guò)分追逐,一方面會(huì)使得數(shù)據(jù)本身的真實(shí)性、完整性遭到破壞,另一方面會(huì)使對(duì)數(shù)據(jù)背后的人和生活意義的分析得不到充分重視。 1.行為背后看不見(jiàn)人,缺失生活意義 以淘寶為例,當(dāng)淘寶想研究“究竟是什么人”在淘寶上開(kāi)店的時(shí)候,他們發(fā)現(xiàn)并不像想象中的那么容易。 在淘寶公司的實(shí)時(shí)地圖上,可以利用GPS系統(tǒng)清晰的知道每一秒全國(guó)各地正在發(fā)生的交易,但是對(duì)于這些人的族群特征,實(shí)時(shí)地圖并不能告訴他們更多。 同樣的問(wèn)題出現(xiàn)在騰訊游戲部門(mén)的用戶研究中,他們并不能從實(shí)時(shí)的監(jiān)測(cè)中知道是誰(shuí)在玩他們的游戲,他們有什么愛(ài)好、是什么性格、為什么喜歡一款游戲?他們知道的只是一個(gè)ID賬號(hào),這就是斷裂數(shù)據(jù)帶來(lái)的問(wèn)題:表面上全面,實(shí)際上都是片段式的數(shù)據(jù)。全數(shù)據(jù)確實(shí)可以在一定程度上掌握人的行為,但是無(wú)法知道是什么樣的人的行為。明白這一點(diǎn),就可以理解為什么谷歌會(huì)推出Google+,以獲取具體的用戶信息,包括姓名、愛(ài)好、朋友、身份等具體數(shù)據(jù)。任何一個(gè)平臺(tái)都有其數(shù)據(jù)收集方面的優(yōu)勢(shì),也有其短板,表面上擁有海量數(shù)據(jù),但其實(shí)都只是一個(gè)片段,缺乏連續(xù)性和可識(shí)別性。 巴拉巴西在《爆發(fā)》中介紹了一個(gè)網(wǎng)站LifeLinear,用戶通過(guò)在搜索框中輸入自己的名字就可以查到自己一天任何時(shí)間任何地點(diǎn)的監(jiān)控錄像,無(wú)論在哪兒,你的行蹤都會(huì)被網(wǎng)站記錄下來(lái)。這是作者虛擬的一個(gè)網(wǎng)站,但信以為真并輸入網(wǎng)站名字進(jìn)行搜索的人不在少數(shù),因?yàn)槔碚撋纤强梢詫?shí)現(xiàn)的,一是借助城市中的無(wú)線監(jiān)視系統(tǒng),反饋數(shù)據(jù)到單條檢索數(shù)據(jù)庫(kù)中,指示計(jì)算機(jī)追蹤所有的人。二是,也是最為關(guān)鍵的是每個(gè)人都有固定的生活習(xí)慣、行為規(guī)律,系統(tǒng)可以據(jù)此為每個(gè)人建立行為模型,然后預(yù)測(cè)你可能出現(xiàn)的地方,并在那兒等你。 這樣一個(gè)系統(tǒng)的建立依靠技術(shù)系統(tǒng),但更主要的是對(duì)每一個(gè)個(gè)體的全面了解和分析,假設(shè)、模型、檢驗(yàn)缺一不可。在這本書(shū)中巴拉巴西介紹的另一位數(shù)據(jù)公開(kāi)者,他把自己的位置數(shù)據(jù)、財(cái)產(chǎn)信息都傳到網(wǎng)上,但是關(guān)于這個(gè)人你一無(wú)所知,因?yàn)闆](méi)有任何關(guān)于他性格、喜好等個(gè)性化信息,是“什么都有,但什么都缺”的典型案例。 2.大量的非結(jié)構(gòu)化數(shù)據(jù)顛覆原來(lái)分析的基本范式 在大數(shù)據(jù)時(shí)代,需要處理的數(shù)據(jù)不再是傳統(tǒng)意義上的數(shù)據(jù),而是文字、圖片、音頻視頻等種類(lèi)多樣的數(shù)據(jù),大量的非機(jī)構(gòu)化數(shù)據(jù)對(duì)數(shù)據(jù)分析提出了新的挑戰(zhàn),因?yàn)橹挥心鼙欢x的數(shù)據(jù)才是有價(jià)值的信息。 使用人人網(wǎng)的用戶大概不會(huì)陌生,在個(gè)人主頁(yè)上會(huì)出現(xiàn)好友推薦,這很簡(jiǎn)單,只需要分析用戶的好友,找到朋友之間的關(guān)聯(lián),就可以找到這一點(diǎn)。但是當(dāng)人人網(wǎng)需要決定在廣告位上投放何種廣告時(shí),則需要對(duì)大量的由用戶產(chǎn)生的文字、照片、分享內(nèi)容與好友的互動(dòng)進(jìn)行分析。海量的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)如何加以結(jié)構(gòu)化并從中找出規(guī)律,這需要新的算法、新的分析思維。 四、缺失數(shù)據(jù) 奧斯卡·王爾德在1894年說(shuō),“如今幾乎沒(méi)有無(wú)用的信息,這真悲哀?!眹?yán)格的說(shuō),他一半都沒(méi)有說(shuō)對(duì)。只有有價(jià)值的數(shù)據(jù)才稱(chēng)得上信息,從數(shù)據(jù)中獲得盡量多的信息并非易事,隨著數(shù)據(jù)量的擴(kuò)大,缺失數(shù)據(jù)產(chǎn)生的比例也會(huì)相應(yīng)擴(kuò)大,尤其當(dāng)一個(gè)樣本中出現(xiàn)多項(xiàng)缺失時(shí),會(huì)加大處理的難度,除了構(gòu)造模型失之準(zhǔn)確之外,還有時(shí)間復(fù)雜度方面的問(wèn)題。 對(duì)所有大數(shù)據(jù)來(lái)講,分析哪個(gè)問(wèn)題數(shù)據(jù)量都不夠大,對(duì)于所有人來(lái)講,數(shù)據(jù)都是缺失多于正常數(shù)。在數(shù)據(jù)收集和整合過(guò)程中采用新技術(shù)手段避免這一問(wèn)題將使這一問(wèn)題在分析上帶來(lái)的分險(xiǎn)變得更突出,比如BI公司為了避免數(shù)據(jù)的不完整性采用快速修復(fù)技術(shù)整合分散數(shù)據(jù),這將使我們失去最原始的真實(shí)數(shù)據(jù),這使得研究者很容易舍棄與假設(shè)不符合的數(shù)據(jù),也使驗(yàn)證結(jié)論變得不再可能。 比如雀巢在200個(gè)國(guó)家出售超過(guò)十萬(wàn)種產(chǎn)品有55萬(wàn)家供應(yīng)商,但由于數(shù)據(jù)庫(kù)一團(tuán)糟它并未形成強(qiáng)大的采購(gòu)議價(jià)優(yōu)勢(shì)。在一次檢查中它發(fā)現(xiàn),在900萬(wàn)條供應(yīng)商、客戶和原材料記錄中有差不多一半是過(guò)期或重復(fù)的,剩下的有三分之一不準(zhǔn)確或有缺失。供應(yīng)商名稱(chēng)有的簡(jiǎn)寫(xiě)有的不簡(jiǎn)寫(xiě),產(chǎn)生了重復(fù)記錄。 這一個(gè)案例中就包含了封閉、斷裂、缺失數(shù)據(jù)的問(wèn)題。 固然缺失數(shù)據(jù)可以嘗試通過(guò)模糊數(shù)據(jù)集理論得到解決,但許多研究情境對(duì)數(shù)據(jù)的要求是有確定性的。大數(shù)據(jù)時(shí)代需要的不只是全數(shù)據(jù)、海量數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù),而是真正的開(kāi)放、更可能接近精確、著眼于人和社會(huì)的分析方法和思路。封閉的數(shù)據(jù)平臺(tái),對(duì)斷裂數(shù)據(jù)、缺失數(shù)據(jù)在分析上構(gòu)成的風(fēng)險(xiǎn)的忽視會(huì)使我們?nèi)匀煌A粼谛?shù)據(jù)時(shí)代,更糟糕的是,數(shù)據(jù)還在小數(shù)據(jù)時(shí)代,方法上卻已經(jīng)在單純鼓吹各種應(yīng)對(duì)大數(shù)據(jù)的新技術(shù),這種不匹配造成的混亂比大數(shù)據(jù)本身帶來(lái)的混亂還要危險(xiǎn)。 在一定意義上,我們可以運(yùn)用已收集的數(shù)據(jù),先來(lái)了解如何把事情做得更好。從這個(gè)角度上,我們?cè)賮?lái)考慮創(chuàng)新和大數(shù)據(jù)應(yīng)用。畢竟,大數(shù)據(jù)產(chǎn)生影響的不只是通過(guò)協(xié)同過(guò)濾技術(shù)來(lái)預(yù)測(cè)你需要什么產(chǎn)品,也不只是什么時(shí)候買(mǎi)機(jī)票會(huì)更劃算一些,這只是使人類(lèi)和商業(yè)變得更聰明有趣的一個(gè)方面而已,紐約大學(xué)商務(wù)教授Sinan Aral說(shuō):“科學(xué)革命之前通常是測(cè)量工具的革命”, 大數(shù)據(jù)如此洶涌的發(fā)展之勢(shì)和席卷一切的雄心勢(shì)必將會(huì)影響到科學(xué)理論研究領(lǐng)域,這也是為什么我們需要保持一點(diǎn)冷靜和審慎判斷的原因。此外,大數(shù)據(jù)在推動(dòng)信息共享,促進(jìn)社會(huì)進(jìn)步方面顯示出來(lái)的潛力也值得我們?yōu)楦昝赖慕鉀Q方案努力。 誠(chéng)如格爾茲所說(shuō):“熱力學(xué)第二原理、自然選擇原理、無(wú)意識(shí)動(dòng)機(jī)概念,或生產(chǎn)方式的組織并沒(méi)有說(shuō)明所有的東西,甚至連人的事情都沒(méi)有一一說(shuō)明,但他們畢竟解釋了某些事物;認(rèn)識(shí)到這一點(diǎn),我們的注意力也就轉(zhuǎn)向確定這些事物到底是什么,轉(zhuǎn)向使我們擺脫這些觀念在其最盛極一時(shí)之際導(dǎo)致的大量偽科學(xué)的纏繞。”在文章的最后,借用格爾茲在《文化的解釋》提出的觀點(diǎn),表達(dá)對(duì)大數(shù)據(jù)研究的看法,因?yàn)闀r(shí)至今日,大數(shù)據(jù)這個(gè)概念的模糊之處仍多于其所昭示的,可待完善與研究之處仍然很多,我們的工作才剛開(kāi)始。 |
|
來(lái)自: 宇宙巫師圖書(shū)館 > 《數(shù)字地球》