一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

真?zhèn)螖?shù)據(jù)科學(xué)對(duì)比

 天道酬勤YXJ1 2017-06-07

真?zhèn)螖?shù)據(jù)科學(xué)對(duì)比

數(shù)據(jù)科學(xué)書籍、認(rèn)證和文憑,如雨后春筍般層出不窮。不幸的是,許多僅僅是鏡花水月:許多人鉆了這一新名詞的空子,將舊酒(比如統(tǒng)計(jì)學(xué)和R編程)放在“數(shù)據(jù)科學(xué)”這個(gè)新瓶里。

本文選自《數(shù)據(jù)天才:數(shù)據(jù)科學(xué)家修煉之道》

先來說一下R語(yǔ)言編程跟偽數(shù)據(jù)科學(xué)為何扯上了關(guān)系:R是一種有20多年歷史的開源統(tǒng)計(jì)編程語(yǔ)言及編譯環(huán)境,是商業(yè)化產(chǎn)品S+的后繼者。R一直以來都局限于內(nèi)存數(shù)據(jù)處理,在統(tǒng)計(jì)圈子里非常流行,并因其出色的可視化效果為人稱道。一些新型的開發(fā)環(huán)境通過創(chuàng)建R程序包或者將其擴(kuò)展到分布式架構(gòu)里(比如將R與Hadoop結(jié)合的RHadoop),將R(限于在內(nèi)存里處理數(shù)據(jù))的能力擴(kuò)大。其他程序語(yǔ)言當(dāng)然也存在跟偽數(shù)據(jù)科學(xué)沾邊的情況,比如說SAS,但不及R這么流行。說到SAS,它價(jià)格高昂,在政府機(jī)構(gòu)或者實(shí)體企業(yè)的應(yīng)用更為廣泛。但在過去10年數(shù)據(jù)快速增長(zhǎng)的領(lǐng)域(如搜索引擎、社交媒體、移動(dòng)數(shù)據(jù)、協(xié)同過濾推薦等)運(yùn)用不多。R跟C、Perl或者Python的語(yǔ)法不一樣(后三者語(yǔ)法根源一樣),其簡(jiǎn)易性使得寫R的程序員比較廣泛。R還有很多程序包和不錯(cuò)的用戶界面,SAS卻難學(xué)很多。

更混淆的事情是,管理決策層在搭建其數(shù)據(jù)科學(xué)家團(tuán)隊(duì)時(shí),有時(shí)也不是很清楚他們想要的到底是什么。他們往往最終招募的是很純粹的技術(shù)極客、計(jì)算機(jī)科學(xué)家,或者缺乏恰當(dāng)大數(shù)據(jù)經(jīng)驗(yàn)的人。人力資源部門對(duì)于數(shù)據(jù)科學(xué)的了解也不會(huì)好到哪里,因此導(dǎo)致更為嚴(yán)重的問題,他們給出的招聘廣告就是不斷重復(fù)類似的關(guān)鍵詞:Java、Python、MapReduce、R、Hadoop和NoSQL。但數(shù)據(jù)科學(xué)真的就是這些技能的混合嗎?

MapReduce只是一個(gè)將數(shù)據(jù)分解為子集,在不同機(jī)器上分開處理,并把所有結(jié)果集合起來,從而處理大數(shù)據(jù)的泛化框架。因此它涉及的是處理大數(shù)據(jù)的分布式框架,用到的這些服務(wù)器和設(shè)備則組成云(Cloud)。

Hadoop是MapReduce的一種實(shí)現(xiàn),就像C++是面向?qū)ο缶幊痰膶?shí)現(xiàn)一樣。NoSQL意味著“Not Only SQL(意為不單只是SQL)”,是指能更新穎、更高效地訪問(比如MapReduce)數(shù)據(jù)的數(shù)據(jù)庫(kù)或數(shù)據(jù)庫(kù)管理系統(tǒng),有時(shí)它是作為SQL(標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)查詢語(yǔ)言)之下的隱藏層而存在的。

除了MapReduce以外,還有其他框架——例如,圖形數(shù)據(jù)庫(kù)和環(huán)境,它們依賴于節(jié)點(diǎn)和邊這類概念,來管理和訪問數(shù)據(jù)(通常是空間數(shù)據(jù))。這些概念并不一定是新的。在谷歌存在之前,分布式體系結(jié)構(gòu)已被應(yīng)用到搜索技術(shù)環(huán)境中了。15年前,我寫Perl腳本進(jìn)行哈希連接(一種NoSQL連接,用來連接或合并數(shù)據(jù)庫(kù)中的兩個(gè)表)。然而,現(xiàn)在一些數(shù)據(jù)庫(kù)廠商提供的哈希連接,是SQL連接的一個(gè)快速替代品。哈希連接在本書后面還會(huì)討論到。它們使用哈希表,并依賴于名稱-值對(duì)的形式。我想說的結(jié)論是,有時(shí)MapReduce、NoSQL、Hadoop、Python(一種優(yōu)秀的腳本語(yǔ)言,往往用于處理文本和非結(jié)構(gòu)化數(shù)據(jù))會(huì)被認(rèn)為是Perl的后繼者,但它們根源于幾十年前就開發(fā)出的系統(tǒng)和技術(shù),只是在過去的10年里變得更成熟而已,但數(shù)據(jù)科學(xué)并不只是這些。

事實(shí)上,你可以成為一名真正的數(shù)據(jù)科學(xué)家,且不需要掌握這些技能。NoSQL和MapReduce不是新概念——在這些關(guān)鍵詞被創(chuàng)建之前,就有很多人接觸到它們。但要成為一名數(shù)據(jù)科學(xué)家,你需要以下能力。

  • 敏銳的商業(yè)頭腦。

  • 真正的大數(shù)據(jù)專業(yè)知識(shí)(例如,可以在幾個(gè)小時(shí)內(nèi)快速地處理一個(gè)5 000萬(wàn)行的數(shù)據(jù)集)。

  • 認(rèn)知數(shù)據(jù)的能力。

  • 對(duì)模型具有猜疑精神。

  • 了解大數(shù)據(jù)“詛咒”。

  • 有能力溝通并理解管理人員正在試圖解決哪些問題。

  • 能正確評(píng)估付你工資所能帶來的回報(bào)(ROI)或效益提升(lift)。

  • 能夠快速地識(shí)別一個(gè)簡(jiǎn)單的、健壯的、可擴(kuò)展的解決方案。

  • 能夠說服并推動(dòng)管理人員,即使不情愿,也要為了公司、用戶和股東的利益,轉(zhuǎn)到正確的方向上。

  • 真正熱愛數(shù)據(jù)分析。

  • 成功案例的實(shí)際應(yīng)用經(jīng)驗(yàn)。

  • 數(shù)據(jù)架構(gòu)知識(shí)。

  • 數(shù)據(jù)收集和清理技能。

  • 計(jì)算復(fù)雜度的基礎(chǔ)知識(shí)——如何開發(fā)健壯的、高效的、可擴(kuò)展的、可移植的架構(gòu)。

  • 良好的算法知識(shí)。

數(shù)據(jù)科學(xué)家在商業(yè)分析、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域也是通才,比如會(huì)掌握這些專業(yè)知識(shí):健壯性、實(shí)驗(yàn)設(shè)計(jì)、算法復(fù)雜度、儀表盤和數(shù)據(jù)可視化。一些數(shù)據(jù)科學(xué)家也是數(shù)據(jù)策略師——他們可以開發(fā)數(shù)據(jù)收集策略,并使用數(shù)據(jù)來發(fā)現(xiàn)可操作的、能對(duì)商業(yè)產(chǎn)生影響的見解。這就要求數(shù)據(jù)科學(xué)家具有創(chuàng)造性,能根據(jù)業(yè)務(wù)要求,制定分析、提出解決方案。

要理解數(shù)據(jù)科學(xué),所需的基本數(shù)學(xué)知識(shí)包括:

  • 代數(shù),如果可能的話,包括基本矩陣?yán)碚摗?/p>

  • 微積分入門課程。要掌握的理論不多,只需要理解計(jì)算的復(fù)雜度和O標(biāo)記法即可。了解特殊函數(shù),包括對(duì)數(shù)、指數(shù)、冪函數(shù)。微分方程、積分和復(fù)數(shù)不是必要的。

  • 統(tǒng)計(jì)與概率的入門課程,要了解隨機(jī)變量、概率、均值、方差、百分位數(shù)、實(shí)驗(yàn)設(shè)計(jì)、交叉驗(yàn)證、擬合度和穩(wěn)健統(tǒng)計(jì)的概念(不需要了解技術(shù)細(xì)節(jié),而是達(dá)到本書介紹的程度即可)。

從技術(shù)的角度,要掌握的重要技能和知識(shí)有R、Python(或Perl)、Excel、SQL、圖形(可視化)、FTP、基本的UNIX命令(sort、grep、head、tail、管道和重定向操作符、cat、cron定時(shí)等),以及對(duì)如何設(shè)計(jì)和訪問數(shù)據(jù)庫(kù)有基本了解。了解分布式系統(tǒng)如何工作和在哪里能發(fā)現(xiàn)瓶頸(是在硬盤和內(nèi)存之間的數(shù)據(jù)傳輸,還是在互聯(lián)網(wǎng)上),這也很重要。最后,要了解網(wǎng)絡(luò)爬蟲基本知識(shí),這有助于獲取互聯(lián)網(wǎng)上能找到的非結(jié)構(gòu)化數(shù)據(jù)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    中国黄色色片色哟哟哟哟哟哟| 黄色片国产一区二区三区| 亚洲成人免费天堂诱惑| 国产精品不卡高清在线观看| 五月天丁香亚洲综合网| 日本二区三区在线播放| 精品人妻精品一区二区三区| 国产中文字幕久久黄色片| 91欧美一区二区三区成人| 自拍偷拍一区二区三区| 白丝美女被插入视频在线观看| 我的性感妹妹在线观看| 老司机亚洲精品一区二区| 国产欧美日韩一级小黄片| 字幕日本欧美一区二区| 少妇被粗大进猛进出处故事 | 成人精品亚洲欧美日韩| 久一视频这里只有精品| 成年人免费看国产视频| 好骚国产99在线中文| 亚洲一区二区久久观看| 99久久成人精品国产免费| 麻豆视传媒短视频免费观看| 内射精子视频欧美一区二区| 日韩专区欧美中文字幕| 国产精品日本女优在线观看| 国产美女精品午夜福利视频| 少妇淫真视频一区二区| 国产精品亚洲一级av第二区| 欧美极品欧美精品欧美| 风间中文字幕亚洲一区| 麻豆国产精品一区二区三区| 少妇一区二区三区精品| 国内胖女人做爰视频有没有| 国产综合欧美日韩在线精品 | 国产传媒中文字幕东京热| 香蕉久久夜色精品国产尤物| 一区二区三区精品人妻| 亚洲天堂国产精品久久精品| 日韩人妻中文字幕精品| 日本久久中文字幕免费|