一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

數(shù)據(jù)科學(xué)家必須具備的核心技能是什么?

 快讀書館 2018-09-02


文/ Kylie,Udacity數(shù)據(jù)分析課程經(jīng)理


首先來(lái)明確數(shù)據(jù)科學(xué)家的定義。

隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的日漸發(fā)展,數(shù)據(jù)采集手段也日益豐富多樣。近三年來(lái),人類擁有的可分析的數(shù)據(jù)的種類和量級(jí)都有了指數(shù)級(jí)別的增長(zhǎng),而數(shù)據(jù)科學(xué)家這一職業(yè)也在這種時(shí)代背景下應(yīng)運(yùn)而生。數(shù)據(jù)科學(xué)家是一個(gè)新興的崗位,這個(gè)頭銜的定義也不一而足。

(可參考數(shù)據(jù)科學(xué)家的 14個(gè) 定義:http:///what-is-a-data-scientist-14-definitions-of-a-data-scientist/

How do Data Science skills map to Data Science jobs?


由于是新興崗位,數(shù)據(jù)科學(xué)家的職責(zé)還沒(méi)有完全精細(xì)化和流程化,仍有很多內(nèi)容值得去探索。目前數(shù)據(jù)科學(xué)家的工作,主要集中在數(shù)據(jù)提取、整合、統(tǒng)計(jì)、建?;蚱渌麖?fù)雜的分析,創(chuàng)造引人注目的可視化詮釋和效果,或開發(fā)應(yīng)用前景更廣闊的數(shù)據(jù)工具。


前 Jawbone 數(shù)據(jù)副總裁、前 Linkedin 高級(jí)數(shù)據(jù)科學(xué)家說(shuō):“數(shù)據(jù)科學(xué)家一半是黑客,一半是分析師,他們使用數(shù)據(jù)來(lái)構(gòu)建產(chǎn)品并找到見解。 就像是哥倫布遇見可倫坡 - 目光如炬的探險(xiǎn)家和懷疑一切的大偵探的結(jié)合?!?/span>


總的來(lái)說(shuō),數(shù)據(jù)科學(xué)家的任務(wù)是:從數(shù)據(jù)的浩瀚海洋中探索發(fā)現(xiàn)數(shù)據(jù)的價(jià)值。他們需要有敏銳的數(shù)字直覺定位問(wèn)題,了解什么數(shù)據(jù)是有價(jià)值的,并有能力把大量散亂的數(shù)據(jù)變得結(jié)構(gòu)化的、可供分析,完成數(shù)據(jù)分析過(guò)程,從而得到問(wèn)題的完整解決方案。


那么回到正題,數(shù)據(jù)科學(xué)家需要具備什么核心技能呢?


1:業(yè)務(wù)熟練度和數(shù)據(jù)直覺。

公司對(duì)于數(shù)據(jù)科學(xué)家的期望,是數(shù)據(jù)驅(qū)動(dòng)的問(wèn)題解決者。 數(shù)據(jù)科學(xué)家的工作中需要經(jīng)常思考,公司需要運(yùn)行哪些測(cè)試,開發(fā)什么樣的數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品,以及如何排定優(yōu)先級(jí)。因此數(shù)據(jù)科學(xué)家也應(yīng)了解公司業(yè)務(wù),用直觀的方式與工程師、產(chǎn)品經(jīng)理溝通,協(xié)作完成任務(wù)。


2:編程工具。

編程語(yǔ)言是數(shù)據(jù)科學(xué)家需要掌握的工具。工具不是目的,而是解決問(wèn)題的手段。選擇處理數(shù)據(jù)的工具時(shí),需要考慮其靈活性和可擴(kuò)展性,常用的編程語(yǔ)言有 Python、R 和數(shù)據(jù)庫(kù)查詢語(yǔ)言(如SQL)。這些都是數(shù)據(jù)科學(xué)家在日常工作中,包括數(shù)據(jù)讀取、整合、建模分析和可視化等整個(gè)流程,經(jīng)常用到的工具。


3:統(tǒng)計(jì)學(xué)。

統(tǒng)計(jì)學(xué)知識(shí)在商業(yè)決策中起到關(guān)鍵性作用。數(shù)據(jù)科學(xué)家應(yīng)當(dāng)熟悉統(tǒng)計(jì)測(cè)試、分布、最大似然估計(jì)等方法。統(tǒng)計(jì)數(shù)據(jù)在所有公司中都很重要,制定決策和設(shè)計(jì)、評(píng)估實(shí)驗(yàn)也都與統(tǒng)計(jì)學(xué)息息相關(guān)。


4:機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)方法可用來(lái)構(gòu)建模型,如 K-近鄰(K-nearest)算法,決策樹(Decision Tree)算法,集成學(xué)習(xí)(Ensemble Learning)等等。尤其是在擁有大量數(shù)據(jù)的大公司(例如 Netflix、Google Maps、Uber),可能用到推薦系統(tǒng)或路徑規(guī)劃等功能,更需要掌握這項(xiàng)技能。這些技術(shù)都可以通過(guò) R 或 Python 庫(kù)來(lái)實(shí)現(xiàn) —— 因此,我們并不需要成為算法專家,更重要的是理解原理和何時(shí)適合使用不同的技術(shù)。


5:微積分和線性代數(shù)

數(shù)據(jù)科學(xué)家需要理解技術(shù)的基礎(chǔ)概念。在對(duì)具體的業(yè)務(wù)建模時(shí),數(shù)據(jù)科學(xué)家需要同時(shí)理解業(yè)務(wù)(技能1),并了解算法的數(shù)學(xué)原理。原因一,在模型表現(xiàn)不理想的情況下,數(shù)據(jù)科學(xué)家需要通過(guò)微調(diào)參數(shù)來(lái)提高模型的精確度。原因二,模型的可解釋性也非常重要,比如數(shù)據(jù)科學(xué)家需要向股東解釋為什么某個(gè)模型可以以 95% 的精確度預(yù)測(cè)貸款違約,以及模型的數(shù)學(xué)原理是什么。

Data Scientist Expertise Wordcloud,來(lái)源:blogs.gartner.com/svetla

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    欧美国产极品一区二区| 日系韩系还是欧美久久| 国产欧美日韩在线一区二区| 亚洲一区二区福利在线| 亚洲国产成人久久一区二区三区| 午夜福利视频日本一区| 国产又粗又爽又猛又黄的| 亚洲熟女一区二区三四区| 日本女人亚洲国产性高潮视频| 日本一本不卡免费视频| 国产av一区二区三区麻豆| 精品一区二区三区乱码中文| 国产精品一区二区三区欧美| 日本特黄特色大片免费观看 | 欧美亚洲国产日韩一区二区| 国产视频在线一区二区| 老熟妇2久久国内精品| 69老司机精品视频在线观看| 精品国产亚洲一区二区三区 | 国产日韩中文视频一区| 国产成人精品99在线观看| 我要看日本黄色小视频| 一区二区免费视频中文乱码国产| 国产精品一级香蕉一区| 色婷婷成人精品综合一区| 精品视频一区二区三区不卡| 国产又色又爽又黄又大| 中文字幕一区二区三区大片| 国产欧美日韩不卡在线视频| 免费性欧美重口味黄色| 国产精品不卡一区二区三区四区 | 日韩欧美精品一区二区三区| 福利视频一区二区三区| 国产乱人伦精品一区二区三区四区| 亚洲午夜精品视频观看| 神马午夜福利一区二区| 国产原创激情一区二区三区| 日韩蜜桃一区二区三区| 久久精品国产在热亚洲| 日本欧美一区二区三区在线播| 免费福利午夜在线观看|