首先來(lái)明確數(shù)據(jù)科學(xué)家的定義。 隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的日漸發(fā)展,數(shù)據(jù)采集手段也日益豐富多樣。近三年來(lái),人類擁有的可分析的數(shù)據(jù)的種類和量級(jí)都有了指數(shù)級(jí)別的增長(zhǎng),而數(shù)據(jù)科學(xué)家這一職業(yè)也在這種時(shí)代背景下應(yīng)運(yùn)而生。數(shù)據(jù)科學(xué)家是一個(gè)新興的崗位,這個(gè)頭銜的定義也不一而足。 (可參考數(shù)據(jù)科學(xué)家的 14個(gè) 定義:http:///what-is-a-data-scientist-14-definitions-of-a-data-scientist/) 由于是新興崗位,數(shù)據(jù)科學(xué)家的職責(zé)還沒(méi)有完全精細(xì)化和流程化,仍有很多內(nèi)容值得去探索。目前數(shù)據(jù)科學(xué)家的工作,主要集中在數(shù)據(jù)提取、整合、統(tǒng)計(jì)、建?;蚱渌麖?fù)雜的分析,創(chuàng)造引人注目的可視化詮釋和效果,或開發(fā)應(yīng)用前景更廣闊的數(shù)據(jù)工具。 前 Jawbone 數(shù)據(jù)副總裁、前 Linkedin 高級(jí)數(shù)據(jù)科學(xué)家說(shuō):“數(shù)據(jù)科學(xué)家一半是黑客,一半是分析師,他們使用數(shù)據(jù)來(lái)構(gòu)建產(chǎn)品并找到見解。 就像是哥倫布遇見可倫坡 - 目光如炬的探險(xiǎn)家和懷疑一切的大偵探的結(jié)合?!?/span> 總的來(lái)說(shuō),數(shù)據(jù)科學(xué)家的任務(wù)是:從數(shù)據(jù)的浩瀚海洋中探索發(fā)現(xiàn)數(shù)據(jù)的價(jià)值。他們需要有敏銳的數(shù)字直覺定位問(wèn)題,了解什么數(shù)據(jù)是有價(jià)值的,并有能力把大量散亂的數(shù)據(jù)變得結(jié)構(gòu)化的、可供分析,完成數(shù)據(jù)分析過(guò)程,從而得到問(wèn)題的完整解決方案。 那么回到正題,數(shù)據(jù)科學(xué)家需要具備什么核心技能呢? 1:業(yè)務(wù)熟練度和數(shù)據(jù)直覺。 公司對(duì)于數(shù)據(jù)科學(xué)家的期望,是數(shù)據(jù)驅(qū)動(dòng)的問(wèn)題解決者。 數(shù)據(jù)科學(xué)家的工作中需要經(jīng)常思考,公司需要運(yùn)行哪些測(cè)試,開發(fā)什么樣的數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品,以及如何排定優(yōu)先級(jí)。因此數(shù)據(jù)科學(xué)家也應(yīng)了解公司業(yè)務(wù),用直觀的方式與工程師、產(chǎn)品經(jīng)理溝通,協(xié)作完成任務(wù)。 2:編程工具。 編程語(yǔ)言是數(shù)據(jù)科學(xué)家需要掌握的工具。工具不是目的,而是解決問(wèn)題的手段。選擇處理數(shù)據(jù)的工具時(shí),需要考慮其靈活性和可擴(kuò)展性,常用的編程語(yǔ)言有 Python、R 和數(shù)據(jù)庫(kù)查詢語(yǔ)言(如SQL)。這些都是數(shù)據(jù)科學(xué)家在日常工作中,包括數(shù)據(jù)讀取、整合、建模分析和可視化等整個(gè)流程,經(jīng)常用到的工具。 3:統(tǒng)計(jì)學(xué)。 統(tǒng)計(jì)學(xué)知識(shí)在商業(yè)決策中起到關(guān)鍵性作用。數(shù)據(jù)科學(xué)家應(yīng)當(dāng)熟悉統(tǒng)計(jì)測(cè)試、分布、最大似然估計(jì)等方法。統(tǒng)計(jì)數(shù)據(jù)在所有公司中都很重要,制定決策和設(shè)計(jì)、評(píng)估實(shí)驗(yàn)也都與統(tǒng)計(jì)學(xué)息息相關(guān)。 4:機(jī)器學(xué)習(xí)。 機(jī)器學(xué)習(xí)方法可用來(lái)構(gòu)建模型,如 K-近鄰(K-nearest)算法,決策樹(Decision Tree)算法,集成學(xué)習(xí)(Ensemble Learning)等等。尤其是在擁有大量數(shù)據(jù)的大公司(例如 Netflix、Google Maps、Uber),可能用到推薦系統(tǒng)或路徑規(guī)劃等功能,更需要掌握這項(xiàng)技能。這些技術(shù)都可以通過(guò) R 或 Python 庫(kù)來(lái)實(shí)現(xiàn) —— 因此,我們并不需要成為算法專家,更重要的是理解原理和何時(shí)適合使用不同的技術(shù)。 5:微積分和線性代數(shù) 數(shù)據(jù)科學(xué)家需要理解技術(shù)的基礎(chǔ)概念。在對(duì)具體的業(yè)務(wù)建模時(shí),數(shù)據(jù)科學(xué)家需要同時(shí)理解業(yè)務(wù)(技能1),并了解算法的數(shù)學(xué)原理。原因一,在模型表現(xiàn)不理想的情況下,數(shù)據(jù)科學(xué)家需要通過(guò)微調(diào)參數(shù)來(lái)提高模型的精確度。原因二,模型的可解釋性也非常重要,比如數(shù)據(jù)科學(xué)家需要向股東解釋為什么某個(gè)模型可以以 95% 的精確度預(yù)測(cè)貸款違約,以及模型的數(shù)學(xué)原理是什么。 Data Scientist Expertise Wordcloud,來(lái)源:blogs.gartner.com/svetla |
|