建立自己的學(xué)習(xí)軌道,以掌握應(yīng)用數(shù)據(jù)科學(xué)的藝術(shù) > High-level Data Science Roadmap 盡管除了日期以外,其他一切都沒(méi)有真正改變,但新的一年充滿(mǎn)了所有人的希望,重新開(kāi)始。添加一些計(jì)劃,精心制定的目標(biāo)和學(xué)習(xí)路線圖,可以使一年的增長(zhǎng)成為一個(gè)很好的配方。 這篇文章旨在通過(guò)為您提供學(xué)習(xí)框架,資源和項(xiàng)目構(gòu)想,以構(gòu)建展示數(shù)據(jù)科學(xué)專(zhuān)業(yè)知識(shí)的扎實(shí)工作組合,來(lái)加強(qiáng)您的計(jì)劃。 免責(zé)聲明:所定義的路線圖是根據(jù)我在數(shù)據(jù)科學(xué)方面的經(jīng)驗(yàn)而編寫(xiě)的。這不是千篇一律的學(xué)習(xí)計(jì)劃。路線圖可能會(huì)更改,以更好地適合任何特定領(lǐng)域/研究領(lǐng)域。另外,創(chuàng)建此程序時(shí)要牢記python,因?yàn)槲覀€(gè)人更喜歡使用python。 什么是學(xué)習(xí)路線圖?以我的拙見(jiàn),學(xué)習(xí)路線圖是課程的擴(kuò)展,它繪制了多層次的技能圖,其中詳細(xì)說(shuō)明了您想磨練哪些技能,如何測(cè)量每個(gè)級(jí)別的結(jié)果以及進(jìn)一步掌握每種技能的技術(shù)。 我的路線圖根據(jù)現(xiàn)實(shí)世界中應(yīng)用程序的復(fù)雜性和通用性將權(quán)重分配給每個(gè)級(jí)別。我還為初學(xué)者增加了估計(jì)時(shí)間,以完成練習(xí)/項(xiàng)目的每個(gè)級(jí)別。 這是一個(gè)金字塔,按復(fù)雜程度和在行業(yè)中的應(yīng)用順序描述了高級(jí)技能。 > Data science tasks in the order of complexity 這將成為我們框架的基礎(chǔ),我們現(xiàn)在必須深入研究每個(gè)層次,以使用更具體,可衡量的細(xì)節(jié)來(lái)完善我們的框架。 特殊性來(lái)自征召每個(gè)階層和資源中的關(guān)鍵主題以引用這些主題。 我們可以通過(guò)將學(xué)習(xí)到的主題應(yīng)用于許多實(shí)際項(xiàng)目中來(lái)對(duì)其進(jìn)行評(píng)估。我添加了一些項(xiàng)目構(gòu)想,門(mén)戶(hù)和平臺(tái),可用于評(píng)估您的熟練程度。 Imp注意:一次只需要一天,一天只需要一個(gè)視頻/博客/一章。它涵蓋范圍廣。不要淹沒(méi)自己! 從底部開(kāi)始,讓我們深入研究每個(gè)層次。 1.程序設(shè)計(jì)或軟件工程(預(yù)計(jì)時(shí)間:2-3個(gè)月) 首先,請(qǐng)確保您具有良好的編程技能。每個(gè)數(shù)據(jù)科學(xué)職位描述都要求至少一種語(yǔ)言的編程專(zhuān)業(yè)知識(shí)。 具體主題包括: · 通用數(shù)據(jù)結(jié)構(gòu)(數(shù)據(jù)類(lèi)型,列表,字典,集合,元組),編寫(xiě)函數(shù),邏輯,控制流,搜索和排序算法,面向?qū)ο蟮木幊桃约笆褂猛獠繋?kù)。 · SQL腳本:使用聯(lián)接,聚合和子查詢(xún)查詢(xún)數(shù)據(jù)庫(kù) · 可以輕松使用終端,Git中的版本控制以及使用GitHub python資源: · Learnpython.org [free]-面向初學(xué)者的免費(fèi)資源。它從頭開(kāi)始涵蓋所有基本編程主題。您將獲得一個(gè)交互式外殼,可以并行練習(xí)這些主題。 · Kaggle [免費(fèi)]-一個(gè)免費(fèi)的交互式python學(xué)習(xí)指南。這是一個(gè)簡(jiǎn)短的教程,涵蓋了數(shù)據(jù)科學(xué)的所有重要主題。 · YouTube上的freecodecamp提供的Python課程[免費(fèi)]-這是一門(mén)5小時(shí)的課程,您可以按照該課程練習(xí)基本概念。 · 中級(jí)python [免費(fèi)]-Patrick的另一門(mén)免費(fèi)課程,位于freecodecamp.org上。 · Coursera Python for Everybody專(zhuān)業(yè)化[fee]-這是一個(gè)專(zhuān)業(yè)化,涵蓋了初學(xué)者級(jí)的概念,python數(shù)據(jù)結(jié)構(gòu),從網(wǎng)絡(luò)上收集數(shù)據(jù)以及將數(shù)據(jù)庫(kù)與python一起使用。 git · Git和GitHub指南[免費(fèi)]:完成這些教程和實(shí)驗(yàn),以牢固掌握版本控制。它將幫助您進(jìn)一步為開(kāi)源項(xiàng)目做出貢獻(xiàn)。 的SQL · Kaggle上的SQL和高級(jí)SQL簡(jiǎn)介。 · Datacamp還提供許多有關(guān)SQL的課程。 通過(guò)解決許多問(wèn)題并建立至少兩個(gè)項(xiàng)目來(lái)衡量您的專(zhuān)業(yè)知識(shí): · 在這里解決很多問(wèn)題:HackerRank(適合初學(xué)者),LeetCode(解決簡(jiǎn)單或中級(jí)問(wèn)題) · 從網(wǎng)站/ API端點(diǎn)中提取數(shù)據(jù)-嘗試從提取網(wǎng)頁(yè)(例如soundcloud.com)的數(shù)據(jù)中提取數(shù)據(jù)來(lái)編寫(xiě)python腳本。將提取的數(shù)據(jù)存儲(chǔ)到CSV文件或SQL數(shù)據(jù)庫(kù)中。 · 像剪刀石頭布,紡紗,子手,骰子滾動(dòng)模擬器,井字游戲等游戲。 · 簡(jiǎn)單的網(wǎng)絡(luò)應(yīng)用程序,例如youtube視頻下載器,網(wǎng)站攔截器,音樂(lè)播放器,pla竊檢查器等。 將這些項(xiàng)目部署在GitHub頁(yè)面上,或僅將代碼托管在GitHub上,以便您學(xué)習(xí)使用Git。 2.數(shù)據(jù)收集與整理(數(shù)據(jù)清理)(預(yù)計(jì)時(shí)間:2個(gè)月) 數(shù)據(jù)科學(xué)工作的重要部分集中在尋找可幫助您解決問(wèn)題的合適數(shù)據(jù)上。您可以從不同的合法來(lái)源收集數(shù)據(jù)-抓?。ㄈ绻W(wǎng)站允許),API,數(shù)據(jù)庫(kù),公共存儲(chǔ)庫(kù)。 一旦掌握了數(shù)據(jù),分析師通常會(huì)發(fā)現(xiàn)自己正在清洗數(shù)據(jù)框,使用多維數(shù)組,使用描述性/科學(xué)計(jì)算,操縱數(shù)據(jù)框以匯總數(shù)據(jù)。 數(shù)據(jù)很少是干凈的,并且沒(méi)有格式可以在'現(xiàn)實(shí)世界'中使用。Pandas和NumPy是您可以使用的兩個(gè)庫(kù),可以將臟數(shù)據(jù)轉(zhuǎn)換為可立即分析的數(shù)據(jù)。 當(dāng)您開(kāi)始舒適地編寫(xiě)python程序時(shí),可以隨時(shí)開(kāi)始學(xué)習(xí)使用pandas和numpy之類(lèi)的庫(kù)。 資源: · 使用pandas進(jìn)行數(shù)據(jù)操作[fee] —來(lái)自數(shù)據(jù)營(yíng)的交互式課程,可以幫助您快速入門(mén)使用pandas進(jìn)行數(shù)據(jù)處理。學(xué)習(xí)添加轉(zhuǎn)換,聚合,子集和索引數(shù)據(jù)幀。 · Kaggle pandas教程[免費(fèi)]-簡(jiǎn)短的動(dòng)手教程,將帶您了解常用的數(shù)據(jù)處理技能。 · Kaggle的數(shù)據(jù)清理課程。 · 關(guān)于學(xué)習(xí)Numpy,Pandas,matplotlib和seaborn的freecodecamp課程[免費(fèi)]。 · 關(guān)于Python數(shù)據(jù)科學(xué)概論的Coursera課程[fee]-這是應(yīng)用數(shù)據(jù)科學(xué)與Python專(zhuān)業(yè)化的第一門(mén)課程。 項(xiàng)目構(gòu)想: · 從您選擇的網(wǎng)站/ API(開(kāi)放供公眾使用)收集數(shù)據(jù),收集數(shù)據(jù),并將數(shù)據(jù)轉(zhuǎn)換為將來(lái)自不同來(lái)源的數(shù)據(jù)存儲(chǔ)到聚合文件或表(DB)中。示例API包括TMDB,quandl,Twitter API等。 · 選擇任何公開(kāi)可用的數(shù)據(jù)集;在查看數(shù)據(jù)集和域后,定義一些您想尋求的問(wèn)題。整理數(shù)據(jù),使用pandas和NumPy找出這些問(wèn)題的答案。 3. EDA,業(yè)務(wù)敏銳度和講故事(預(yù)計(jì)時(shí)間:2-3個(gè)月) 接下來(lái)要掌握的是數(shù)據(jù)分析和講故事。從數(shù)據(jù)中獲取見(jiàn)解,然后以簡(jiǎn)單的術(shù)語(yǔ)和可視化方式將其傳達(dá)給管理層是數(shù)據(jù)分析師的核心職責(zé)。 講故事的部分要求您精通數(shù)據(jù)可視化以及出色的溝通技巧。 具體主題: · 探索性數(shù)據(jù)分析-定義問(wèn)題,處理缺失值,離群值,格式化,過(guò)濾,單變量和多變量分析。 · 數(shù)據(jù)可視化—使用matplotlib,seaborn和plotly等庫(kù)來(lái)繪制數(shù)據(jù)。知識(shí),以選擇正確的圖表來(lái)傳達(dá)數(shù)據(jù)中的發(fā)現(xiàn)。 · 開(kāi)發(fā)儀表板-很大一部分分析師僅使用Excel或Power BI和Tableau之類(lèi)的專(zhuān)用工具來(lái)構(gòu)建儀表板,以匯總/匯總數(shù)據(jù)以幫助管理層制定決策。 · 業(yè)務(wù)敏銳度:提出正確的問(wèn)題來(lái)回答,這些問(wèn)題實(shí)際上是針對(duì)業(yè)務(wù)指標(biāo)的。練習(xí)編寫(xiě)簡(jiǎn)潔明了的報(bào)告,博客和演示文稿。 資源: · 數(shù)據(jù)分析方面的職業(yè)發(fā)展軌跡-datacamp。您可以參考大量互動(dòng)課程,以及在教學(xué)中使用的實(shí)際案例研究。但是,經(jīng)過(guò)專(zhuān)業(yè)化后,請(qǐng)?jiān)谀约旱捻?xiàng)目上工作。 · 使用Python進(jìn)行數(shù)據(jù)分析-IBM在Coursera上。該課程涵蓋了使用python進(jìn)行的爭(zhēng)論,探索性分析和簡(jiǎn)單模型開(kāi)發(fā)。 · 數(shù)據(jù)可視化-Kaggle。另一門(mén)交互式課程,可讓您練習(xí)所有常用的繪圖。 · 電子表格,Excel,Tableau,Power BI中的數(shù)據(jù)可視化-選擇任何人。 · 通過(guò)這些書(shū)來(lái)建立產(chǎn)品意識(shí)和商業(yè)敏銳度:衡量重要問(wèn)題,解碼并征服,破解PM訪談。 項(xiàng)目構(gòu)想 · 對(duì)電影數(shù)據(jù)集進(jìn)行探索性分析,找到創(chuàng)建可盈利電影的公式(以其為靈感),使用醫(yī)療保健,財(cái)務(wù),世衛(wèi)組織,過(guò)往普查,電子商務(wù)等數(shù)據(jù)集。 · 使用上面提供的資源構(gòu)建儀表板(Jupyter Notebooks,Excel,Tableau)。 4.數(shù)據(jù)工程(預(yù)計(jì)時(shí)間:4-5個(gè)月) 數(shù)據(jù)工程通過(guò)使大數(shù)據(jù)驅(qū)動(dòng)型公司的研究工程師和科學(xué)家可以訪問(wèn)干凈的數(shù)據(jù)來(lái)支撐研發(fā)團(tuán)隊(duì)。它本身就是一個(gè)字段,如果您只想關(guān)注問(wèn)題的統(tǒng)計(jì)算法方面,則可以決定跳過(guò)這一部分。 數(shù)據(jù)工程師的職責(zé)包括建立高效的數(shù)據(jù)體系結(jié)構(gòu),簡(jiǎn)化數(shù)據(jù)處理以及維護(hù)大型數(shù)據(jù)系統(tǒng)。 工程師使用Shell(CLI),SQL和python / Scala創(chuàng)建ETL管道,自動(dòng)化文件系統(tǒng)任務(wù)并優(yōu)化數(shù)據(jù)庫(kù)操作以使其具有高性能。另一個(gè)關(guān)鍵技能是實(shí)現(xiàn)這些數(shù)據(jù)體系結(jié)構(gòu),這些體系結(jié)構(gòu)要求AWS,Google Cloud Platform,Microsoft Azure等云服務(wù)提供商熟練掌握。 資源: · [書(shū)籍]機(jī)器學(xué)習(xí)工程,由安德里·伯科夫(Andriy Burkov)撰寫(xiě),是一本涵蓋了在生產(chǎn)環(huán)境中部署/監(jiān)控模型的真實(shí)場(chǎng)景的書(shū)。 · Udacity編寫(xiě)的Data Engineering Nanodegree —就資源的匯編清單而言,我還沒(méi)有遇到過(guò)結(jié)構(gòu)更好的數(shù)據(jù)工程課程,該課程將從頭開(kāi)始涵蓋所有主要概念。 · 數(shù)據(jù)工程入門(mén)-通過(guò)datacamp。一個(gè)很好的資源,可以開(kāi)始使用大量工具來(lái)構(gòu)建ETL管道。 · GCP專(zhuān)業(yè)化方面的數(shù)據(jù)工程,大數(shù)據(jù)和機(jī)器學(xué)習(xí)-您可以在Coursera上完成Google提供的這一專(zhuān)業(yè)化,帶您逐步了解GCP提供的所有主要API和服務(wù),以構(gòu)建完整的數(shù)據(jù)解決方案。 項(xiàng)目構(gòu)想/證書(shū)準(zhǔn)備: · AWS認(rèn)證的機(jī)器學(xué)習(xí)(300 USD)—由AWS提供的監(jiān)考考試,可為您的個(gè)人資料增加一些分量(盡管不能保證任何內(nèi)容),需要對(duì)AWS服務(wù)和ML有一定的了解。 · 專(zhuān)業(yè)數(shù)據(jù)工程師-GCP提供的認(rèn)證。這也是一項(xiàng)督導(dǎo)性考試,評(píng)估您設(shè)計(jì)數(shù)據(jù)處理系統(tǒng),在生產(chǎn)環(huán)境中部署機(jī)器學(xué)習(xí)模型,確保解決方案質(zhì)量和自動(dòng)化的能力。 5.應(yīng)用統(tǒng)計(jì)學(xué)和數(shù)學(xué)(預(yù)計(jì)時(shí)間:4-5個(gè)月) 統(tǒng)計(jì)方法是數(shù)據(jù)科學(xué)的核心部分。幾乎所有的數(shù)據(jù)科學(xué)訪談都主要關(guān)注描述性和推論性統(tǒng)計(jì)。 人們開(kāi)始對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行編碼,卻沒(méi)有清楚地理解解釋這些算法工作原理的基礎(chǔ)統(tǒng)計(jì)和數(shù)學(xué)方法。 您應(yīng)該關(guān)注的主題: · 描述性統(tǒng)計(jì)-能夠匯總數(shù)據(jù)的功能非常強(qiáng)大,但并非總是如此。了解位置估算值(平均值,中位數(shù),眾數(shù),加權(quán)統(tǒng)計(jì)量,修整統(tǒng)計(jì)量)以及描述數(shù)據(jù)的可變性。 · 推論統(tǒng)計(jì)-設(shè)計(jì)假設(shè)檢驗(yàn),A / B檢驗(yàn),定義業(yè)務(wù)指標(biāo),使用置信區(qū)間,p值和alpha值分析收集的數(shù)據(jù)和實(shí)驗(yàn)結(jié)果。 · 線性代數(shù),單變量和多維演算,以了解機(jī)器學(xué)習(xí)中的損失函數(shù),梯度和優(yōu)化器。 資源: · [圖書(shū)]實(shí)用的數(shù)據(jù)科學(xué)統(tǒng)計(jì)(強(qiáng)烈推薦)—有關(guān)所有重要統(tǒng)計(jì)方法以及簡(jiǎn)潔明了的應(yīng)用程序/示例的詳盡指南。 · [圖書(shū)]統(tǒng)計(jì)資料-一種非技術(shù)性但詳盡的指南,旨在了解統(tǒng)計(jì)資料對(duì)我們的日常活動(dòng),體育比賽,推薦系統(tǒng)以及更多情況的影響。 · Python中的統(tǒng)計(jì)思考-幫助您開(kāi)始進(jìn)行統(tǒng)計(jì)思考的基礎(chǔ)課程。本課程也有第二部分。 · 描述性統(tǒng)計(jì)簡(jiǎn)介-由Udacity提供。包含視頻講解,講解了廣泛使用的位置和變異性度量(標(biāo)準(zhǔn)偏差,方差,中位數(shù)絕對(duì)偏差)。 · 推斷統(tǒng)計(jì),Udacity —該課程包括視頻講座,目的是教育您從可能不立即顯而易見(jiàn)的數(shù)據(jù)中得出結(jié)論。它著重于發(fā)展假設(shè)并使用常見(jiàn)的檢驗(yàn),例如t檢驗(yàn),ANOVA和回歸。 項(xiàng)目構(gòu)想: · 解決以上課程中提供的練習(xí),然后嘗試遍歷許多公共數(shù)據(jù)集,您可以在其中應(yīng)用這些統(tǒng)計(jì)概念。提出這樣的問(wèn)題:'是否有足夠的證據(jù)得出在波士頓出生的母親的平均年齡在25歲以上的顯著性水平為0.05。' · 要求同伴/小組/班級(jí)與應(yīng)用程序交互或回答問(wèn)題,以嘗試設(shè)計(jì)和運(yùn)行小型實(shí)驗(yàn)。一段時(shí)間后如果您有大量數(shù)據(jù),請(qǐng)對(duì)收集的數(shù)據(jù)運(yùn)行統(tǒng)計(jì)方法。這可能很難實(shí)現(xiàn),但應(yīng)該非常有趣。 · 圍繞平均回報(bào)率或任何其他指標(biāo)分析股票價(jià)格,加密貨幣和設(shè)計(jì)假設(shè)。使用臨界值確定是否可以拒絕原假設(shè)。 6.機(jī)器學(xué)習(xí)/人工智能(預(yù)計(jì)時(shí)間:4-5個(gè)月) 在精通上述所有主要概念之后,您現(xiàn)在應(yīng)該準(zhǔn)備好開(kāi)始使用精美的ML算法。 有三種主要的學(xué)習(xí)類(lèi)型: · 監(jiān)督學(xué)習(xí)-包括回歸和分類(lèi)問(wèn)題。研究簡(jiǎn)單線性回歸,多元回歸,多項(xiàng)式回歸,樸素貝葉斯,邏輯回歸,KNN,樹(shù)模型,集成模型。了解評(píng)估指標(biāo)。 · 無(wú)監(jiān)督學(xué)習(xí)-聚類(lèi)和降維是無(wú)監(jiān)督學(xué)習(xí)的兩個(gè)廣泛應(yīng)用。深入研究PCA,K均值聚類(lèi),分層聚類(lèi)和高斯混合。 · 強(qiáng)化學(xué)習(xí)(可以跳過(guò)*)—幫助您構(gòu)建自我獎(jiǎng)勵(lì)系統(tǒng)。學(xué)習(xí)使用TF-Agents庫(kù),創(chuàng)建深度Q網(wǎng)絡(luò)等來(lái)優(yōu)化獎(jiǎng)勵(lì)。 大多數(shù)ML項(xiàng)目都需要您掌握一些我在此博客中介紹過(guò)的任務(wù)。 資源: · [book]使用Scikit-Learn,Keras和TensorFlow進(jìn)行動(dòng)手機(jī)器學(xué)習(xí),第二版-我最喜歡的機(jī)器學(xué)習(xí)書(shū)籍之一。不僅涵蓋了理論上的數(shù)學(xué)推導(dǎo),而且還通過(guò)示例展示了算法的實(shí)現(xiàn)。您應(yīng)該解決每章末尾給出的練習(xí)。 · Ng的機(jī)器學(xué)習(xí)課程—任何嘗試學(xué)習(xí)機(jī)器學(xué)習(xí)的人的入門(mén)課程。把手放下! · 機(jī)器學(xué)習(xí)簡(jiǎn)介— Kaggle的互動(dòng)式課程。 · 游戲AI和強(qiáng)化學(xué)習(xí)簡(jiǎn)介–關(guān)于Kaggle強(qiáng)化學(xué)習(xí)的另一門(mén)互動(dòng)課程。 · 使用Python進(jìn)行有監(jiān)督的學(xué)習(xí)-datacamp提供了許多機(jī)器學(xué)習(xí)的課程,您可以遵循這些課程。所有這些都為時(shí)4小時(shí),可以幫助您對(duì)ML的應(yīng)用有一個(gè)體面的了解。 deeplearning.ai的深度學(xué)習(xí)專(zhuān)業(yè) 對(duì)于那些對(duì)進(jìn)一步學(xué)習(xí)深度學(xué)習(xí)感興趣的人,可以通過(guò)完成deeplearning.ai和動(dòng)手實(shí)踐書(shū)提供的專(zhuān)業(yè)知識(shí)來(lái)開(kāi)始。從數(shù)據(jù)科學(xué)的角度來(lái)看,這并不是那么重要,除非您打算解決計(jì)算機(jī)視覺(jué)或NLP問(wèn)題。 深度學(xué)習(xí)值得擁有自己的專(zhuān)門(mén)路線圖。我將使用所有基本概念來(lái)創(chuàng)建 追蹤學(xué)習(xí)進(jìn)度> https://www./Data-Science-learning-tracker-0d3c503280d744acb1b862a1ddd8344e 我還為您創(chuàng)建了一個(gè)關(guān)于概念的學(xué)習(xí)跟蹤器(https://www./Data-Science-learning-tracker-0d3c503280d744acb1b862a1ddd8344e)。您可以根據(jù)需要對(duì)其進(jìn)行自定義,并使用它來(lái)跟蹤進(jìn)度,輕松訪問(wèn)所有資源和項(xiàng)目。 Harshit的數(shù)據(jù)科學(xué)這只是數(shù)據(jù)科學(xué)廣泛領(lǐng)域的高級(jí)概述,您可能需要深入研究每個(gè)主題,并為每個(gè)類(lèi)別創(chuàng)建一個(gè)基于概念的低級(jí)計(jì)劃。 (本文由聞數(shù)起舞翻譯自Emmett Boudreau的文章《Data Science Learning Roadmap for 2021》,轉(zhuǎn)載請(qǐng)注明出處,原文鏈接:https:///data-science-learning-roadmap-for-2021-84f2ba09a44f) |
|
來(lái)自: 東西二王 > 《數(shù)據(jù)技術(shù)》