在我開始正式的“論述”之前,我想先說點(diǎn)題外話,我覺得數(shù)據(jù)類的比賽有套路可以遵循的,所以一定要使用套路來比賽。 比如,數(shù)據(jù)的清洗,降維,初期數(shù)據(jù)探索,特征工程等等。每一步都需要熟練的使用各種工具,當(dāng)然我這里就說Python和Matalb。 當(dāng)然主要的還是編程的實(shí)現(xiàn)了,我們看一張比較全面的能力圖。 主要是分為三個(gè)部分:
所以我們的準(zhǔn)備也就是三部分,語言,相關(guān)類庫,常見算法。 我這里想說一個(gè)工具是Matlab,大家可能平時(shí)不用這個(gè),只有搞數(shù)學(xué)和工程的人用的多。但是在數(shù)據(jù)分析也是強(qiáng)的一筆 先可以從matlab的工具箱 處理多元數(shù)據(jù)什么的,都是一把好手 平行坐標(biāo)圖 我其實(shí)想放一個(gè)關(guān)于MATLAB官方的數(shù)據(jù)處理資料,找了一下沒有找到 https://ww2.mathworks.cn/help/pdf_doc/matlab/index.html 翻了一下以前的文章,找到了 在這里,2018也是可以使用的 這是我們PDF里面的目錄,數(shù)據(jù)前處理,擬合,時(shí)序分析是這個(gè)里面重點(diǎn)寫的,可以抽時(shí)間試著處理一下。 Matlab官方資料,這里有我總結(jié)的更多的資料。 接下來就是正經(jīng)的編程語言了,這里選擇Python,使用人數(shù)多,資料豐富,類庫豐富,數(shù)據(jù)處理的不二之選。 https://docs.python.org/zh-cn/3/ 如果是從來沒有寫過程序,那這個(gè)文章可能不適合你,出去掌握一些基礎(chǔ)語法再回來。 我們對(duì)Python的使用應(yīng)該是復(fù)習(xí),而不是預(yù)習(xí),和初次學(xué)習(xí)。跟著官網(wǎng)的文檔使用一次,記住語法的格式。 https://pandas.pydata.org/ 數(shù)據(jù)處理無論如何也繞不過去的庫,官網(wǎng)的學(xué)習(xí)資料最好 https://www.runoob.com/pandas/pandas-tutorial.html 搭配菜鳥教程,快速熟悉常見的操作,認(rèn)真操作一晚,做好筆記的記錄 https://numpy.org/ Numpy的學(xué)習(xí)方法一樣,掌握常見的操作就行 其實(shí)到這里,你的學(xué)習(xí)量就很大了。我這里停一下,配置一下分析的環(huán)境, https://www.jetbrains.com/zh-cn/dataspell/ 這里使用全新的數(shù)據(jù)分析工具DataSpell: 就是這個(gè) https://download.jetbrains.com/python/jetbrains-data-spell-213.4250.391.exe 下載鏈接 安裝 全選 首次打開,同意 開始頁面 使用GitHub登錄 瀏覽器端授權(quán)成功 登錄成功 是使用自帶的解釋器 完成 這里問你要不要下個(gè)索引,下次速度快點(diǎn) 下載 使用正常 加個(gè)封面 |
|