選自data conomy 作者:WALE AKINFADERIN 機(jī)器之心編譯 參與:馬亞雄、吳攀 過去的幾個(gè)月中,有幾人聯(lián)系我,訴說他們對嘗試進(jìn)入數(shù)據(jù)科學(xué)的世界,以及用機(jī)器學(xué)習(xí)的技術(shù)去探索統(tǒng)計(jì)規(guī)律并構(gòu)建無可挑剔的數(shù)據(jù)驅(qū)動型產(chǎn)品的熱忱。然而,我發(fā)現(xiàn)一些人實(shí)際上缺乏必要的數(shù)學(xué)直覺和知識框架去得到有用的結(jié)果。這便是我決定寫這篇博文的主要原因。最近涌現(xiàn)出了很多易于使用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的軟件包,例如 scikit-learn, Weka, Tensorflow 等等。機(jī)器學(xué)習(xí)理論是統(tǒng)計(jì)學(xué)、概率學(xué)、計(jì)算機(jī)科學(xué)以及算法的交叉領(lǐng)域,是通過從數(shù)據(jù)中的迭代學(xué)習(xí)去發(fā)現(xiàn)能夠被用來構(gòu)建智能應(yīng)用的隱藏知識。盡管機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有著無限可能,然而為了更好地掌握算法的內(nèi)部工作機(jī)理和得到較好的結(jié)果,對大多數(shù)這些技術(shù)有一個(gè)透徹的數(shù)學(xué)理解是必要的。 邏輯回歸和神經(jīng)網(wǎng)絡(luò)的代價(jià)函數(shù)的計(jì)算方法 為什么要重視數(shù)學(xué)? 機(jī)器學(xué)習(xí)中的數(shù)學(xué)是重要的,有很多原因,下面我將強(qiáng)調(diào)其中的一些: 1. 選擇正確的算法,包括考慮到精度、訓(xùn)練時(shí)間、模型復(fù)雜度、參數(shù)的數(shù)量和特征數(shù)量。 2. 選擇參數(shù)的設(shè)置和驗(yàn)證策略。 3. 通過理解偏差和方差之間的 tradeoff 來識別欠擬合與過擬合。 4. 估計(jì)正確的置信區(qū)間和不確定度。 你需要什么水平的數(shù)學(xué)? 當(dāng)你嘗試著去理解一個(gè)像機(jī)器學(xué)習(xí)(ML)一樣的交叉學(xué)科的時(shí)候,主要問題是理解這些技術(shù)所需要的數(shù)學(xué)知識的量以及必要的水平。這個(gè)問題的答案是多維的,也會因個(gè)人的水平和興趣而不同。關(guān)于機(jī)器學(xué)習(xí)的數(shù)學(xué)公式和理論進(jìn)步正在研究之中,而且一些研究者正在研究更加先進(jìn)的技術(shù)。下面我會說明我所認(rèn)為的要成為一個(gè)機(jī)器學(xué)習(xí)科學(xué)家/工程師所需要的最低的數(shù)學(xué)水平以及每個(gè)數(shù)學(xué)概念的重要性。 1. 線性代數(shù):我的一個(gè)同事 Skyler Speakman 最近說過,「線性代數(shù)是 21 世紀(jì)的數(shù)學(xué)」,我完全贊同他的說法。在機(jī)器學(xué)習(xí)領(lǐng)域,線性代數(shù)無處不在。主成分分析(PCA)、奇異值分解(SVD)、矩陣的特征分解、LU 分解、QR 分解、對稱矩陣、正交化和正交歸一化、矩陣運(yùn)算、投影、特征值和特征向量、向量空間和范數(shù)(Norms),這些都是理解機(jī)器學(xué)習(xí)中所使用的優(yōu)化方法所需要的。令人驚奇的是現(xiàn)在有很多關(guān)于線性代數(shù)的在線資源。我一直說,由于大量的資源在互聯(lián)網(wǎng)是可以獲取的,因而傳統(tǒng)的教室正在消失。我最喜歡的線性代數(shù)課程是由 MIT Courseware 提供的(Gilbert Strang 教授的講授的課程):http://ocw./courses/mathematics/18-06-linear-algebra-spring-2010/ 2. 概率論和統(tǒng)計(jì)學(xué):機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)并不是迥然不同的領(lǐng)域。事實(shí)上,最近就有人將機(jī)器學(xué)習(xí)定義為「在機(jī)器上做統(tǒng)計(jì)」。機(jī)器學(xué)習(xí)需要的一些概率和統(tǒng)計(jì)理論分別是:組合、概率規(guī)則和公理、貝葉斯定理、隨機(jī)變量、方差和期望、條件和聯(lián)合分布、標(biāo)準(zhǔn)分布(伯努利、二項(xiàng)式、多項(xiàng)式、均勻和高斯)、時(shí)刻生成函數(shù)(Moment Generating Functions)、最大似然估計(jì)(MLE)、先驗(yàn)和后驗(yàn)、最大后驗(yàn)估計(jì)(MAP)和抽樣方法。 3. 多元微積分:一些必要的主題包括微分和積分、偏微分、向量值函數(shù)、方向梯度、海森、雅可比、拉普拉斯、拉格朗日分布。 4. 算法和復(fù)雜優(yōu)化:這對理解我們的機(jī)器學(xué)習(xí)算法的計(jì)算效率和可擴(kuò)展性以及利用我們的數(shù)據(jù)集中稀疏性很重要。需要的知識有數(shù)據(jù)結(jié)構(gòu)(二叉樹、散列、堆、棧等)、動態(tài)規(guī)劃、隨機(jī)和子線性算法、圖論、梯度/隨機(jī)下降和原始對偶方法。 5. 其他:這包括以上四個(gè)主要領(lǐng)域沒有涵蓋的數(shù)學(xué)主題。它們是實(shí)數(shù)和復(fù)數(shù)分析(集合和序列、拓?fù)鋵W(xué)、度量空間、單值連續(xù)函數(shù)、極限)、信息論(熵和信息增益)、函數(shù)空間和流形學(xué)習(xí)。 一些用于學(xué)習(xí)機(jī)器學(xué)習(xí)所需的數(shù)學(xué)主題的 MOOC 和材料是(鏈接經(jīng)過壓縮):
這篇博文的主要目的是給出一些善意的關(guān)于數(shù)學(xué)在機(jī)器學(xué)中的重要性的建議,一些一些必需的數(shù)學(xué)主題以及掌握這些主題的一些有用的資源。然而,一些機(jī)器學(xué)習(xí)的癡迷者是數(shù)學(xué)新手,可能會發(fā)現(xiàn)這篇博客令人傷心(認(rèn)真地說,我不是故意的)。對于初學(xué)者而言,你并不需要很多的數(shù)學(xué)知識就能夠開始機(jī)器學(xué)習(xí)的研究?;镜奈{覺條件是這篇博文所描述的數(shù)據(jù)分析,你可以在掌握更多的技術(shù)和算法的過程中學(xué)習(xí)數(shù)學(xué)。 本文為機(jī)器之心編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。 ------------------------------------------------ 加入機(jī)器之心(全職記者/實(shí)習(xí)生):hr@jiqizhixin.com 投稿或?qū)で髨?bào)道:editor@jiqizhixin.com 廣告&商務(wù)合作:bd@jiqizhixin.com |
|