- 課程地址:Large Scale Machine Learning
- 課程Wiki:Large Scale Machine Learning
- 課件:PPT PDF
一. Gradient Descent with Large Datasets
1.1 Learning with Large Datasets
在使用大量的數(shù)據(jù)之前, 我們應(yīng)該現(xiàn)畫出學(xué)習(xí)曲線, 這樣可以幫助我們判斷使用大量的數(shù)據(jù)是否會(huì)對我們的學(xué)習(xí)算法有幫助.
1.2 Stochastic Gradient Descent
回顧一下線性回歸和梯度下降.
當(dāng)數(shù)據(jù)量非常大的時(shí)候, 計(jì)算消耗就會(huì)很大, 這種將所有樣本一起計(jì)算的梯度下降稱為”Batch gradient descent”.
下面是Batch gradient descent與Stochastic gradient descent的對比.
Stochastic gradient descent最終會(huì)在最小值附近徘徊.
1.3 Mini-Batch Gradient Descent
Mini-Batch gradient descent是相當(dāng)于介于Batch gradient descent和Stochastic gradient descent之間的梯度下降.
1.4 Stochastic Gradient Descent Convergence
在Stochastic gradient descent中, 我們可以繪出每1000個(gè)迭代之后cost的平均圖形, 用來檢查算法是否正確運(yùn)行.
下面是幾種可能出現(xiàn)的情況.
如果想要得到最小值, 可以逐漸地減小.