要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

hlhq1 2019-10-17

展開全文

損失函數(shù)對于機器學習而言，是最基礎(chǔ)也最重要的環(huán)節(jié)之一，因此在損失函數(shù)上「做好文章」，是一個機器學習項目順利進行的前提之一。Deep Learning Demystified 編輯、數(shù)據(jù)科學家 Harsha Bommana 以淺顯易懂的文字介紹了在不同的深度學習任務(wù)中如何設(shè)置損失函數(shù)，以期大家能夠?qū)p失函數(shù)有一個更加清晰的認識。雷鋒網(wǎng) AI 科技評論編譯如下。

在所有的機器學習項目中，損失函數(shù)的設(shè)置是確保模型以預期的方式工作的最重要的步驟之一。損失函數(shù)能夠給神經(jīng)網(wǎng)絡(luò)的實際應(yīng)用帶來很大的靈活性，并且能夠明確該神經(jīng)網(wǎng)絡(luò)的輸出究竟如何與其他的網(wǎng)絡(luò)連接。

從預測連續(xù)值如月度支出到劃分離散類如對貓和狗進行分類等，都是神經(jīng)網(wǎng)絡(luò)能夠執(zhí)行的任務(wù)。各不相同的任務(wù)需要不同類別的損失，因為這些任務(wù)的輸出格式各不相同。對于非常特定的任務(wù)而言，我們需要明確希望如何定義這一損失。

簡單而言，損失函數(shù)（J）可以被定義為包含兩個參數(shù)的函數(shù)：

1. 預測的輸出

2. 實際的輸出

要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

神經(jīng)網(wǎng)絡(luò)損失可視化

該函數(shù)通過比較模型預測的值與其應(yīng)該輸出的實際值來計算出模型表現(xiàn)的糟糕程度。如果 Y_pred 與 Y 相差很大，損失值就會很高；如果兩個值幾乎一樣，損失值就會很低。因此，我們需要讓損失函數(shù)在數(shù)據(jù)集上訓練時，始終能夠有效地對模型進行懲罰。

如果損失非常大，損失值在模型訓練期間會傳遞到整個網(wǎng)絡(luò)中，同時，權(quán)重的變化會比平時要大很多。如果損失較小，權(quán)重的變化就不會這么大了，因為網(wǎng)絡(luò)已經(jīng)能夠很好地執(zhí)行任務(wù)了。

這一情況某種程度上跟考生準備考試差不多，如果考生考出的成績很糟，我們就可以說損失非常大，那這位考生就需要對自己為下次考試所做的準備工作進行大改，以便在下次考試中取得更好的成績。然而，如果考生的考試成績還不錯的話，他們就不會過多調(diào)整已經(jīng)為下次考試所做的準備工作。

現(xiàn)在，讓我們以分類任務(wù)為例，來了解損失函數(shù)在該示例中到底是如何表現(xiàn)的。

分類損失

當神經(jīng)網(wǎng)絡(luò)試圖預測一個離散值時，我們可以將其視作一個分類模型。該網(wǎng)絡(luò)會預測出圖像呈現(xiàn)的是什么動物類別，或郵件是否是垃圾郵件。首先，讓我們看下分類任務(wù)中神經(jīng)網(wǎng)絡(luò)如何表示輸出。

要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

分類神經(jīng)網(wǎng)絡(luò)輸出格式

輸出層的節(jié)點數(shù)量取決于用數(shù)據(jù)表示的類的數(shù)量。每一個節(jié)點都代表一個單類。每個輸出節(jié)點的值基本上都表示模型將類分類正確的概率。

Pr(Class 1) = Probability of Class 1 being the correct class

一旦我們得到了所有不同類的概率，我們將概率最高的類視為該示例中預測的類。讓我們從探索二元分類如何實現(xiàn)開始。

二元分類（Binary Classification）

在二元分類中，即便我們在兩個類之間進行預測，輸出層中也僅有唯一的一個節(jié)點。為了得到概率格式的輸出，我們需要應(yīng)用一個激活函數(shù)。由于概率值在 0 和 1 之間，我們使用能夠?qū)⑷我鈱嶋H值壓縮為 0 到 1 之間的值的 Sigmoid 函數(shù)。

要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

Sigmoid 函數(shù)圖可視化

當 Sigmoid 函數(shù)中的輸入變大并趨向于正無窮時，該函數(shù)的輸出值會趨近于 1。與此同時，當輸入趨向于負無窮時，該函數(shù)的輸出值會趨近于 0?，F(xiàn)在我們就總能夠得到一個在 0 到 1 之間的值，而這恰恰就是我們所需要的取值范圍，因為我們要用到概率。

如果輸出值大于 0.5（50% 的概率），我們將類視為從屬于正類 (Positive class)；如果輸出值低于 0.5，則將類視為從屬于負類（negative class）。例如，假如我們訓練一個網(wǎng)絡(luò)來對貓和狗進行分類，我們可以將狗分為正類，這樣的話，狗在數(shù)據(jù)集中的輸出值就是 1；同樣地，我們將貓分為負類，貓的輸出值就是 0。

我們?yōu)槎诸愂褂玫膿p失函數(shù)叫做二元交叉熵（Binary Cross Entropy，BCE）。該函數(shù)能夠?qū)Χ诸惾蝿?wù)的神經(jīng)網(wǎng)絡(luò)進行有效地懲罰。下圖為該函數(shù)的表現(xiàn)形式：

要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

二元交叉熵損失圖

我們可以看到，它有兩個分離的函數(shù)，它們各自表示 Y 的取值。當我們需要預測正類（Y=1）時，我們使用：

Loss = -log(Y_pred)

當我們需要預測負類（Y-=0）時，我們使用：

Loss = -log(1-Y_pred)

如圖所示，在第一個函數(shù)中，當 Y_pred 等于 1 時，損失值就等于 0，這就能夠起到作用，因為 Y_pred 恰好與 Y 相等。當 Y_pred 的值趨近于 0 時，我們可以看到損失值會一路增加到一個非常高的概率，并且當 Y_pred 變成 0 時，損失值會變成無窮大。這是因為從分類的角度而言，0 和 1 就是兩個極端——因為它們各自表示完全不同的類。因此當 Y_pred 等于 0、Y 等于 1 時，損失值就變得非常高，從而讓網(wǎng)絡(luò)更加有效地學習它的錯誤。

要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

二元分類損失對比

我們可以用數(shù)學的方式，將整個損失函數(shù)表示為如下方程式：

要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

二元交叉熵方程式

該損失函數(shù)也叫做對數(shù)損失（Log Loss），以上就是該損失函數(shù)者針對二元分類神經(jīng)網(wǎng)絡(luò)任務(wù)的執(zhí)行方式。接下來讓我們來看看多類分類網(wǎng)絡(luò)中如何定義損失。

多類分類（Multiclass Classification）

當我們每次都需要讓模型預測出一個可能的類別時，多類分類是比較合適的方式。由于我們依舊需要處理概率問題，所以對所有輸出的節(jié)點使用 Sigmoid 函數(shù)會比較有用，這樣的話所有的輸出就都在 0 到 1 之間取值，不過，這種方法也存在一個問題：當我們考慮多個類別的概率時，我們需要確保所有單個類別的概率的總值等于 1，這也是由概率的屬性所決定的。然而，使用 Sigmoid 函數(shù)并不能確?？傊刀嫉扔?1，因此我們需要用到另外的激活函數(shù)。

在該示例中，我們使用的激活函數(shù)是 Softmax 函數(shù)。該函數(shù)能夠確保所有的輸出節(jié)點的取值都在 0 到 1 之間，并且所有輸出節(jié)點的總值都等于 1。Softmax 的公式如下：

要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

Softmax 公式

我們不妨用一個示例將 Softmax 可視化：

要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

Softmax 示例可視化

如上圖所示，我們可以簡單將所有的取值變成一個指數(shù)函數(shù)。之后，為了確保所有取值都在 0 到 1 的范圍內(nèi)以及所有輸出值的總值等于 1，我們還需要用所有指數(shù)的總和來除以單個指數(shù)。

所以為什么我們在將每個值正則化之前，要先將每個值指數(shù)化？為什么不能僅僅正則化值本身？這是因為，Softmax 函數(shù)的目標是確保一個輸出值足夠大（趨近于 1）而另外所有的輸出值足夠?。ㄚ吔?0）。Softmax 函數(shù)采用指數(shù)的方式，就是為了確保能夠做到這一點。而之后我們對值進行正則化處理則是因為我們需要用到概率。

既然現(xiàn)在輸出都能夠以合適的格式表示出來了，下面我們來看看如何針對該格式設(shè)置損失函數(shù)。好的一面是，這里用到的損失函數(shù)基本上與二元分類中用到的損失函數(shù)差不多。我們僅僅需要根據(jù)每個輸出節(jié)點對應(yīng)的目標值在每個輸出節(jié)點上使用損失函數(shù)，然后我們就能夠得到所有輸出節(jié)點的對數(shù)損失總值。

要做好深度學習任務(wù)，不妨先在損失函數(shù)上「做好文章」

多分類交叉熵可視化

該損失就叫做多分類交叉熵（Categorical Cross Entropy）。后續(xù)我們再來看看分類任務(wù)中的一個特例——多標簽分類。

多標簽分類（Multilabel Classification）

當你的模型需要預測多類別作為輸出時，就要用到多標簽法分類。例如，假設(shè)你在訓練一個神經(jīng)網(wǎng)絡(luò)來預測一張食物圖片上顯示的食材，這時，網(wǎng)絡(luò)就需要預測多種食材，因而 Y 中就可能出現(xiàn)多個取值為 1 的輸出。

對此，我們僅靠使用 Softmax 函數(shù)是無法完成該分類任務(wù)的，因為 Softmax 函數(shù)往往只能讓一個類別輸出為 1，而其他的所有類別都輸出為 0。所以，在這個任務(wù)上，我們僅僅繼續(xù)對所有輸出節(jié)點值使用 Softmax 函數(shù)，因為我們依舊還需要預測出每個類別的單個概率。

而針對該分類任務(wù)的損失，我們可以直接對每個輸出節(jié)點使用對數(shù)損失函數(shù)并取總值，這跟我們在多類分類任務(wù)中的工作一樣。

做好分類以后，我們下面要做的是回歸。

回歸損失

在回歸中，我們的模型嘗試預測一個連續(xù)值。一些回歸模型的示例有：