每個數(shù)據(jù)科學人都應該知道的7種回歸技術(shù)

CDA數(shù)據(jù)分析師 2019-05-05

展開全文

介紹

線性回歸和邏輯回歸通常是人們在數(shù)據(jù)科學中學習的第一種算法。由于它們的受歡迎程度，許多分析師甚至認為它們是唯一的回歸形式。哪兒些稍微有工作經(jīng)驗的人也會認為它們是所有回歸分析形式的中最重要的。

事實是，有無數(shù)種形式的回歸可以使用。每種形式的回歸都有其自身的重要性和最適合應用的特定場景。在本文中，我會以簡單的方式解釋了數(shù)據(jù)科學中最常用的7種回歸形式。通過這篇文章，我也希望人們能夠?qū)貧w的廣度有一個概念，而不是僅僅對他們遇到的每個問題應都用線性/邏輯回歸，并希望他們能夠使用這么多的回歸技術(shù)！

如果您是數(shù)據(jù)科學的新手，并且正在尋找一個開始學習的地方，那么“ 數(shù)據(jù)科學 ”課程是一個很好的起點！它涵蓋了Python，統(tǒng)計和預測建模的核心主題，它是你進入數(shù)據(jù)科學的第一步的完美方法。

什么是回歸分析？

回歸分析是預測建模技術(shù)的一種技術(shù)，它研究依賴（目標）和自變量（預測變量）之間的關(guān)系。該技術(shù)用于預測，時間序列建模和查找變量之間的因果關(guān)系。例如，通過回歸可以最好地研究魯莽駕駛與駕駛員發(fā)生道路交通事故數(shù)量之間的關(guān)系。

回歸分析是建模和分析數(shù)據(jù)的重要工具。在這里，我們將曲線/直線線擬合到數(shù)據(jù)點，使得數(shù)據(jù)點距曲線或直線的距離之間的差異最小化。我將在接下來的章節(jié)中詳細解釋這一點。

為什么我們使用回歸分析？

如上所述，回歸分析是估計兩個或更多變量之間的關(guān)系。讓我們通過一個簡單的例子來理解這一點：

比方說，你想根據(jù)當前的經(jīng)濟狀況估算公司的銷售增長率。您有最近的公司數(shù)據(jù)表明銷售增長約為經(jīng)濟增長的2.5倍。利用這種洞察力，我們可以根據(jù)當前和過去的信息預測公司的未來銷售情況。

使用回歸分析有許多好處。如下：

它表明因變量和自變量之間的顯著關(guān)系。
它表示多個自變量對一個因變量的影響強度。

回歸分析還允許我們比較不同尺度上測量的變量的影響，例如價格變化的影響和促銷活動的數(shù)量。這些優(yōu)勢有助于市場研究人員/數(shù)據(jù)分析師/數(shù)據(jù)科學家消除和評估用于構(gòu)建預測模型的最佳變量集。

我們有多少種回歸技術(shù)？

我們有各種各樣的回歸技術(shù)可用用于預測。這些技術(shù)主要由三個指標（自變量的數(shù)量，因變量的類型和回歸線的形狀）驅(qū)動。我們將在以下部分詳細討論它們。

對于創(chuàng)造性的，如果您覺得需要使用上述參數(shù)的組合，您甚至可以制作新的回歸，以前人們沒有使用過。但在開始之前，讓我們了解最常用的回歸：

1.線性回歸

它是最廣為人知的建模技術(shù)之一。線性回歸通常是人們在學習預測建模時最先選擇的幾個方法之一。在該方法中，因變量是連續(xù)的，自變量可以是連續(xù)的或離散的，并且回歸線的性質(zhì)是線性的。

線性回歸使用最佳擬合直線（也稱為回歸線）在因變量（Y）和一個或多個自變量（X）之間建立關(guān)系。

它由方程Y = a + b * X + e表示，其中a是截距，b是直線的斜率，e是誤差項。該等式可以根據(jù)給定的預測變量預測目標變量的值。

簡單線性回歸和多元線性回歸之間的區(qū)別在于，多元線性回歸具有（> 1）個獨立變量，而簡單線性回歸只有1個獨立變量。現(xiàn)在的問題是“我們?nèi)绾潍@得最佳擬合線？”。

如何獲得最佳擬合線（a和b的值）？

這項任務可以通過最小二乘法輕松完成。它是用于擬合回歸線的最常用方法。它通過最小化每個數(shù)據(jù)點到直線的垂直偏差的平方和來計算觀測數(shù)據(jù)的最佳擬合線。因為偏差首先要平方，所以當相加時，正值和負值之間不會抵消。

我們可以使用度量的R平方來評估模型性能。

重點：

自變量和因變量之間必須存在線性關(guān)系
多元回歸存在多重共線性，自相關(guān)，異方差等問題。
線性回歸對異常值非常敏感。它可以極大地影響回歸線并最終影響預測值。
多重共線性可以增加系數(shù)估計的方差，并使估計對模型中的微小變化非常敏感。結(jié)果是系數(shù)估計不穩(wěn)定
在多個獨立變量的情況下，我們可以選擇正向選擇，逆向淘汰和逐步方法來選擇最重要的自變量。

2. 邏輯回歸

邏輯回歸方法用于查找事件成功的概率和失敗的概率。當因變量本質(zhì)上是二進制（0/1，真/假，是/否）時，我們應該使用邏輯回歸。這里Y值的范圍從0到1，它可以用下面的等式表示。

odds = p /（1-p）=事件發(fā)生概率/非事件發(fā)生概率 ln（賠率）= ln（p /（1-p）） logit（p）= ln（p /（1-p））= b0 + b1X1 + b2X2 + b3X3 .... + bkXk

以上，p是存在感興趣特征的概率。這時候你應該要問一個問題就是“為什么我們要在等式中使用對數(shù)log？”。

由于我們在這里使用的是二項分布（因變量），我們需要選擇最適合此分布的鏈接函數(shù)。而且，它是logit函數(shù)。在上面的等式中，選擇此參數(shù)是為了以最大化觀察樣本值的可能性，而不是最小化平方誤差的總和（如在普通回歸中一樣）。

重點：

它被廣泛用于分類問題
邏輯回歸不需要依賴因變量和自變量之間的線性關(guān)系。它可以處理各種類型的關(guān)系，因為它將非線性對數(shù)變換應用于預測的優(yōu)勢比
為避免過度擬合和欠擬合，我們應該包括所有重要的變量。確保這種做法的一個好方法是使用逐步方法來估計邏輯回歸
它需要較大樣本量，因為在樣本量較小時，最大似然估計的效率低于普通的最小二乘法
自變量不應相互關(guān)聯(lián)，即不具有多重共線性。但是，我們可以選擇在分析和模型中包含分類變量的交互作用。
如果因變量的值是序數(shù)，那么它被稱為序數(shù)邏輯回歸
如果因變量是多類的，那么它被稱為多元邏輯回歸。

3.多項式回歸

如果自變量的冪大于1，則回歸方程是多項式回歸方程。下面的等式表示多項式方程：

Y = A + B * X ^ 2

在這種回歸技術(shù)中，最佳擬合線不是直線。它是一條與數(shù)據(jù)點吻合的曲線。

重點：

雖然可能存在擬合更高次多項式以獲得更低誤差的誘惑，但這可能會導致過度擬合。始終繪制關(guān)系圖以查看是否匹配，并專注于確保曲線符合問題的本質(zhì)。以下是繪圖如何幫助的示例：

特別注意的是末端的曲線，看看這些形狀和趨勢是否有意義。較高的多項式最終會產(chǎn)生奇怪的結(jié)果。

4.逐步回歸

當我們處理多個自變量時，會使用這種形式的回歸。在這種技術(shù)中，自變量的選擇是在自動過程的幫助下完成的，這個過程是不需要人為的去進行干預的。

通過觀察R方、t檢驗和AIC指標等統(tǒng)計值來識別重要變量，可以實現(xiàn)這一壯舉。逐步回歸基本上適合回歸模型，通過基于指定的標準一次一個地添加/刪除協(xié)變量。下面列出了一些最常用的逐步回歸方法：

標準逐步回歸做兩件事。它根據(jù)每個步驟的需要添加和刪除預測變量。
正向選擇從模型中最重要的預測變量開始，并為每個步驟添加變量。
向后消除從模型中的所有預測變量開始，并刪除每個步驟的最不重要的變量。

該建模技術(shù)的目的是以最少的預測變量來最大化預測能力。它是處理數(shù)據(jù)集更高維度的方法之一。

5.嶺回歸

嶺回歸是一種在數(shù)據(jù)存在多重共線性（自變量高度相關(guān)）時使用的技術(shù)。在多重共線性中，即使最小二乘估計（OLS）是無偏的，但它們的方差也很大，這使得觀測值偏離真實值。通過在回歸估計中增加一定程度的偏差，嶺回歸可以減少標準誤差。

上面，我們看到了線性回歸的方程。還記得嘛？它可以表示為：

y = a + b * x

這個方程也有一個誤差項。完整的等式變?yōu)椋?/p>

y = a + b * x + e（誤差項），[誤差項是校正觀測值和預測值之間預測誤差所需的值] 表示多個自變量，=> y = a + y = a + b1x1 + b2x2 + .... + e。

在線性方程中，預測誤差可以分解為兩個子分量。首先是由于偏差，第二是由于方差。由于這兩個或兩個組件中的任何一個，都可能發(fā)生預測錯誤。在這里，我們將討論由于方差引起的錯誤。

嶺回歸通過收縮參數(shù) λ（lambda）解決了多重共線性問題 ?？聪旅娴姆匠?。

在這個方程中，我們有兩個組成部分。第一個是最小二乘項，另一個是β2 （β平方）總和的λ，其中β是系數(shù)。這被添加到最小二乘項，以便縮小參數(shù)以具有非常低的方差。

重點：

該回歸的假設(shè)與最小二乘回歸相同，但不假設(shè)正態(tài)性
它會縮小系數(shù)的值，但不會達到零，這表明沒有特征選擇功能
這是一種正則化方法，并使用l2正則化。

6.Lasso回歸

類似于嶺回歸，Lasso（最小絕對收縮和選擇算子）也會對回歸系數(shù)的絕對大小進行限制。此外，它還能夠降低線性回歸模型的可變性并提高其準確性。請看下面的方程：

Lasso回歸與嶺回歸的不同之處在于，它在懲罰函數(shù)中使用絕對值而不是平方。這導致懲罰（或等效地約束估計值的絕對值的總和）值，從而導致一些參數(shù)估計值恰好為零。應用的懲罰越大，估計值就會縮小到絕對零值。這導致從給定的n個變量中進行變量選擇。

重點：

該回歸的假設(shè)與最小二乘回歸相同，但不假設(shè)正態(tài)性
它將系數(shù)縮小到零（恰好為零），這肯定有助于特征選擇
這是一種正則化方法并使用l1正則化
如果預測變量高度相關(guān)，則Lasso僅選取其中一個并將其他預測縮減為零

7.彈性網(wǎng)絡回歸

彈性網(wǎng)絡回歸是Lasso回歸和嶺回歸技術(shù)的混合體。它使用L1和L2先驗作為正則化器進行訓練。當存在多個相關(guān)的特征時，彈性網(wǎng)絡是很有用的。Lasso可能隨機選擇其中一種，而彈性網(wǎng)很可能同時選擇兩個。

在Lasso回歸和嶺回歸之間進行權(quán)衡的一個實際優(yōu)勢是，它允許彈性網(wǎng)絡在旋轉(zhuǎn)下繼承嶺回歸的一些穩(wěn)定性。

重點：

在變量高度相關(guān)的情況下，它鼓勵群體效應
所選變量的數(shù)量沒有限制
它會受到雙重收縮的影響

如何選擇正確的回歸模型？

當你只知道一兩種技術(shù)時，生活通常是很簡單的。我所知道的其中一個培訓機構(gòu)告訴他們的學生 - 如果結(jié)果是連續(xù)的 - 那就用線性回歸。如果是二進制的 - 那就用邏輯回歸！但是，我們可以使用的選項數(shù)量越多，選擇正確的選項就越困難?；貧w模型也會發(fā)生類似的情況。

在多種類型的回歸模型中，基于自變量和因變量的類型，數(shù)據(jù)中的維度以及數(shù)據(jù)的其他基本特征來選擇最適合的回歸方法是很重要的。以下是應該選擇正確的回歸模型的關(guān)鍵因素：

數(shù)據(jù)挖掘是構(gòu)建預測模型的必然部分。在選擇正確的模型之前，應該首先確定變量之間的相關(guān)系數(shù)和影響
為了比較不同模型的擬合優(yōu)度，我們可以分析不同的指標，如參數(shù)的統(tǒng)計顯著性，R方，調(diào)整后的R方，AIC指標，BIC指標和誤差項。另一個是Mallow的Cp標準。這基本上通過將模型與所有可能的子模型（仔細選擇它們）進行比較，來檢查模型中可能存在的偏差。
交叉驗證是評估用于預測的模型的最佳方式。在這里，可以將數(shù)據(jù)集分為兩組（訓練和驗證）。觀測值和預測值之間的簡單均方差可以衡量預測的準確性。
如果你的數(shù)據(jù)集有多個混淆變量，則不應選擇自動模型選擇方法，因為你不會希望同時將它們放在模型中。
這也取決于你的目標。與具有高度統(tǒng)計意義的模型相比，功能較弱的模型更容易實現(xiàn)。
回歸正則化方法（Lasso回歸，嶺回歸和彈性網(wǎng)絡回歸）在數(shù)據(jù)集中各變量之間具有高維度和多重共線性的情況下運行良好。