標準化與歸一化1、標準化(Standardization)和歸一化(Normalization)概念1.1、定義歸一化和標準化都是對數(shù)據(jù)做變換的方式,將原始的一列數(shù)據(jù)轉(zhuǎn)換到某個范圍,或者某種形態(tài),具體的:
我在這里多寫一點,很多博客甚至書中說,
S
t
a
n
d
a
r
d
i
z
a
t
i
o
n
Standardization
Standardization是改變數(shù)據(jù)分布,將其變換為服從
N
(
0
,
1
)
N(0,1)
N(0,1)的標準正態(tài)分布,這點是錯的,Standardization會改變數(shù)據(jù)的均值、標準差都變了(當然,嚴格的說,均值和標準差變了,分布也是變了,但分布種類依然沒變,原來是啥類型,現(xiàn)在就是啥類型),但本質(zhì)上的分布并不一定是標準正態(tài),完全取決于原始數(shù)據(jù)是什么分布。我個舉例子,我生成了100萬個服從
b
e
t
a
(
0.5
,
0.5
)
beta(0.5,0.5)
beta(0.5,0.5)的樣本點(你可以替換成任意非正態(tài)分布,比如卡方等等,beta(1,1)是一個服從
U
(
0
,
1
)
U(0,1)
U(0,1)的均勻分布,所以我選了
b
e
t
a
(
0.5
,
0.5
)
beta(0.5,0.5)
beta(0.5,0.5)),稱這個原始數(shù)據(jù)為
b
0
b_0
b0,分布如下圖所示: 1.2、聯(lián)系和差異一、聯(lián)系說完
S
t
a
n
d
a
r
d
i
z
a
t
i
o
n
Standardization
Standardization和
N
o
r
m
a
l
i
z
a
t
i
o
n
Normalization
Normalization的定義和通常的計算方式,再說說二者的聯(lián)系和差異。 二、差異
1.3、標準化和歸一化的多種方式廣義的說,標準化和歸一化同為對數(shù)據(jù)的線性變化,所以我們沒必要規(guī)定死,歸一化就是必須到 [ 0 , 1 ] [0,1] [0,1]之間,我到 [ 0 , 1 ] [0,1] [0,1]之間之后再乘一個255你奈我何?常見的有以下幾種:
另外,我會在文章最后介紹一些比較常用的非線性數(shù)據(jù)處理方式比如boxcox變換等 2、標準化、歸一化的原因、用途為何統(tǒng)計模型、機器學習和深度學習任務(wù)中經(jīng)常涉及到數(shù)據(jù)(特征)的標準化和歸一化呢,我個人總結(jié)主要有以下幾點,當然可能還有一些其他的作用,大家見解不同,我說的這些是通常情況下的原因和用途。
3、什么時候Standardization,什么時候Normalization我個人理解:如果你對處理后的數(shù)據(jù)范圍有嚴格要求,那肯定是歸一化,個人經(jīng)驗,標準化是ML中更通用的手段,如果你無從下手,可以直接使用標準化;如果數(shù)據(jù)不為穩(wěn)定,存在極端的最大最小值,不要用歸一化。在分類、聚類算法中,需要使用距離來度量相似性的時候、或者使用PCA技術(shù)進行降維的時候,標準化表現(xiàn)更好;在不涉及距離度量、協(xié)方差計算的時候,可以使用歸一化方法。 4、所有情況都應(yīng)當Standardization或Normalization么當原始數(shù)據(jù)不同維度特征的尺度(量綱)不一致時,需要標準化步驟對數(shù)據(jù)進行標準化或歸一化處理,反之則不需要進行數(shù)據(jù)標準化。也不是所有的模型都需要做歸一的,比如模型算法里面有沒關(guān)于對距離的衡量,沒有關(guān)于對變量間標準差的衡量。比如決策樹,他采用算法里面沒有涉及到任何和距離等有關(guān)的,所以在做決策樹模型時,通常是不需要將變量做標準化的;另外,概率模型不需要歸一化,因為它們不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率。 5、一些其他的數(shù)據(jù)變換方式5.1、log變換
5.2、sigmoid變換(sigmoid函數(shù))
其圖像如下: 5.3、softmax變換(softmax函數(shù))
5.4、boxcox變換boxcox變換主要是降低數(shù)據(jù)的偏度,通?;貧w模型殘差非正態(tài)或異方差的時候,會選擇對y做boxcox變換,降低y的偏度,讓y更接近正態(tài)。具體的,我以后如果寫到回歸或boxcox回歸,和讀者同學一起探討。 6、結(jié)語以上,及我個人對數(shù)據(jù)預處理中標準化和歸一化的一些理解和說明。 |
|
來自: LibraryPKU > 《機器學習》