一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

標準化和歸一化,請勿混為一談,透徹理解數(shù)據(jù)變換

 LibraryPKU 2021-03-20

1、標準化(Standardization)和歸一化(Normalization)概念

1.1、定義

歸一化和標準化都是對數(shù)據(jù)做變換的方式,將原始的一列數(shù)據(jù)轉(zhuǎn)換到某個范圍,或者某種形態(tài),具體的:

歸一化( N o r m a l i z a t i o n Normalization Normalization):將一列數(shù)據(jù)變化到某個固定區(qū)間(范圍)中,通常,這個區(qū)間是[0, 1],廣義的講,可以是各種區(qū)間,比如映射到[0,1]一樣可以繼續(xù)映射到其他范圍,圖像中可能會映射到[0,255],其他情況可能映射到[-1,1];
在這里插入圖片描述
標準化( S t a n d a r d i z a t i o n Standardization Standardization):將數(shù)據(jù)變換為均值為0,標準差為1的分布切記,并非一定是正態(tài)的;
在這里插入圖片描述
中心化:另外,還有一種處理叫做中心化,也叫零均值處理,就是將每個原始數(shù)據(jù)減去這些數(shù)據(jù)的均值。

我在這里多寫一點,很多博客甚至書中說, S t a n d a r d i z a t i o n Standardization Standardization是改變數(shù)據(jù)分布,將其變換為服從 N ( 0 , 1 ) N(0,1) N(0,1)的標準正態(tài)分布,這點是錯的,Standardization會改變數(shù)據(jù)的均值、標準差都變了(當然,嚴格的說,均值和標準差變了,分布也是變了,但分布種類依然沒變,原來是啥類型,現(xiàn)在就是啥類型),但本質(zhì)上的分布并不一定是標準正態(tài),完全取決于原始數(shù)據(jù)是什么分布。我個舉例子,我生成了100萬個服從 b e t a ( 0.5 , 0.5 ) beta(0.5,0.5) beta(0.5,0.5)的樣本點(你可以替換成任意非正態(tài)分布,比如卡方等等,beta(1,1)是一個服從 U ( 0 , 1 ) U(0,1) U(0,1)的均勻分布,所以我選了 b e t a ( 0.5 , 0.5 ) beta(0.5,0.5) beta(0.5,0.5)),稱這個原始數(shù)據(jù)為 b 0 b_0 b0,分布如下圖所示:
在這里插入圖片描述
通過計算機計算,樣本 b 0 b_0 b0的均值和方差分別為0.49982和0.12497(約為0.5和0.125)
對這個數(shù)據(jù)做 S t a n d a r d i z a t i o n Standardization Standardization,稱這個標準化后的數(shù)據(jù)為 b 1 b_1 b1,分布如下:
在這里插入圖片描述
可以看到數(shù)據(jù)形態(tài)完全不是正態(tài)分布,但是數(shù)學期望和方差已經(jīng)變了。beta分布的數(shù)學期望為 a a + b \frac{a}{a+b} a+ba,方差為 a b ( a + b ) 2 ( a + b + 1 ) \frac{ab}{(a+b)^2(a+b+1)} (a+b)2(a+b+1)ab,所以 E ( b 0 ) = 0.5 0.5 + 0.5 = 1 2 E(b_0)=\frac{0.5}{0.5+0.5}=\frac{1}{2} E(b0)=0.5+0.50.5=21, V a r ( b 0 ) = 1 8 Var(b_0)=\frac{1}{8} Var(b0)=81,這也和我們上文所計算的樣本均值和方差一致,而 b 1 b_1 b1的均值和方差分別為:-1.184190523417783e-1和1,均值和方差已經(jīng)不再是0.5和0.125,分布改變,但絕不是一個正態(tài)分布,你不信的話,覺得看分布圖不實錘,通過 q q qq qq圖和檢驗得到的結(jié)果如下:
在這里插入圖片描述
你要的qqplot
在這里插入圖片描述
你要的KS檢驗,拒絕正態(tài)性原假設(shè)。
當然,如果你原始數(shù)據(jù)就是正太的,那么做了 S t a n d a r d i z a t i o n Standardization Standardization,生成的就是標準正態(tài)的數(shù)據(jù),切記哦,誰再和你說 S t a n d a r d i z a t i o n Standardization Standardization之后得到 N ( 0 , 1 ) N(0,1) N(0,1)你就反駁他。
之所以大家會把標準化和正態(tài)分布聯(lián)系起來,是因為實際數(shù)據(jù)中大部分都是正態(tài)分布,起碼近似正態(tài),另外,我看到很多人說標準化的基本假設(shè)是對正態(tài)數(shù)據(jù),我并沒有從哪些知名度較高的課本教材中查詢到依據(jù),如果有知道的同學也可以給我普及

1.2、聯(lián)系和差異

一、聯(lián)系

說完 S t a n d a r d i z a t i o n Standardization Standardization和 N o r m a l i z a t i o n Normalization Normalization的定義和通常的計算方式,再說說二者的聯(lián)系和差異。
說道聯(lián)系, S t a n d a r d i z a t i o n Standardization Standardization和 N o r m a l i z a t i o n Normalization Normalization本質(zhì)上都是對數(shù)據(jù)的線性變換,廣義的說,你甚至可以認為他們是同一個母親生下的雙胞胎,為何而言,因為二者都是不會改變原始數(shù)據(jù)排列順序的線性變換
假設(shè)原始數(shù)據(jù)為 X X X,令 α = X m a x ? X m i n \alpha=X_{max}-X_{min} α=Xmax?Xmin,令 β = X m i n \beta=X_{min} β=Xmin(很明顯,數(shù)據(jù)給定后 α 、 β \alpha、\beta α、β就是常數(shù)),則 X N o r m a l i z a t i o n = X i ? β α = X i α ? β α = X i α ? c X_{Normalization}=\frac{X_{i}-\beta}{\alpha}=\frac{X_{i}}{\alpha}-\frac{\beta}{\alpha}=\frac{X_{i}}{\alpha}-c XNormalization=αXi?β=αXi?αβ=αXi?c,可見, N o r m a l i z a t i o n Normalization Normalization是一個線性變換,按 α \alpha α進行縮放,然后平移 c c c個單位。其實 X i ? β α \frac{X_{i}-\beta}{\alpha} αXi?β中的 β \beta β和 α \alpha α就像是 S t a n d a r d i z a t i o n Standardization Standardization中的 μ \mu μ和 σ \sigma σ(數(shù)據(jù)給定后, μ \mu μ和 σ \sigma σ也是常數(shù))。線性變換,必不改變原始的排位順序。

二、差異

  1. 第一點:顯而易見, N o r m a l i z a t i o n Normalization Normalization會嚴格的限定變換后數(shù)據(jù)的范圍,比如按之前最大最小值處理的 N o r m a l i z a t i o n Normalization Normalization,它的范圍嚴格在 [ 0 , 1 ] [0,1] [0,1]之間;
    而 S t a n d a r d i z a t i o n Standardization Standardization就沒有嚴格的區(qū)間,變換后的數(shù)據(jù)沒有范圍,只是其均值是 0 0 0,標準差為 1 1 1。

  2. 第二點:歸一化( N o r m a l i z a t i o n Normalization Normalization)對數(shù)據(jù)的縮放比例僅僅和極值有關(guān),就是說比如100個數(shù),你除去極大值和極小值其他數(shù)據(jù)都更換掉,縮放比例 α = X m a x ? X m i n \alpha=X_{max}-X_{min} α=Xmax?Xmin是不變的;反觀,對于標準化( S t a n d a r d i z a t i o n Standardization Standardization)而言,它的 α = σ \alpha=\sigma α=σ, β = μ \beta=\mu β=μ,如果除去極大值和極小值其他數(shù)據(jù)都更換掉,那么均值和標準差大概率會改變,這時候,縮放比例自然也改變了。

1.3、標準化和歸一化的多種方式

廣義的說,標準化和歸一化同為對數(shù)據(jù)的線性變化,所以我們沒必要規(guī)定死,歸一化就是必須到 [ 0 , 1 ] [0,1] [0,1]之間,我到 [ 0 , 1 ] [0,1] [0,1]之間之后再乘一個255你奈我何?常見的有以下幾種:

  1. 歸一化的最通用模式 N o r m a l i z a t i o n Normalization Normalization,也稱線性歸一化(我看有些地方也叫rescaling,有待考證,如果大家看到這個詞能想到對應(yīng)的是歸一化就行):

X n e w = X i ? X m i n X m a x ? X m i n X_{new}=\frac{X_{i}-X_{min}}{X_{max}-X_{min}} Xnew=Xmax?XminXi?Xmin,范圍[0,1]

  1. Mean normalization:

X n e w = X i ? m e a n ( X ) X m a x ? X m i n X_{new}=\frac{X_{i}-mean(X)}{X_{max}-X_{min}} Xnew=Xmax?XminXi?mean(X),范圍[-1,1]

  1. 標準化( S t a n d a r d i z a t i o n Standardization Standardization),也叫標準差標準化:

X n e w = X i ? μ σ X_{new}=\frac{X_{i}-\mu}{\sigma} Xnew=σXi,范圍實數(shù)集

另外,我會在文章最后介紹一些比較常用的非線性數(shù)據(jù)處理方式比如boxcox變換等

2、標準化、歸一化的原因、用途

為何統(tǒng)計模型、機器學習和深度學習任務(wù)中經(jīng)常涉及到數(shù)據(jù)(特征)的標準化和歸一化呢,我個人總結(jié)主要有以下幾點,當然可能還有一些其他的作用,大家見解不同,我說的這些是通常情況下的原因和用途。

  1. 統(tǒng)計建模中,如回歸模型,自變量 X X X的量綱不一致導致了回歸系數(shù)無法直接解讀或者錯誤解讀;需要將 X X X都處理到統(tǒng)一量綱下,這樣才可比;

  2. 機器學習任務(wù)和統(tǒng)計學任務(wù)中有很多地方要用到“距離”的計算,比如PCA,比如KNN,比如kmeans等等,假使算歐式距離,不同維度量綱不同可能會導致

    距離的計算依賴于量綱較大的那些特征

    而得到不合理的結(jié)果;

  3. 參數(shù)估計時使用梯度下降,在使用梯度下降的方法求解最優(yōu)化問題時, 歸一化/標準化后可以加快梯度下降的求解速度,即提升模型的收斂速度。

3、什么時候Standardization,什么時候Normalization

我個人理解:如果你對處理后的數(shù)據(jù)范圍有嚴格要求,那肯定是歸一化,個人經(jīng)驗,標準化是ML中更通用的手段,如果你無從下手,可以直接使用標準化;如果數(shù)據(jù)不為穩(wěn)定,存在極端的最大最小值,不要用歸一化。在分類、聚類算法中,需要使用距離來度量相似性的時候、或者使用PCA技術(shù)進行降維的時候,標準化表現(xiàn)更好;在不涉及距離度量、協(xié)方差計算的時候,可以使用歸一化方法。
PS:PCA中標準化表現(xiàn)更好的原因可以參考(PCA標準化)

4、所有情況都應(yīng)當Standardization或Normalization么

當原始數(shù)據(jù)不同維度特征的尺度(量綱)不一致時,需要標準化步驟對數(shù)據(jù)進行標準化或歸一化處理,反之則不需要進行數(shù)據(jù)標準化。也不是所有的模型都需要做歸一的,比如模型算法里面有沒關(guān)于對距離的衡量,沒有關(guān)于對變量間標準差的衡量。比如決策樹,他采用算法里面沒有涉及到任何和距離等有關(guān)的,所以在做決策樹模型時,通常是不需要將變量做標準化的;另外,概率模型不需要歸一化,因為它們不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率。

5、一些其他的數(shù)據(jù)變換方式

5.1、log變換

X n e w = l o g 10 ( X i ) / l o g 10 ( X m a x ) X_{new}=log_{10}(X_{i})/log_{10}(X_{max}) Xnew=log10(Xi)/log10(Xmax)

5.2、sigmoid變換(sigmoid函數(shù))

X n e w = 1 1 + e ? X i X_{new}=\frac{1}{1+e^{-X_{i}}} Xnew=1+e?Xi1

其圖像如下:
在這里插入圖片描述

5.3、softmax變換(softmax函數(shù))

X n e x = e X i ∑ e X i X_{nex}=\frac{e^{X_{i}}}{\sum{e^{X_{i}}}} Xnex=eXieXi

5.4、boxcox變換

在這里插入圖片描述

boxcox變換主要是降低數(shù)據(jù)的偏度,通?;貧w模型殘差非正態(tài)或異方差的時候,會選擇對y做boxcox變換,降低y的偏度,讓y更接近正態(tài)。具體的,我以后如果寫到回歸或boxcox回歸,和讀者同學一起探討。

6、結(jié)語

以上,及我個人對數(shù)據(jù)預處理中標準化和歸一化的一些理解和說明。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    内用黄老外示儒术出处| 日本东京热加勒比一区二区| 黄片免费在线观看日韩| 亚洲欧美中文字幕精品| 亚洲国产天堂av成人在线播放| 成人免费观看视频免费| 久久精品a毛片看国产成人| 日韩精品中文在线观看| 欧美区一区二在线播放| 精品al亚洲麻豆一区| 中国少妇精品偷拍视频| 年轻女房东2中文字幕| 极品熟女一区二区三区| 国产又色又爽又黄的精品视频 | 亚洲欧美日韩熟女第一页| 欧美小黄片在线一级观看| 亚洲伦片免费偷拍一区| 国产日韩久久精品一区| 欧美黑人暴力猛交精品| 国产成人免费激情视频| 欧美人禽色视频免费看 | 日韩欧美二区中文字幕| 国产精品一区二区香蕉视频| 中文字幕有码视频熟女| 99久久人妻中文字幕| 真实国产乱子伦对白视频不卡| 97人妻精品一区二区三区男同| 亚洲高清中文字幕一区二区三区| 国产又黄又猛又粗又爽的片| 国产综合香蕉五月婷在线| 91精品国产综合久久福利| 欧美在线观看视频免费不卡| 蜜臀人妻一区二区三区| 不卡一区二区在线视频| 日韩成人高清免费在线| 办公室丝袜高跟秘书国产 | 国产一区二区三区香蕉av| 扒开腿狂躁女人爽出白浆av| 成年人黄片大全在线观看| 亚洲中文字幕视频在线观看| 欧美午夜国产在线观看|