一、LR分類器(Logistic Regression Classifier)在分類情形下,經(jīng)過學(xué)習(xí)后的LR分類器是一組權(quán)值w0,w1, …, wn,當(dāng)測(cè)試樣本的數(shù)據(jù)輸入時(shí),這組權(quán)值與測(cè)試數(shù)據(jù)按照線性加和得到x = w0+w1x1+w2x2+… wnxn,這里x1,x2, …xn是樣本的n個(gè)特征。 之后按照sigmoid函數(shù)的形式求出f(x) = 1/(1+e^(-x)) 由于sigmoid函數(shù)的定義域?yàn)?-INF, INF),值域?yàn)?0, 1),因此最基本的LR分類器適合對(duì)兩類目標(biāo)進(jìn)行分類。 所以Logistic回歸最關(guān)鍵的問題就是研究如何求得w0,w1, …, wn這組權(quán)值。這個(gè)問題是用極大似然估計(jì)來做的。
二、logistic回歸模型考慮具有n個(gè)獨(dú)立變量的向量x = (x1,x2, …, xn),設(shè)條件慨率P(y=1|x) = p為根據(jù)觀測(cè)量相對(duì)于某事件x發(fā)生的概率。那么Logistic回歸模型可以表示為
這里
稱為Logistic函數(shù)。其中g(shù)(x) =w0+w1x1+w2x2+…+wnxn。 那么在x條件下y不發(fā)生的概率為 所以事件發(fā)生與不發(fā)生的概率之比為
這個(gè)比值稱為事件的發(fā)生比(the oddsof experiencing an event),簡(jiǎn)記為odds。 對(duì)odds取對(duì)數(shù)得到
可以看出Logistic回歸都是圍繞一個(gè)Logistic函數(shù)來展開的。接下來就講如何用極大似然估計(jì)求分類器的參數(shù)。 假設(shè)有m個(gè)觀測(cè)樣本,觀測(cè)值分別為y1,y2, …, ym,設(shè)pi = P(yi=1|xi)為給定條件下得到y(tǒng)i=1的概率,同樣地,yi=0的概率為P(yi=0|xi) = 1-p,所以得到一個(gè)觀測(cè)值的概率為P(yi) = pi^(yi)*(1-p)^(1-yi)。 因?yàn)楦鱾€(gè)觀測(cè)樣本之間相互獨(dú)立,那么它們的聯(lián)合分布為各邊緣分布的乘積。得到似然函數(shù)為
然后我們的目標(biāo)是求出使這一似然函數(shù)的值最大的參數(shù)估計(jì),最大似然估計(jì)就是求出參數(shù)w0, w1, …, wn,使得L(w)取得最大值,對(duì)函數(shù)L(w)取對(duì)數(shù)得到
繼續(xù)對(duì)這n+1個(gè)wi分別求偏導(dǎo),得到n+1個(gè)方程,比如現(xiàn)在對(duì)參數(shù)wk求偏導(dǎo),由于
所以得到
這樣的方程一共有n+1個(gè),所以現(xiàn)在的問題轉(zhuǎn)化為解這n+1個(gè)方程形成的方程組。 上述方程比較復(fù)雜,一般方法似乎不能解之,所以我們引用了牛頓-拉菲森迭代方法求解。 利用牛頓迭代求多元函數(shù)的最值問題以后再講。 簡(jiǎn)單牛頓迭代法:http://zh.m./wiki/%E7%89%9B%E9%A1%BF%E6%B3%95 實(shí)際上在上述似然函數(shù)求最大值時(shí),可以用梯度上升算法,一直迭代下去。梯度上升算法和牛頓迭代相比,收斂速度慢,因?yàn)樘荻壬仙惴ㄊ且浑A收斂,而牛頓迭代屬于二階收斂。
三、總結(jié)
Logistic是用來分類的,是一種線性分類器,需要注意的地方有: 1. logistic函數(shù)表達(dá)式(sigmoid函數(shù)):
其導(dǎo)數(shù)形式為:
2. logsitc回歸方法主要是用最大似然估計(jì)來學(xué)習(xí)的,所以單個(gè)樣本的后驗(yàn)概率為:
得到整個(gè)樣本的后驗(yàn)概率: 其中:
通過對(duì)數(shù)進(jìn)一步化簡(jiǎn)為:
3. 其實(shí)它的loss function為-l(θ),因此我們需使loss function最小,可采用梯度下降法得到。梯度下降法公式為:
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ 四、要點(diǎn)
1. 二值型輸出(0、1),也被看做是一種概率估計(jì),是一種線性分類器。基本函數(shù)(線性回歸)z = w0+ w1x1 + w2x2 + … + wnxn,求出z值后帶入sigmoid函數(shù)判斷01值分類。 2. 在每個(gè)特征上都乘上一個(gè)回歸系數(shù),然后把所有結(jié)果相加,將此總和帶入sigmoid函數(shù),進(jìn)而得到一個(gè)范圍為0~1之間的數(shù)值,再用二值映射判定0或1. 3.分類:(sigmoid函數(shù)輸出) 大于0.5:結(jié)果為1 小于0.5:結(jié)果為0 4.關(guān)鍵:回歸系數(shù)的求解 →→ 梯度上升法、隨機(jī)梯度上升法(在線算法) (采用最優(yōu)化算法) 5.處理缺失數(shù)據(jù):依實(shí)際情況而定
核心: 1.是一種線性分類器,sigmoid函數(shù)表達(dá)式h(x) = 1/(1+e^(-x)) →求回歸系數(shù)x(最大似然估計(jì)) 2.回歸系數(shù)求解是用最大似然估計(jì)來學(xué)習(xí)的,由單個(gè)樣本后驗(yàn)概率p(y|xjo)求得整個(gè)樣本后驗(yàn)概率L(o) = ∏(…),然后對(duì)L(o)進(jìn)行對(duì)數(shù)化簡(jiǎn)得到l(o) = logL(o) = ∑(…) 3.其他loss function為 -I(o),因此需使lossfunction最小。可采用梯度下降法得到,梯度下降法公式:L(o)對(duì)o求偏導(dǎo)……
優(yōu)點(diǎn): 1.實(shí)現(xiàn)簡(jiǎn)單; 2.分類時(shí)計(jì)算量很小,速度很快,存儲(chǔ)資源低 缺點(diǎn): 1.容易欠擬合,準(zhǔn)確度不高 2.只能處理二分類問題(在此基礎(chǔ)上衍生出來的softmax可以用于多分類),且必須線性可分。 數(shù)據(jù)類型:數(shù)值型、標(biāo)稱型
|
|