前言由于公眾號對公式的支持不太好,因此,涉及公式的地方都直接截圖了,如果想要看最原始的版本,可以去我博客上看,單閱讀原文即可。有關線性回歸的一些基礎知識,可以參看這篇筆記《StatQuest學習筆記05——線性模型》。 上周四講的方差分析時,里面有一處錯誤,在進行單因素方差分析時,要求各個樣本正態(tài)分布,因此要對不同的組分別用 直線回歸的概念為了直觀地說明直線回歸的概念,我們以8名兒童的年齡(歲)與其尿肌酐含量(mmol/24h)數據繪制出一個散點圖(scatter plot),原始數據如下所示: 現在繪圖出這些數據的散點圖,如下所示: library(ggplot2) 圖表如下所示: 在定量描述兒童尿肌酐含量與年齡數據的依存關系時,將年齡稱為自變量(independent variable),用X表示,尿肌酐含量稱為應變量(dependent variable),用Y表示。由上圖可知,尿肌酐含量Y隨年齡X的增加而增大,呈直線趨勢,但這8個數據點并非恰好全在一條直線上,不過我們可以找到一條最合適的直線來代表這兩個變量的關系,這條曲線可以稱為最佳擬合線,這兩個變量的這種關系稱為直線回歸(linear regression)或簡單回歸(simple regression)。
直線回歸可以用以下直線回歸方程(linear regression equation)來表示,如下所示: 公式(一)稱為經驗回歸方程或樣本回歸方程,其中b表示這條方程的斜率,a表示這個方程在y軸上的截矩,它們表示利用樣本的數據估計得得來的截矩和斜率。我們可以通過一系列的計算求出這個方程的a和b,這個方程是對兩變量總體間線性關系的一個估計,根據散點圖可以假設,對于X的各個取值,相應Y的總體均數在一條直線上,如下所示: 總體均數表示為: 除了圖中所示兩變量呈直線關系外,一般還假定每個X對應Y的總體為正態(tài)分布,各個正態(tài)分布的總體方差相等且各次觀測相互獨立,這樣公式(一)中的Y(帶^符號)實際上是x所對應Y的總體均數的一個樣本估計值,稱為回歸方程的預測值(predicted value),而a、 b分別為α和β的樣本估計,其中a稱為常數項,b稱為回歸系數(coefficient of regression),b是直線的斜率(slope),其統(tǒng)計意義是,當X變化一個單位時,Y的平均改變的估計值,b>0時,直線從左下方走到右上方,Y隨X的增大而增大,當b<> 直線回歸方程的計算思路如果能夠從樣本數據中求得a和b的數值,那么回歸方程即可唯一確定,從散點圖上來看,求解a和b實際上就是怎么找到一條最能代表數據點分布趨勢的直線,將實測值Y與假定回歸線上估計值Y(帶^符號的縱向距離稱為殘差(residual),如果把殘差進行了均一化,即進行了z轉換,那它就是標準化殘差,其中對于要找到的這條最佳的直線,它的殘差平方和(sum of squared residuals, sum of squared errors或residual sum of squares,簡稱為SSE或RSS等)是最小的,這就是最小二乘法(Least sum of squares,LS)的思想(因為古中國的數學家在描述平方時,使用的術語是“二乘”,因此這里叫最小二乘法),如下所示: 在一定假設條件下,如此得到的回歸系數最為理解,按照這一原則,數學上可以很容易得到a和b的計算公式,如下所示: 其中,LXX是X與Y的均離均差平交叉乘積和,簡稱離均差積和,公式為: 除了用公式(一)來表示兩變量線性回歸關系,還可以在散點圖上繪制出樣本回歸直線作為一種直 觀的統(tǒng)計描述補充形式,此直線必然通過點X的均值和Y的均值(數學符號為X上面一橫,Y上面一橫),且與縱坐標軸相關于截矩a,如果散點圖沒有從坐標系原點開始,可以在自變量實測范圍內遠端取易于讀取的X值代入回歸方程得到一個點的坐標,連接此點與點X的均值和Y的均值也能繪制出回歸直線。 現在再看一下原始數據: 由原始數據與散點圖可知,兩變量之間呈直線趨勢,因此可以計算出相應的參數: 線性回歸方程的計算過程第一步:計算出X、Y的均值,如下所示: 第二步:計算出回歸系數b和截矩a 根據公式(三),b=5.8450/42=0.1392 根據公式(四),a=2.9838-(0.1392)(9.5)=1.667 列出直線回歸方程,如下所示: R計算結果如下所示: > lm(cr~age) 直線回歸中的統(tǒng)計推斷回歸方程的假設檢驗建立樣本直線回歸方程,只是完成了統(tǒng)計分析中兩個變量關系的描述,研究者還必須要回答它所來自總體的直線回歸關系是否確實存在,即是否對總體有β≠0(β就是自變量與因變量的相關系數),如下圖所示,無論X如何取值,Y的總體均值總在一條水平線上,即β=0,總體直線回歸方程并不成立,也就是說Y與X無直接線性關系,然而在一次隨機抽樣中,如果所得的樣本為實心圓點所示,則會得到一個并不等于0的樣本回歸系數b,b與0相關多大可以認為具有統(tǒng)計學意義?這就需要方差分析或與其等價的t檢驗來說明問題。 方差分析檢驗先看一張圖,如下所示: 在上圖中,任意一點P的縱坐標被回歸直線與均數截成三個線段,其中: 由于P點是散點圖中任取的一點,將全部數據點都這樣處理,并將等式兩端平方后再求和,可以證明: 那么有以下的公式: 上面的公式用符號表示就是: 其中
如果在R中對線性回歸進行方差分析的,可以使用 > anova(lm(cr~age)) 這里要說明一下,兩個變量關系的密切程度或數量上的影響大小的統(tǒng)計量是相關系數或者是另歸系數的絕對值r,而不是假設檢驗的p值,p值越小,只能說越有理由認為變量間的直線關系存在,而不能說關系越密切或越“顯著”。另外,直線回歸用于預測時,其適用范圍一般不應超出樣本中自變量的取值范圍,此時求得的預測值稱內插(interpolation),而超過自變量取值范圍所得預測值稱為外延(extrapolation),若無充分理由說明現有自變量范圍以外的兩變量間仍然是直線關系,應盡量避免不合理的外延,舉個例子,我們在使用BCA測蛋白濃度時,標準品的濃度范圍是0-0.5ug/uL,我們構建的線性回歸方程是 在R中線性回歸結果進行t檢驗的話,直接使用summary()函數即可,如下所示: > result <> 結果解釋:
總體回歸系數β的可信區(qū)間利用回歸方程進行估計和預測總體均數的可信區(qū)間個體Y值的預測區(qū)間預測應時把自變量X代入到回歸方程,對總體中的應變量量Y的個體值進行預測,給定X的數值X0,對應的個體Y值也存在一個波動范圍,其標準差按公式十六計算,如下所示: 在上圖中,有兩條虛曲線,這兩條虛曲線比實曲線范圍更寬,它也是中間窄,兩頭寬,同樣在X0=X均值處最窄。 需要注意的是,在給定X=X0處,相應Y的均數的置信區(qū)間與其個體Y值的預測區(qū)間的含義是不同的:前者表示在固定的X0處,如果反復抽樣100次,可以算出100個相應Y的總體均數的置信區(qū)間,平均有100x(1-α)個置信區(qū)間包含總體均數;后者表示的是一個預測值的取值范圍,即預測100個個體值中平均將有100x(1-α)個個體值在求出的范圍內。 現在用R來計算一下,如下所示: > data94 <>12) 參考資料
|
|
來自: 微笑如酒 > 《統(tǒng)計》