一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

生物統(tǒng)計(5)-簡單線性回歸

 微笑如酒 2018-09-03

前言

由于公眾號對公式的支持不太好,因此,涉及公式的地方都直接截圖了,如果想要看最原始的版本,可以去我博客上看,單閱讀原文即可。有關線性回歸的一些基礎知識,可以參看這篇筆記《StatQuest學習筆記05——線性模型》

上周四講的方差分析時,里面有一處錯誤,在進行單因素方差分析時,要求各個樣本正態(tài)分布,因此要對不同的組分別用shapiro.test()函數進行正態(tài)檢驗,原文是對全部的數據進行了正態(tài)檢驗,在此說明一下。

直線回歸的概念

為了直觀地說明直線回歸的概念,我們以8名兒童的年齡(歲)與其尿肌酐含量(mmol/24h)數據繪制出一個散點圖(scatter plot),原始數據如下所示:

現在繪圖出這些數據的散點圖,如下所示:

library(ggplot2)
age <>13,11,9,6,8,10,12,7)
cr <>3.54,3.01,3.09,2.48,2.56,3.36,3.18,2.65)
data001 <>
ggplot(data001, aes(x=age, y=cr)) + geom_point(size=3,shape=21)

圖表如下所示:

在定量描述兒童尿肌酐含量與年齡數據的依存關系時,將年齡稱為自變量(independent variable),用X表示,尿肌酐含量稱為應變量(dependent variable),用Y表示。由上圖可知,尿肌酐含量Y隨年齡X的增加而增大,呈直線趨勢,但這8個數據點并非恰好全在一條直線上,不過我們可以找到一條最合適的直線來代表這兩個變量的關系,這條曲線可以稱為最佳擬合線,這兩個變量的這種關系稱為直線回歸(linear regression)簡單回歸(simple regression)。

注:回歸和分類的區(qū)別

如果因變量為取值廣泛的定量變量(數量變量),通常稱該模型為回歸(regression),如果因變量為定性變量(分數變量),通常稱建模為分類(classification)或判斷分析(discriminant analysis);如果沒有給出因變量,要根據自變量本身來對以沒值分類,則稱為聚類分析(cluster analysis)?!稄母拍畹綌祿治觥罚▍窍仓?/p>

直線回歸可以用以下直線回歸方程(linear regression equation)來表示,如下所示:

公式(一)稱為經驗回歸方程或樣本回歸方程,其中b表示這條方程的斜率,a表示這個方程在y軸上的截矩,它們表示利用樣本的數據估計得得來的截矩和斜率。我們可以通過一系列的計算求出這個方程的a和b,這個方程是對兩變量總體間線性關系的一個估計,根據散點圖可以假設,對于X的各個取值,相應Y的總體均數在一條直線上,如下所示:

總體均數表示為:

除了圖中所示兩變量呈直線關系外,一般還假定每個X對應Y的總體為正態(tài)分布,各個正態(tài)分布的總體方差相等且各次觀測相互獨立,這樣公式(一)中的Y(帶^符號)實際上是x所對應Y的總體均數的一個樣本估計值,稱為回歸方程的預測值(predicted value),而a、 b分別為α和β的樣本估計,其中a稱為常數項,b稱為回歸系數(coefficient of regression),b是直線的斜率(slope),其統(tǒng)計意義是,當X變化一個單位時,Y的平均改變的估計值,b>0時,直線從左下方走到右上方,Y隨X的增大而增大,當b<>

直線回歸方程的計算思路

如果能夠從樣本數據中求得a和b的數值,那么回歸方程即可唯一確定,從散點圖上來看,求解a和b實際上就是怎么找到一條最能代表數據點分布趨勢的直線,將實測值Y與假定回歸線上估計值Y(帶^符號的縱向距離稱為殘差(residual),如果把殘差進行了均一化,即進行了z轉換,那它就是標準化殘差,其中對于要找到的這條最佳的直線,它的殘差平方和(sum of squared residuals, sum of squared errors或residual sum of squares,簡稱為SSE或RSS等)是最小的,這就是最小二乘法(Least sum of squares,LS)的思想(因為古中國的數學家在描述平方時,使用的術語是“二乘”,因此這里叫最小二乘法),如下所示:

在一定假設條件下,如此得到的回歸系數最為理解,按照這一原則,數學上可以很容易得到a和b的計算公式,如下所示:

其中,LXX是X與Y的均離均差平交叉乘積和,簡稱離均差積和,公式為:

除了用公式(一)來表示兩變量線性回歸關系,還可以在散點圖上繪制出樣本回歸直線作為一種直

觀的統(tǒng)計描述補充形式,此直線必然通過點X的均值和Y的均值(數學符號為X上面一橫,Y上面一橫),且與縱坐標軸相關于截矩a,如果散點圖沒有從坐標系原點開始,可以在自變量實測范圍內遠端取易于讀取的X值代入回歸方程得到一個點的坐標,連接此點與點X的均值和Y的均值也能繪制出回歸直線。

現在再看一下原始數據:

由原始數據與散點圖可知,兩變量之間呈直線趨勢,因此可以計算出相應的參數:

線性回歸方程的計算過程

第一步:計算出X、Y的均值,如下所示:

第二步:計算出回歸系數b和截矩a

根據公式(三),b=5.8450/42=0.1392

根據公式(四),a=2.9838-(0.1392)(9.5)=1.667

列出直線回歸方程,如下所示:

R計算結果如下所示:

> lm(cr~age)

Call:
lm(formula = cr ~ age)

Coefficients:
(Intercept)          age  
     1.6617       0.1392 

直線回歸中的統(tǒng)計推斷

回歸方程的假設檢驗

建立樣本直線回歸方程,只是完成了統(tǒng)計分析中兩個變量關系的描述,研究者還必須要回答它所來自總體的直線回歸關系是否確實存在,即是否對總體有β≠0(β就是自變量與因變量的相關系數),如下圖所示,無論X如何取值,Y的總體均值總在一條水平線上,即β=0,總體直線回歸方程并不成立,也就是說Y與X無直接線性關系,然而在一次隨機抽樣中,如果所得的樣本為實心圓點所示,則會得到一個并不等于0的樣本回歸系數b,b與0相關多大可以認為具有統(tǒng)計學意義?這就需要方差分析或與其等價的t檢驗來說明問題。

方差分析檢驗

先看一張圖,如下所示:

在上圖中,任意一點P的縱坐標被回歸直線與均數截成三個線段,其中:

由于P點是散點圖中任取的一點,將全部數據點都這樣處理,并將等式兩端平方后再求和,可以證明:

那么有以下的公式:

上面的公式用符號表示就是:

其中SS總是Y的離均差平方和,表示未考慮Y與X的回歸關系時,Y的總變異。

SS回是回歸平方和,由于特定樣本的均數是固定的,因此這部分變異由Y的大小不同引起,當X被引物回歸以后,正是由于X的不同導致了預測值Y的不同,所以,SS回就反映了在Y的總變異中可以用Y與X的直線關系解釋的那部分變異,b離0越遠,Y受X的影響越大,SS回就越大,說明回歸效果就越好。

SS殘為殘差平方和。它反映了除了X對Y的線性影響之外的一切因素對Y的變異的作用,也就是在總平方和中無法用X解釋的部分,表示考慮回歸之后Y真正的隨機誤差,在散點圖中,各實測點離回歸直線越近,SS殘也就越小,說明直線回歸的估計誤差越小,回歸的作用就越明顯。

如果在R中對線性回歸進行方差分析的,可以使用anova()函數提取線性回歸的方差分析結果,如下所示:

anova(lm(cr~age))
Analysis of Variance Table

Responsecr
          Df  Sum Sq Mean Sq F value   Pr(>F)   
age        1 0.81343 0.81343  20.968 0.003774 **
Residuals  6 0.23276 0.03879                    
---
Signifcodes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

t檢驗
對于β=0這一假設是否成立還可以進行如下t檢驗,如下所示:

這里要說明一下,兩個變量關系的密切程度或數量上的影響大小的統(tǒng)計量是相關系數或者是另歸系數的絕對值r,而不是假設檢驗的p值,p值越小,只能說越有理由認為變量間的直線關系存在,而不能說關系越密切或越“顯著”。另外,直線回歸用于預測時,其適用范圍一般不應超出樣本中自變量的取值范圍,此時求得的預測值稱內插(interpolation),而超過自變量取值范圍所得預測值稱為外延(extrapolation),若無充分理由說明現有自變量范圍以外的兩變量間仍然是直線關系,應盡量避免不合理的外延,舉個例子,我們在使用BCA測蛋白濃度時,標準品的濃度范圍是0-0.5ug/uL,我們構建的線性回歸方程是蛋白濃度=a X OD562 + b,如果我們的樣本OD562的吸光度超過了標準品最高濃度的OD562的值(例如標準品0.5ug/uL的OD562值是0.4,我的蛋白樣本的OD562的值是0.45),那么此時,我們使用求出來的線性回歸方程來計算蛋白樣本中的蛋白濃度是不太準的。

在R中線性回歸結果進行t檢驗的話,直接使用summary()函數即可,如下所示:

> result <>
> summary(result)

Call:
lm(formula = cr ~ age)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.21500 -0.15937 -0.00125  0.09583  0.30667 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  1.66167    0.29700   5.595  0.00139 **
age          0.13917    0.03039   4.579  0.00377 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.197 on 6 degrees of freedom
Multiple R-squared:  0.7775,    Adjusted R-squared:  0.7404 
F-statistic: 20.97 on 1 and 6 DF,  p-value: 0.003774

結果解釋:

  1. 其中0.4.579是對系數(斜率)是否為零t的檢驗,t=4.579,p<>

  2. Residual standard error: 0.197 on 6 degrees of freedom,這個是殘差,自由度為6

  3. Multiple R-squared: 0.7775, Adjusted R-squared: 0.7404,R平方,叫測定系數或可決系數,越接近于1表示兩者的線性關系越好。

  4. F-statistic: 20.97 on 1 and 6 DF, p-value: 0.003774,F檢驗,p值小于0.01,在只一個自變量的情況下,F檢驗的p值與t檢驗的p值在數值上相等,并且F的值等于t值的平方。

總體回歸系數β的可信區(qū)間

利用回歸方程進行估計和預測

總體均數的可信區(qū)間

個體Y值的預測區(qū)間

預測應時把自變量X代入到回歸方程,對總體中的應變量量Y的個體值進行預測,給定X的數值X0,對應的個體Y值也存在一個波動范圍,其標準差按公式十六計算,如下所示:

在上圖中,有兩條虛曲線,這兩條虛曲線比實曲線范圍更寬,它也是中間窄,兩頭寬,同樣在X0=X均值處最窄。

需要注意的是,在給定X=X0處,相應Y的均數的置信區(qū)間與其個體Y值的預測區(qū)間的含義是不同的:前者表示在固定的X0處,如果反復抽樣100次,可以算出100個相應Y的總體均數的置信區(qū)間,平均有100x(1-α)個置信區(qū)間包含總體均數;后者表示的是一個預測值的取值范圍,即預測100個個體值中平均將有100x(1-α)個個體值在求出的范圍內。

現在用R來計算一下,如下所示:

> data94 <>12)
> predict(result,data94,interval='prediction',level=0.95# 預測區(qū)間
       fit      lwr      upr
1 3.331667 2.787731 3.875602
> predict(result,data94,interval='confidence',level=0.95# 均數的可信區(qū)間
       fit      lwr      upr
1 3.331667 3.079481 3.583852

參考資料

  1. 醫(yī)學統(tǒng)計學.第四版.孫振球

  2. 深入淺出統(tǒng)計學

  3. 醫(yī)學統(tǒng)計學及SAS應用.王炳順

  4. 多元統(tǒng)計分析及R語言建模.王會斌


    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日韩中文高清在线专区| 老外那个很粗大做起来很爽| 日韩精品你懂的在线观看| 国产水滴盗摄一区二区| 欧美精品亚洲精品一区| 日韩精品第一区二区三区| 蜜桃臀欧美日韩国产精品| 色婷婷国产精品视频一区二区保健| 欧美日韩少妇精品专区性色| 五月婷日韩中文字幕四虎| 午夜精品黄片在线播放| 麻豆一区二区三区精品视频| 中文字幕久热精品视频在线| 成人午夜视频在线播放| 加勒比系列一区二区在线观看| 夫妻性生活黄色录像视频| 伊人欧美一区二区三区| 亚洲欧美日产综合在线网| 日本东京热加勒比一区二区 | 在线观看视频成人午夜| 亚洲国产欧美精品久久| 91精品日本在线视频| 国产亚洲欧美日韩精品一区| 亚洲女同一区二区另类| 91人妻人澡人人爽人人精品| 美女被后入视频在线观看| 白白操白白在线免费观看| 午夜精品久久久免费视频| 黑鬼糟蹋少妇资源在线观看 | 国产超碰在线观看免费| 婷婷激情四射在线观看视频 | 国产欧美一区二区三区精品视| 婷婷基地五月激情五月| 亚洲黑人精品一区二区欧美| 日本在线视频播放91| 久草国产精品一区二区| 亚洲最新中文字幕在线视频| 日韩精品视频香蕉视频| 亚洲欧美中文日韩综合| 免费久久一级欧美特大黄孕妇| 嫩呦国产一区二区三区av|