一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

R語言組lasso改進邏輯回歸變量選擇分析高血壓、易感因素、2型糖尿病和LDL可視化

 拓端數(shù)據(jù) 2023-06-29 發(fā)布于浙江

全文鏈接:https:///?p=33015

本文用邏輯回歸和lasso算法醫(yī)學上的疾病的相關(guān)因素,幫助客戶確定哪種模型可用于某種疾病的相關(guān)因素分析。3個模型:Logistic模型、成組Lasso Logistic模型、由組Lasso選出協(xié)變量的Logistic模型,有3個易感因素、高血壓、2型糖尿病和LDL,得出誤差率和變量數(shù)目的圖點擊文末“閱讀原文”獲取完整代碼數(shù)據(jù)。

相關(guān)視頻

為了比較不同調(diào)整參數(shù)篩選解釋變量的效果, 建立如下三個包含不同協(xié)變量的模型并通過十折交叉驗證計算判斷誤差:

1)模型 I:包含所有待選協(xié)變量的 Logistic 模型;
2)模型 II:成組 Lasso Logistic 模型;
3)模型 III:僅包含由成組 Lasso 選出協(xié)變量的 Logistic 模型

查看數(shù)據(jù)變量

讀取數(shù)據(jù)

data=read.spss("test1_3.sav", to.data.frame=T)
head(data)

1)模型I:包含所有待選協(xié)變量的Logistic模型;

包含所有待選協(xié)變量的Logistic模型是一種統(tǒng)計模型,用于預(yù)測二分類結(jié)果的概率。協(xié)變量是指與待預(yù)測結(jié)果相關(guān)的特征或變量。在這種模型中,使用了所有待選的協(xié)變量作為自變量,并基于這些自變量與待預(yù)測結(jié)果之間的關(guān)系,建立了一個數(shù)學模型。

具體而言,模型使用logistic函數(shù)(也稱為sigmoid函數(shù))來建立自變量和待預(yù)測結(jié)果之間的關(guān)系。logistic函數(shù)將自變量的線性組合映射到一個0到1之間的概率值,表示該樣本屬于某個特定類別的概率。

在構(gòu)建模型時,需要確定每個協(xié)變量的系數(shù)(也稱為權(quán)重),以及和結(jié)果之間的關(guān)系。通常使用最大似然估計方法來確定這些系數(shù),以最大化模型對觀測數(shù)據(jù)的擬合度。

該模型的目標是通過對待選協(xié)變量的使用,最大化對結(jié)果的預(yù)測準確性和可解釋性。然而,選擇合適的協(xié)變量需要基于領(lǐng)域知識、統(tǒng)計分析和模型評估等綜合考慮。

需要注意的是,選擇所有待選協(xié)變量并不意味著所有的協(xié)變量都是對結(jié)果有幫助的,也可能存在一些多余或不相關(guān)的協(xié)變量。因此,在模型構(gòu)建過程中,還需要進行變量篩選、特征工程和模型評估等步驟來確保選擇的協(xié)變量和模型的可靠性和精確性。

split <- sample(1:nrow(data),nrow(data)*(2/3))  

data$HP=as.numeric(data$HP!=0)
HP ~.,family=binomial(link='logit'


點擊標題查閱往期內(nèi)容

數(shù)據(jù)分享|R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預(yù)測心臟病

左右滑動查看更多

01

02

03

04

混淆矩陣

混淆矩陣是用于評估分類模型性能的一種表格形式。它是由預(yù)測結(jié)果和實際結(jié)果組成的二維矩陣,其中行表示實際類別,列表示預(yù)測類別。每個單元格的值代表了在特定類別下的樣本數(shù)量。

混淆矩陣的四個主要單元格包括:

  1. 真正例(True Positive, TP):預(yù)測為正例且實際也為正例的樣本數(shù)量。

  2. 假正例(False Positive, FP):預(yù)測為正例但實際為負例的樣本數(shù)量。

  3. 假反例(False Negative, FN):預(yù)測為負例但實際為正例的樣本數(shù)量。

  4. 真反例(True Negative, TN):預(yù)測為負例且實際也為負例的樣本數(shù)量。

通過混淆矩陣,我們可以計算出一些常用的分類模型評估指標,例如準確率(Accuracy)、精確率(Precision)、召回率(Recall)和 F1 值等。這些指標可以幫助我們了解模型在不同類別上的表現(xiàn),并判斷其分類能力的好壞。

res <- data.frame(real,predict =ifelse(predict>0.5,'good','bad'))  


table(res)

auc

AUC (Area Under the Curve) 是一種常用的評估二分類模型性能的指標。它表示模型在不同閾值下的真陽性率(True Positive Rate,也稱為召回率)與假陽性率(False Positive Rate)之間的關(guān)系。

AUC的取值范圍在0到1之間,其中0.5表示模型的預(yù)測性能與隨機猜測相當,而1表示模型完美地預(yù)測了正例和負例。

AUC的計算方法是首先將模型的預(yù)測結(jié)果按照概率從高到低進行排序,然后根據(jù)不同的閾值,計算出對應(yīng)的真陽性率和假陽性率。最后,通過對這些真陽性率和假陽性率的數(shù)值進行積分,得到AUC的值。

AUC的優(yōu)點是不受分類閾值的影響,能夠全面評估模型的性能。它適用于不平衡數(shù)據(jù)集和多類別問題,并且對于數(shù)據(jù)集中存在噪聲和異常值的情況也比較魯棒。因此,AUC是評估和比較分類模型性能的重要指標之一。


performance( prediction( predict, real ),  "auc" )@y.values[[1]]

## [1] 0.7642045

2)模型II:組Lasso Logistic模型;

組Lasso Logistic模型是一種用于分類問題的機器學習模型。它結(jié)合了Lasso回歸和邏輯回歸的方法。Lasso回歸是一種用于特征選擇和正則化的線性回歸方法,它傾向于將參數(shù)稀疏化,即將一些參數(shù)設(shè)為零,從而獲得更簡單的模型。邏輯回歸則是一種常用的分類算法,適用于二分類或多分類問題。

組Lasso Logistic模型通過結(jié)合Lasso回歸和邏輯回歸的思想,旨在同時實現(xiàn)特征選擇和分類任務(wù)。它在建模過程中考慮了特征選擇的問題,從而可以處理高維數(shù)據(jù)集中的冗余特征,并且能夠在給定的特征集中選擇出對分類任務(wù)最有用的特征。通過對損失函數(shù)進行優(yōu)化,模型可以找到最佳的參數(shù)設(shè)置,以最大程度地減小預(yù)測錯誤,并增強模型的泛化能力。

組Lasso Logistic模型在許多實際應(yīng)用中都表現(xiàn)出很好的性能。它在生物信息學、文本分類、圖像識別和金融預(yù)測等領(lǐng)域都有廣泛的應(yīng)用。通過結(jié)合Lasso回歸的特征選擇能力和邏輯回歸的分類能力,組Lasso Logistic模型能夠提供更準確和可解釋的分類結(jié)果。

##建立lasso模型  
cv.lasso <- cv.ata_train$HP[1:nrow(xmat)] ) )

繪制誤差


點擊標題查閱往期內(nèi)容

R語言Lasso回歸模型變量選擇和糖尿病發(fā)展預(yù)測模型

左右滑動查看更多

01

02

03

04

coef(cv.lasso

根據(jù)lasso篩選出最優(yōu)的變量

Lasso(Least Absolute Shrinkage and Selection Operator)是一種用于變量選擇和模型建立的統(tǒng)計方法。它通過對目標函數(shù)添加一個懲罰項,將某些變量的系數(shù)縮減為零,從而實現(xiàn)變量篩選和模型簡化。

根據(jù)Lasso篩選出最優(yōu)的變量的過程可以概括為以下幾個步驟:

  1. 數(shù)據(jù)準備:將數(shù)據(jù)集分為訓練集和測試集,用于模型的訓練和評估。

  2. 模型建立:使用訓練集數(shù)據(jù),通過Lasso算法建立回歸模型。Lasso算法通過最小化目標函數(shù),其中包括了一個懲罰項,該項是變量系數(shù)的絕對值之和與一個常數(shù)的乘積。這個常數(shù)稱為懲罰力度,用于控制變量收縮的程度。

  3. 變量篩選:根據(jù)Lasso算法的特點,它會將一些變量的系數(shù)收縮為零,從而將這些變量排除在最優(yōu)模型之外。通過觀察Lasso算法得到的變量系數(shù),可以確定哪些變量被選中,即為最優(yōu)的變量。

  4. 模型評估:使用測試集數(shù)據(jù),對選中的最優(yōu)變量建立回歸模型進行評估??梢允褂靡恍┰u估指標(如均方誤差、決定系數(shù)等)來評估模型的性能。

總之,根據(jù)Lasso篩選出最優(yōu)的變量是通過使用Lasso算法建立回歸模型,并根據(jù)變量系數(shù)的收縮情況來確定哪些變量被選中,從而得到最優(yōu)的變量組合。這可以幫助簡化模型、提高預(yù)測準確性,并揭示出對目標變量具有顯著影響的變量。

#篩選變量  
data_train=data_train[,c(variables

=binomial(link='logit')

混淆矩陣

table(res)

lot( performance( prediction(

"auc" )@y.values[[1]]

## [1] 0.75

3)模型III:僅包含由成組Lasso選出協(xié)變量的Logistic模型。

僅包含由成組Lasso選出協(xié)變量的Logistic模型是一種統(tǒng)計模型,用于預(yù)測二元分類問題。在此模型中,使用了Lasso方法來選擇協(xié)變量(也稱為特征或自變量),該方法可以幫助確定對目標變量有最強預(yù)測能力的協(xié)變量。

Lasso方法是一種特征選擇和正則化技術(shù),它可以通過對模型中的系數(shù)進行懲罰,將某些系數(shù)推向零,從而實現(xiàn)變量選擇的效果。這意味著,在僅包含由成組Lasso選出的協(xié)變量的Logistic模型中,只有少數(shù)對預(yù)測目標有重要影響的協(xié)變量被保留下來,而其他對預(yù)測目標沒有重要影響的協(xié)變量則被排除。

Logistic模型是一種廣泛應(yīng)用于分類問題的模型。它使用邏輯函數(shù)(也稱為sigmoid函數(shù))來將輸入特征映射到0和1之間的概率值,該概率值表示樣本屬于某個類別的可能性。在僅包含由成組Lasso選出的協(xié)變量的Logistic模型中,利用這些協(xié)變量的值來預(yù)測樣本的分類標簽。

這種模型在實際應(yīng)用中具有一定的優(yōu)勢,因為它可以減少模型的復雜性和計算成本,同時提供準確的預(yù)測能力。然而,需要注意的是,選擇哪些協(xié)變量是一個重要的決策,并且應(yīng)該考慮相關(guān)領(lǐng)域的專業(yè)知識和實際需求。

reg(X, y ,colnames(data)[-14], penalty

select(fit, "AIC")


    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    欧美日韩国产成人高潮| 成人国产激情福利久久| 国产原创中文av在线播放| 国产又粗又猛又爽又黄| 亚洲国产精品肉丝袜久久| 中文字幕亚洲在线一区| 国产亚洲系列91精品| 欧美尤物在线观看西比尔| 国产大屁股喷水在线观看视频 | 丰满熟女少妇一区二区三区| 亚洲精品伦理熟女国产一区二区 | 91精品国产综合久久不卡| 欧美精品亚洲精品一区| 69久久精品亚洲一区二区| 日本和亚洲的香蕉视频| 国产一级精品色特级色国产| 国产精品偷拍一区二区| 日韩国产亚洲一区二区三区| 欧美成人欧美一级乱黄| 中文字幕日产乱码一区二区| 欧美一级片日韩一级片| 色老汉在线视频免费亚欧| 果冻传媒精选麻豆白晶晶| 麻豆视传媒短视频在线看| 欧美精品亚洲精品一区| 99视频精品免费视频| 国产精品不卡高清在线观看| 亚洲男女性生活免费视频| 在线观看欧美视频一区| 国产av熟女一区二区三区蜜桃| 日韩精品综合免费视频| 国产欧美日本在线播放| 欧美性欧美一区二区三区| 狠狠做五月深爱婷婷综合| 欧美激情视频一区二区三区| 亚洲视频一区自拍偷拍另类| 欧美黑人精品一区二区在线| 在线日本不卡一区二区| 在线亚洲成人中文字幕高清| 国产精品亚洲欧美一区麻豆| 亚洲欧美日韩熟女第一页|