全文鏈接:https:///?p=33015本文用邏輯回歸和lasso算法醫(yī)學上的疾病的相關(guān)因素,幫助客戶確定哪種模型可用于某種疾病的相關(guān)因素分析。3個模型:Logistic模型、成組Lasso Logistic模型、由組Lasso選出協(xié)變量的Logistic模型,有3個易感因素、高血壓、2型糖尿病和LDL,得出誤差率和變量數(shù)目的圖(點擊文末“閱讀原文”獲取完整代碼數(shù)據(jù))。 相關(guān)視頻 為了比較不同調(diào)整參數(shù)篩選解釋變量的效果, 建立如下三個包含不同協(xié)變量的模型并通過十折交叉驗證計算判斷誤差: 1)模型 I:包含所有待選協(xié)變量的 Logistic 模型; 查看數(shù)據(jù)變量讀取數(shù)據(jù)
1)模型I:包含所有待選協(xié)變量的Logistic模型;包含所有待選協(xié)變量的Logistic模型是一種統(tǒng)計模型,用于預(yù)測二分類結(jié)果的概率。協(xié)變量是指與待預(yù)測結(jié)果相關(guān)的特征或變量。在這種模型中,使用了所有待選的協(xié)變量作為自變量,并基于這些自變量與待預(yù)測結(jié)果之間的關(guān)系,建立了一個數(shù)學模型。 具體而言,模型使用logistic函數(shù)(也稱為sigmoid函數(shù))來建立自變量和待預(yù)測結(jié)果之間的關(guān)系。logistic函數(shù)將自變量的線性組合映射到一個0到1之間的概率值,表示該樣本屬于某個特定類別的概率。 在構(gòu)建模型時,需要確定每個協(xié)變量的系數(shù)(也稱為權(quán)重),以及和結(jié)果之間的關(guān)系。通常使用最大似然估計方法來確定這些系數(shù),以最大化模型對觀測數(shù)據(jù)的擬合度。 該模型的目標是通過對待選協(xié)變量的使用,最大化對結(jié)果的預(yù)測準確性和可解釋性。然而,選擇合適的協(xié)變量需要基于領(lǐng)域知識、統(tǒng)計分析和模型評估等綜合考慮。 需要注意的是,選擇所有待選協(xié)變量并不意味著所有的協(xié)變量都是對結(jié)果有幫助的,也可能存在一些多余或不相關(guān)的協(xié)變量。因此,在模型構(gòu)建過程中,還需要進行變量篩選、特征工程和模型評估等步驟來確保選擇的協(xié)變量和模型的可靠性和精確性。
點擊標題查閱往期內(nèi)容 左右滑動查看更多 混淆矩陣混淆矩陣是用于評估分類模型性能的一種表格形式。它是由預(yù)測結(jié)果和實際結(jié)果組成的二維矩陣,其中行表示實際類別,列表示預(yù)測類別。每個單元格的值代表了在特定類別下的樣本數(shù)量。 混淆矩陣的四個主要單元格包括:
通過混淆矩陣,我們可以計算出一些常用的分類模型評估指標,例如準確率(Accuracy)、精確率(Precision)、召回率(Recall)和 F1 值等。這些指標可以幫助我們了解模型在不同類別上的表現(xiàn),并判斷其分類能力的好壞。
aucAUC (Area Under the Curve) 是一種常用的評估二分類模型性能的指標。它表示模型在不同閾值下的真陽性率(True Positive Rate,也稱為召回率)與假陽性率(False Positive Rate)之間的關(guān)系。 AUC的取值范圍在0到1之間,其中0.5表示模型的預(yù)測性能與隨機猜測相當,而1表示模型完美地預(yù)測了正例和負例。 AUC的計算方法是首先將模型的預(yù)測結(jié)果按照概率從高到低進行排序,然后根據(jù)不同的閾值,計算出對應(yīng)的真陽性率和假陽性率。最后,通過對這些真陽性率和假陽性率的數(shù)值進行積分,得到AUC的值。 AUC的優(yōu)點是不受分類閾值的影響,能夠全面評估模型的性能。它適用于不平衡數(shù)據(jù)集和多類別問題,并且對于數(shù)據(jù)集中存在噪聲和異常值的情況也比較魯棒。因此,AUC是評估和比較分類模型性能的重要指標之一。
2)模型II:組Lasso Logistic模型;組Lasso Logistic模型是一種用于分類問題的機器學習模型。它結(jié)合了Lasso回歸和邏輯回歸的方法。Lasso回歸是一種用于特征選擇和正則化的線性回歸方法,它傾向于將參數(shù)稀疏化,即將一些參數(shù)設(shè)為零,從而獲得更簡單的模型。邏輯回歸則是一種常用的分類算法,適用于二分類或多分類問題。 組Lasso Logistic模型通過結(jié)合Lasso回歸和邏輯回歸的思想,旨在同時實現(xiàn)特征選擇和分類任務(wù)。它在建模過程中考慮了特征選擇的問題,從而可以處理高維數(shù)據(jù)集中的冗余特征,并且能夠在給定的特征集中選擇出對分類任務(wù)最有用的特征。通過對損失函數(shù)進行優(yōu)化,模型可以找到最佳的參數(shù)設(shè)置,以最大程度地減小預(yù)測錯誤,并增強模型的泛化能力。 組Lasso Logistic模型在許多實際應(yīng)用中都表現(xiàn)出很好的性能。它在生物信息學、文本分類、圖像識別和金融預(yù)測等領(lǐng)域都有廣泛的應(yīng)用。通過結(jié)合Lasso回歸的特征選擇能力和邏輯回歸的分類能力,組Lasso Logistic模型能夠提供更準確和可解釋的分類結(jié)果。
繪制誤差 點擊標題查閱往期內(nèi)容 左右滑動查看更多
根據(jù)lasso篩選出最優(yōu)的變量Lasso(Least Absolute Shrinkage and Selection Operator)是一種用于變量選擇和模型建立的統(tǒng)計方法。它通過對目標函數(shù)添加一個懲罰項,將某些變量的系數(shù)縮減為零,從而實現(xiàn)變量篩選和模型簡化。 根據(jù)Lasso篩選出最優(yōu)的變量的過程可以概括為以下幾個步驟:
總之,根據(jù)Lasso篩選出最優(yōu)的變量是通過使用Lasso算法建立回歸模型,并根據(jù)變量系數(shù)的收縮情況來確定哪些變量被選中,從而得到最優(yōu)的變量組合。這可以幫助簡化模型、提高預(yù)測準確性,并揭示出對目標變量具有顯著影響的變量。
混淆矩陣
3)模型III:僅包含由成組Lasso選出協(xié)變量的Logistic模型。僅包含由成組Lasso選出協(xié)變量的Logistic模型是一種統(tǒng)計模型,用于預(yù)測二元分類問題。在此模型中,使用了Lasso方法來選擇協(xié)變量(也稱為特征或自變量),該方法可以幫助確定對目標變量有最強預(yù)測能力的協(xié)變量。 Lasso方法是一種特征選擇和正則化技術(shù),它可以通過對模型中的系數(shù)進行懲罰,將某些系數(shù)推向零,從而實現(xiàn)變量選擇的效果。這意味著,在僅包含由成組Lasso選出的協(xié)變量的Logistic模型中,只有少數(shù)對預(yù)測目標有重要影響的協(xié)變量被保留下來,而其他對預(yù)測目標沒有重要影響的協(xié)變量則被排除。 Logistic模型是一種廣泛應(yīng)用于分類問題的模型。它使用邏輯函數(shù)(也稱為sigmoid函數(shù))來將輸入特征映射到0和1之間的概率值,該概率值表示樣本屬于某個類別的可能性。在僅包含由成組Lasso選出的協(xié)變量的Logistic模型中,利用這些協(xié)變量的值來預(yù)測樣本的分類標簽。 這種模型在實際應(yīng)用中具有一定的優(yōu)勢,因為它可以減少模型的復雜性和計算成本,同時提供準確的預(yù)測能力。然而,需要注意的是,選擇哪些協(xié)變量是一個重要的決策,并且應(yīng)該考慮相關(guān)領(lǐng)域的專業(yè)知識和實際需求。
|
|
來自: 拓端數(shù)據(jù) > 《待分類》