發(fā)布時間: 2024-04-03 09:30:04
先單因素后多因素篩選變量:
利用先單因素回歸,后多因素回歸篩選出較為顯著的變量作為預測因子(可選擇p<0.05或者0.1)
邏輯回歸逐步法篩選變量:
利用R中“rms”包中的“stepAIC”函數幫助我們以AIC為停止標準來篩選變量
利用LASSO回歸,以增加懲罰項的方式來篩選變量,選擇變量參數一般使用lamuda.min或者lamuda.1se。
示例1
該文首先利用三種方法篩選變量,后比較三種方法AIC,根據AIC來判斷那個方法篩選出來變量更適合用來預測
示例2
該文章利用LASSO先篩選變量,再利用邏輯回歸向后法最終選出變量
總結:臨床預測模型的核心是變量篩選,只有篩選出具有較高區(qū)分度的指標,才能提升模型的預測能力。我們也展開討論各個方法的優(yōu)缺點
優(yōu)勢:簡單快捷篩選變量,可以考慮多個因素對結局的影響,減少單個因素帶來的偏倚。
劣勢:待篩選變量中若存在較強相關性,回給模型帶來共線性風險
優(yōu)勢:(1)過擬合風險降低:LASSO通過對系數加入L1正則化項來限制系數的大小,有效地減少了模型的過擬合風險。這使得LASSO在處理高維數據或樣本量較少的情況下表現更為出色。(2)處理共線性:LASSO能夠在變量之間存在共線性的情況下進行變量選擇。通過將相關性高的特征的系數推向零,LASSO可以幫助處理共線性問題,提高模型的穩(wěn)定性和可靠性。(3)交叉驗證選擇正則化參數:在LASSO中,正則化參數(lambda)的選擇可以通過交叉驗證來完成,從而獲得更好的泛化性能。這使得LASSO在不同數據集上都能夠取得較好的性能,并且更具普適性。
但是變量篩選并沒有一個確定性的套路,若單純邏輯回歸或者LASSO回歸不能給我們篩選出理想的變量,利用考慮使用多種方法共同使用來篩選變量。
參考文獻:
[1] Dai YF, Lin LZ, Lin N, He DQ, Guo DH, Xue HL, Li Y, Xie X, Xu LP, He SQ. APA scoring system: a novel predictive model based on risk factors of pregnancy loss for recurrent spontaneous abortion patients. J Obstet Gynaecol. 2022 Aug;42(6):2069-2074. doi: 10.1080/01443615.2021.2021507. Epub 2022 Jan 20. PMID: 35048758.
[2] Kolte AM, Westergaard D, Lidegaard ?, Brunak S, Nielsen HS. Chance of live birth: a nationwide, registry-based cohort study. Hum Reprod. 2021 Mar 18;36(4):1065-1073. doi: 10.1093/humrep/deaa326. PMID: 33394013.
[3] Li Y, Wu IXY, Wang X, Song J, Chen Q, Zhang W. Immunological parameters of maternal peripheral blood as predictors of future pregnancy outcomes in patients with unexplained recurrent pregnancy loss. Acta Obstet Gynecol Scand. 2024 Mar 21. doi: 10.1111/aogs.14832. Epub ahead of print. PMID: 38511530.
[4] Meng X, Wang N, Yu M, Kong D, Zhang Z, Chang X, Guo Y, Li Y. Development of a nomogram for predicting grade 2 or higher acute hematologic toxicity of cervical cancer after the pelvic bone marrow sparing radiotherapy. Front Public Health. 2022 Sep 9;10:993443. doi: 10.3389/fpubh.2022.993443. PMID: 36159246; PMCID: PMC9501870.
上一篇:孕期糖尿病風險降低新策略?超重孕婦魚油與益生菌干預效果揭秘