在臨床預(yù)測模型的建立過程中,變量篩選和模型構(gòu)建只是前期準(zhǔn)備的一部分。而模型的真正價(jià)值和可靠性,則需要通過嚴(yán)格的評價(jià)來確保。在這一關(guān)鍵的第三步,我們將深入探討如何有效地評估臨床預(yù)測模型的性能。這不僅涉及模型的準(zhǔn)確性和可靠性,還包括對其穩(wěn)健性和適用性的全面考量。通過深入分析模型的評價(jià)結(jié)果,我們將為臨床實(shí)踐提供更為可靠的指導(dǎo)。
校準(zhǔn)圖calibrate及Hosmer-Lemeshow檢驗(yàn)

校準(zhǔn)曲線(Calibration Curve):
校準(zhǔn)曲線用于評估預(yù)測模型的預(yù)測性能。它顯示了觀察到的事件發(fā)生率與模型預(yù)測的概率之間的關(guān)系。通常,這個(gè)曲線是通過將數(shù)據(jù)集分成幾個(gè)子組(例如,根據(jù)預(yù)測概率分組),并計(jì)算每個(gè)子組中觀察到的事件率與模型預(yù)測的平均概率之間的關(guān)系來繪制的。
理想情況下,校準(zhǔn)曲線應(yīng)該與理想的45度對角線相匹配,這意味著模型的預(yù)測概率與實(shí)際觀察到的概率完全一致。如果校準(zhǔn)曲線偏離對角線,說明模型在某些預(yù)測概率下的校準(zhǔn)性能較差。
Hosmer-Lemeshow檢驗(yàn):
Hosmer-Lemeshow檢驗(yàn)是一種常用的統(tǒng)計(jì)檢驗(yàn),用于評估二分類模型的校準(zhǔn)性能。該檢驗(yàn)基于將觀察值分組,并比較每個(gè)組中觀察到的事件率與模型預(yù)測的事件率之間的差異。
Hosmer-Lemeshow檢驗(yàn)的基本思想是比較觀察到的事件率與預(yù)期的事件率之間的差異是否顯著。如果差異顯著,則表明模型的校準(zhǔn)性能可能不佳,即模型的預(yù)測概率與實(shí)際觀察到的概率之間存在系統(tǒng)性偏差。
總的來說,校準(zhǔn)曲線和Hosmer-Lemeshow檢驗(yàn)都是用來評估模型的校準(zhǔn)性能的工具。校準(zhǔn)性能好的模型會有校準(zhǔn)曲線接近45度對角線,并且Hosmer-Lemeshow檢驗(yàn)的p值較大,表明觀察到的事件率與模型預(yù)測的事件率之間沒有顯著差異。
混淆矩陣(Confusion Matrix)是評估二分類問題模型性能的一種表格形式的工具,通常用于臨床預(yù)測模型的評估。混淆矩陣將模型的預(yù)測結(jié)果與實(shí)際結(jié)果進(jìn)行對比,從而提供了對模型性能的詳細(xì)了解。
決策曲線分析(Decision Curve Analysis,DCA)是一種用于評估預(yù)測模型在臨床決策中的實(shí)用性和效用的方法。DCA基于患者的真實(shí)假設(shè)和決策制定者的偏好,通過比較不同預(yù)測模型或治療策略的凈效用來幫助決策者做出最佳決策。凈效用是指通過采用某種預(yù)測模型或治療策略而獲得的效用減去避免不良結(jié)果所帶來的成本。在DCA中,凈效用曲線顯示了在不同決策閾值下,采用預(yù)測模型所能獲得的凈效用。通過分析凈效用曲線,可以識別出在特定決策閾值下哪種預(yù)測模型或治療策略具有最大的凈效用。這有助于決策者在不同決策閾值下權(quán)衡風(fēng)險(xiǎn)和收益,并選擇最適合實(shí)際臨床應(yīng)用的預(yù)測模型或治療策略。
臨床影響曲線( linical Impact Curve)是一種圖形工具,用于評估某種預(yù)測模型在臨床實(shí)踐中的實(shí)際效果。它有助于理解模型的預(yù)測結(jié)果如何影響患者的臨床決策。它顯示了在不同決策閾值下,采用預(yù)測模型對患者做出積極干預(yù)(例如,進(jìn)行治療)的患者人數(shù)與不采取積極干預(yù)的患者人數(shù)之間的差異。換句話說,它反映了使用預(yù)測模型進(jìn)行分類時(shí),針對不同風(fēng)險(xiǎn)水平的患者進(jìn)行干預(yù)的潛在收益。臨床影響曲線的橫軸通常是決策閾值,即對于預(yù)測結(jié)果的概率閾值,超過該閾值的患者將被分類為積極干預(yù)組,而低于該閾值的患者將被分類為不積極干預(yù)組??v軸是積極干預(yù)組和不積極干預(yù)組之間的人數(shù)差異,或者可以表示為絕對風(fēng)險(xiǎn)減少(Absolute Risk Reduction)或相對風(fēng)險(xiǎn)減少(Relative Risk Reduction)等指標(biāo)。通過該曲線,醫(yī)生和決策者可以確定在不同決策閾值下采用預(yù)測模型進(jìn)行積極干預(yù)的患者比例,以及這種干預(yù)對于患者的實(shí)際臨床結(jié)果的潛在影響。這有助于指導(dǎo)臨床實(shí)踐中的決策制定,從而更好地利用預(yù)測模型提供的信息來改善患者的預(yù)后和治療效果。
本文謹(jǐn)慎地探討了臨床預(yù)測模型評價(jià)的各個(gè)方面,強(qiáng)調(diào)了準(zhǔn)確性、可靠性、穩(wěn)健性和適用性的綜合考量。介紹了一系列評價(jià)工具和方法,如ROC曲線與AUC、校準(zhǔn)圖與Hosmer-Lemeshow檢驗(yàn)、混淆矩陣、決策曲線分析(DCA)以及臨床影響曲線(CIA),這些工具構(gòu)成了對臨床預(yù)測模型進(jìn)行全面評估的框架。
參考文獻(xiàn):
1、 Meng X, Wang N, Yu M, Kong D, Zhang Z, Chang X, Guo Y, Li Y. Development of a nomogram for predicting grade 2 or higher acute hematologic toxicity of cervical cancer after the pelvic bone marrow sparing radiotherapy. Front Public Health. 2022 Sep 9;10:993443. doi: 10.3389/fpubh.2022.993443. PMID: 36159246; PMCID: PMC9501870.
2、 Mu F, Wang M, Zeng X, Wang F. Predicting risk of subsequent pregnancy loss among women with recurrent pregnancy loss: An immunological factor-based multivariable model. Am J Reprod Immunol. 2024 Mar;91(3):e13837. doi: 10.1111/aji.13837. PMID: 38514448.
3、 Li Y, Wu IXY, Wang X, Song J, Chen Q, Zhang W. Immunological parameters of maternal peripheral blood as predictors of future pregnancy outcomes in patients with unexplained recurrent pregnancy loss. Acta Obstet Gynecol Scand. 2024 Mar 21. doi: 10.1111/aogs.14832. Epub ahead of print. PMID: 38511530.
上一篇:運(yùn)動指數(shù)玩出新花樣,看看這篇二區(qū)文章干了啥?
下一篇:懷孕期間魚油補(bǔ)充與兒童代謝健康的長期影響:一項(xiàng)隨機(jī)臨床試驗(yàn)的研究