Methodological issues around the validation of models for predicting diabetes risk in developing countries
Date
2016-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosh University
Abstract
ENGLISH SUMMARY: Background: Multivariable diabetes risk prediction models have the potential to contribute to screening strategies, combining several risk factors to predict undiagnosed diabetes or future risk of developing diabetes. The focus of this study is the prediction of undiagnosed diabetes and diabetes risk prediction in a developing country where no population-specific diabetes risk prediction model currently exists. Existent models have been developed in unrelated populations with different disease prevalence, predictor weightings and methods used for risk factor determination and diabetes diagnosis. For accurate diabetes risk prediction in the mixed ancestry population of Bellville South, Cape Town, methodological issues regarding the validation and performance of these models needs to be addressed. Methodology: Cross-sectional data from the Cape Town Bellville South cohort was used for this study. Missing data in risk prediction research was investigated through a systematic review and a number of imputation methods were explored to deal with missing data in this dataset. Models were identified via recent systematic reviews and validated in the mixed-ancestry population. Discrimination was assessed and compared using the C-statistic and calibration was assessed via calibration plots. Model recalibration in diabetes risk prediction was investigated through a systematic review. In an effort to improve model performance in the new setting, model recalibration and updating strategies were used and performance was compared before and after implementation. Results: The study sample consisted of 1256 individuals, of whom 173 were excluded due to previously diagnosed diabetes. Of the final 1083 individuals, 329 (30.4%) had missing data. Deletion resulted in the lowest model performance and simple imputation, the simplest method, resulted in the highest model performance and was employed for further analysis. A systematic review highlighted the gross underreporting and mishandling of missing data in diabetes risk prediction research. Original model performance during validation was poor-to-average, with both over- and underestimation present: Cambridge [C-statistic: 0.67 (0.62-0.72); E/O: 1.81 (1.09-2.52)], Kuwaiti [C-statistic: 0.68 (0.63-0.73); E/O: 0.72 (0.43-1.12)], Omani [C-statistic: 0.66 (0.61-0.70); E/O: 1.28 (0.63-1.93)], Rotterdam [C-statistic: 0.64 (0.59-0.69); E/O: 0.54 (0.50-1.04)] and Simplified Finnish [C-statistic: 0.67 (0.62-0.71); E/O: 0.26 (0.13-0.39)] diabetes risk prediction models. Recalibration, as shown through a systematic review, was undertaken only in models predicting incident diabetes, and was reported in 22.9% of validation studies, with 77.8% achieving an increase in model performance. Updating results applied to this validation dataset showed an increase in both discrimination and calibration in varying levels across all five models. Overall, the re-estimation of the Cambridge diabetes risk model yielded the best model performance [C-statistic: 0.71 (0.67 – 0.75); E/O: 1.00 (0.86 – 1.17)]. Discussion and conclusion: The frequency of missing data, underreporting and mishandling of missing data, complexity of updating methods and overall model performance of validated models in new settings highlight the challenges in diabetes risk prediction research. This is the first validation study of prevalent diabetes risk prediction models in Sub-Saharan Africa and highlighted important methodological issues. While both simpler imputation and updating methods resulted in similar predictive utility when compared to more complex techniques, model performance was not increased sufficiently to suggest recommendation.
AFRIKAANSE OPSOMMING: Agtergrond: Diabetesrisikobeoordeling het na vore gekom as ’n eenvoudige manier om intervensiestrategieë af te stem op diegene wat asimptomaties is dog aan ongediagnoseerde diabetes ly, of groot gevaar loop om diabetes te ontwikkel. Meerveranderlike-risikovoorspellingsmodelle kan tot hierdie siftingsproses bydra deur verskeie risikovoorspellers wat in die uitkomsvoorspelling gebruik word te kombineer. Hierdie studie konsentreer op die voorspelling van ongediagnoseerde diabetes en diabetesrisiko in ’n ontwikkelende land waar daar tans geen populasiespesifieke model vir die voorspelling van diabetesrisiko bestaan nie. Bestaande modelle is ontwikkel in nieverwante populasies met verskillende metodes vir risikofaktorbepaling en diabetesdiagnose, die bepaling van siektevoorkoms en die beswaring van voorspellers. Vir akkurate diabetesrisikovoorspelling onder die veelrassige inwoners van Bellville-Suid, Kaapstad, moet die geldigheid en prestasie van hierdie modelle aandag ontvang. Metodologie: Deursneedata uit die kohort Bellville-Suid, Kaapstad, is vir hierdie studie gebruik. Ontbrekende data in risikovoorspellingsnavorsing is deur middel van ’n stelselmatige oorsig ondersoek, en ’n aantal toerekeningsmetodes is verken om ontbrekende data in hierdie datastel te hanteer. Modelle is deur middel van onlangse stelselmatige ondersoeke geïdentifiseer, en die geldigheid daarvan is onder die veelrassige bevolking bepaal. Diskriminasie is met behulp van C-statistiese en nieparametriese metodes beoordeel en vergelyk, en kalibrering is met kalibreringsgrafieke beoordeel. Om modelprestasie in die nuwe studieomgewing te verbeter, is modelherkalibrering en bywerkingstrategieë gebruik. Modelherkalibrering in diabetesrisikovoorspelling is eers deur ’n stelselmatige oorsig van gepubliseerde geldigheidstudies ondersoek. Daarna is bywerkingstrategieë in hierdie studiepopulasie in werking gestel en is prestasie voor en na inwerkingstelling vergelyk. Resultate: Die steekproef van die studie het uit 1 256 individue bestaan, van wie 173 weens voorheen gediagnoseerde diabetes uitgesluit is. Van die uiteindelike 1 083 individue, het 329 (30,4%) ontbrekende data gehad. Weglating het tot die laagste modelprestasie gelei, en die eenvoudigste toerekeningsmetode wat die hoogste modelprestasie tot gevolg gehad het, is vir verdere ontleding gebruik. ’n Stelselmatige oorsig het erge onderrapportering en verkeerde hantering van ontbrekende data in navorsing oor diabetesrisikovoorspelling aan die lig gebring. Oorspronklike modelprestasie gedurende geldigheidsbepaling was gemiddeld, en sowel oor- as onderraming het voorgekom in die diabetesrisikovoorspellingsmodelle van Cambridge [C-statistiek: 0.67 (0.62-0.72); E/O: 1.81 (1.09-2.52)], Koeweit [C-statistiek: 0.68 (0.63-0.73); E/O: 0.72 (0.43-1.12)], Oman [C-statistiek: 0.66 (0.61-0.70); E/O: 1.28 (0.63-1.93)], Rotterdam [C-statistiek: 0.64 (0.59-0.69); E/O: 0.54 (0.50-1.04)] en Finland (vereenvoudig) [C-statistiek: 0.67 (0.62-0.71); E/O: 0.26 (0.13-0.39)]. Herkalibrering, wat slegs onderneem is in modelle wat nuwe diabetesgevalle (insidensie) voorspel, is in 22,9% van geldigheidstudies gerapporteer, en 77,8% het ’n toename in modelprestasie getoon. Bywerkingsresultate wat op hierdie geldigheidsdatastel toegepas is, toon ’n toename in diskriminasie sowel as kalibrering op wisselende vlakke oor ál vyf modelle. Oor die algemeen het die herraming van die Cambridge-diabetesrisikomodel die beste modelprestasie opgelewer [C-statistiek: 0.71 (0.67 – 0.75); E/O: 1.00 (0.86 – 1.17)]. Bespreking en gevolgtrekking: Die frekwensie van ontbrekende data, die onderrapportering en verkeerde hantering van ontbrekende data, die kompleksiteit van bywerkingsmetodes sowel as die algehele modelprestasie van geldige modelle in nuwe studieomgewings beklemtoon die uitdagings van navorsing oor diabetesrisikovoorspelling. Hierdie studie is die eerste geldigheidstudie van bestaande modelle vir diabetesrisikovoorspelling in Afrika suid van die Sahara. Hoewel eenvoudiger toerekening- en bywerkingsmetodes soortgelyke voorspellingsnut as meer komplekse tegnieke tot gevolg gehad het, het modelprestasie nie soveel verbeter dat dit aanbeveling regverdig nie.
AFRIKAANSE OPSOMMING: Agtergrond: Diabetesrisikobeoordeling het na vore gekom as ’n eenvoudige manier om intervensiestrategieë af te stem op diegene wat asimptomaties is dog aan ongediagnoseerde diabetes ly, of groot gevaar loop om diabetes te ontwikkel. Meerveranderlike-risikovoorspellingsmodelle kan tot hierdie siftingsproses bydra deur verskeie risikovoorspellers wat in die uitkomsvoorspelling gebruik word te kombineer. Hierdie studie konsentreer op die voorspelling van ongediagnoseerde diabetes en diabetesrisiko in ’n ontwikkelende land waar daar tans geen populasiespesifieke model vir die voorspelling van diabetesrisiko bestaan nie. Bestaande modelle is ontwikkel in nieverwante populasies met verskillende metodes vir risikofaktorbepaling en diabetesdiagnose, die bepaling van siektevoorkoms en die beswaring van voorspellers. Vir akkurate diabetesrisikovoorspelling onder die veelrassige inwoners van Bellville-Suid, Kaapstad, moet die geldigheid en prestasie van hierdie modelle aandag ontvang. Metodologie: Deursneedata uit die kohort Bellville-Suid, Kaapstad, is vir hierdie studie gebruik. Ontbrekende data in risikovoorspellingsnavorsing is deur middel van ’n stelselmatige oorsig ondersoek, en ’n aantal toerekeningsmetodes is verken om ontbrekende data in hierdie datastel te hanteer. Modelle is deur middel van onlangse stelselmatige ondersoeke geïdentifiseer, en die geldigheid daarvan is onder die veelrassige bevolking bepaal. Diskriminasie is met behulp van C-statistiese en nieparametriese metodes beoordeel en vergelyk, en kalibrering is met kalibreringsgrafieke beoordeel. Om modelprestasie in die nuwe studieomgewing te verbeter, is modelherkalibrering en bywerkingstrategieë gebruik. Modelherkalibrering in diabetesrisikovoorspelling is eers deur ’n stelselmatige oorsig van gepubliseerde geldigheidstudies ondersoek. Daarna is bywerkingstrategieë in hierdie studiepopulasie in werking gestel en is prestasie voor en na inwerkingstelling vergelyk. Resultate: Die steekproef van die studie het uit 1 256 individue bestaan, van wie 173 weens voorheen gediagnoseerde diabetes uitgesluit is. Van die uiteindelike 1 083 individue, het 329 (30,4%) ontbrekende data gehad. Weglating het tot die laagste modelprestasie gelei, en die eenvoudigste toerekeningsmetode wat die hoogste modelprestasie tot gevolg gehad het, is vir verdere ontleding gebruik. ’n Stelselmatige oorsig het erge onderrapportering en verkeerde hantering van ontbrekende data in navorsing oor diabetesrisikovoorspelling aan die lig gebring. Oorspronklike modelprestasie gedurende geldigheidsbepaling was gemiddeld, en sowel oor- as onderraming het voorgekom in die diabetesrisikovoorspellingsmodelle van Cambridge [C-statistiek: 0.67 (0.62-0.72); E/O: 1.81 (1.09-2.52)], Koeweit [C-statistiek: 0.68 (0.63-0.73); E/O: 0.72 (0.43-1.12)], Oman [C-statistiek: 0.66 (0.61-0.70); E/O: 1.28 (0.63-1.93)], Rotterdam [C-statistiek: 0.64 (0.59-0.69); E/O: 0.54 (0.50-1.04)] en Finland (vereenvoudig) [C-statistiek: 0.67 (0.62-0.71); E/O: 0.26 (0.13-0.39)]. Herkalibrering, wat slegs onderneem is in modelle wat nuwe diabetesgevalle (insidensie) voorspel, is in 22,9% van geldigheidstudies gerapporteer, en 77,8% het ’n toename in modelprestasie getoon. Bywerkingsresultate wat op hierdie geldigheidsdatastel toegepas is, toon ’n toename in diskriminasie sowel as kalibrering op wisselende vlakke oor ál vyf modelle. Oor die algemeen het die herraming van die Cambridge-diabetesrisikomodel die beste modelprestasie opgelewer [C-statistiek: 0.71 (0.67 – 0.75); E/O: 1.00 (0.86 – 1.17)]. Bespreking en gevolgtrekking: Die frekwensie van ontbrekende data, die onderrapportering en verkeerde hantering van ontbrekende data, die kompleksiteit van bywerkingsmetodes sowel as die algehele modelprestasie van geldige modelle in nuwe studieomgewings beklemtoon die uitdagings van navorsing oor diabetesrisikovoorspelling. Hierdie studie is die eerste geldigheidstudie van bestaande modelle vir diabetesrisikovoorspelling in Afrika suid van die Sahara. Hoewel eenvoudiger toerekening- en bywerkingsmetodes soortgelyke voorspellingsnut as meer komplekse tegnieke tot gevolg gehad het, het modelprestasie nie soveel verbeter dat dit aanbeveling regverdig nie.
Description
Thesis (PhD)--Stellenbosch University, 2016.
Keywords
Diabetes -- Forecasting -- Mathematical models, Diabetes -- Risk factors -- Mathematical models, Diabetes -- Risk factors -- Developing countries, Mathematical models -- Research, Multiple imputation (Statistics), Missing observations (Statistics), UCTD