The impact of missing data on estimating HIV/AIDS prevalence and incidence in demographic sentinel survey studies
Date
2022-04
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH SUMMARY: Background: Missing data is a challenge in most research, especially with observational population data such as demographic surveys. These studies often account for survey designs and clustering when estimating disease prevalence or incidence, but do not account for missing data. In other circumstances they do not explicitly state how they dealt with missing data during analysis or inappropriately handles them in practice. There are many challenges in conceptualising the pattern of missingness, its occurrence mechanism and complexity of methods for handling the problem of missing data. Ignoring the missingness of survey data can cause biased estimates and invalid conclusions. The primary aim of this PhD was to evaluate the impact of missing data on estimating HIV/AIDS prevalence in demographic sentinel surveillance studies.
Methods: A systematic review of HIV studies to identify and describe methods used to analyse studies with missing data was done. A series of simulation studies to explore the precision and efficiency of the prevalence estimates using complete case analysis (CCA), multiple imputation (MI), inverse probability weighting (IPW) and double robust estimator (DR), when data are missing at random (MAR) in survey studies was done. A descriptive statistics and a complete case analysis to determine the incidence and population prevalence estimates ignoring the missingness on four different survey rounds of Magu Health Demographic Sentinel Surveillance (HDSS) was done.The surveys were conducted between 2006 and 2016, they included adults aged 15 years and above and about 50% of the population was tested for HIV in each survey. This was followed by data exploration assessing the missingness occurrence and association between missingness and other study characteristics. Finally, application of the statistical methods used in the simulations study was performed to re-estimate the prevalence of the surveys data taking into account the missingness.
Results: The systematic review found 24 eligible articles from population, demographic and cross-sectional surveys that acknowledged the presence of missing data. In these studies, complete case analysis was the standard method of choice (100%) followed by multiple imputations (46%) and Heckman’s selection models (38%). A simulation study generated a hypothetical HIV survey with 32 different scenarios exploring data when an outcome is missing 20% and 55%. This simulation showed that when data are MAR, complete case analysis produces biased and inefficient estimates. Results showed that the three methods (MI, IPW and DR) were valid and efficient if the missingness or imputation models are correctly specified, but if either of the MI or IPW models are mis-specified, then the DR estimator can still be valid. Regarding to performance of the methods, provided that correct models are used, MI is more unbiased even when there is 55% of the data missing. However with 55% missingness all estimators are less reliable. In the complete case analysis, the overall population prevalence estimates for HIV decreased from 7.2% in 2006 to 6.6% in 2016. Cox models were used to determine HIV incidence rates and risk factor analysis by sex. The incidence rate was 5.5 per 1000 person - years in women compared to 4.6 per 1000 person-years in men. Residence, marital status, mobile individuals, and individuals with two or more partners were associated with the increase in incidence of HIV in bivariate analysis. The missingness OF HIV was as high as 60.3% (in the 2016 survey) and in all surveys(Sero 5 to 8) it was associated with age, sex, residence, and marital status. Further analysis using MI, IPW and DR assuming the outcome was MAR showed that the overall HIV prevalence was not significantly different from the complete case analysis in all four of the surveys. However, there were significant differences in the HIV estimates when stratified by the covariates. Looking at the confidence intervals width multiple imputations outperformed IPW and DR by producing more narrower estimates.
Conclusion: Overall, this dissertation showed that despite the availability of methods to adjust for missing data, many surveys still ignore the missingness. The reporting among articles adjusted for missingness was below guideline standards. Understanding the mechanism of missingness enhances the proper application of advanced methods to account for the missingness. With data missing at random, IPW, MI, and DR can account for the missingness and produce unbiased and efficient estimates in HIV survey studies. Also, more simplified information and awareness are still needed to allow researchers to make informed choices, specifically on which method to apply and in which situation it works best for the estimates to be more reliable and representative.
AFRIKAANSE OPSOMMING: Agtergrond: Ontbrekende data is ‘n uitdaging in meeste navorsing, veral met waarnemingsdata afkomstig van demografiese opnames. Hierdie studies neem dikwels die opname se ontwerp en trosgroepering in berekening wanneer siekte se prevalensie en insidensie uitgewerk word, maar dit neem nie ontbrekende data in ag of verklaar duidelik hoe daar met ontbrekende data tewerk gegaan is tydens die analise nie. Daar is baie uitdagings om die patroon van ‘ontbrekendheid’ en die voorkomsmeganisme hiervan te konseptualiseer en daar is kompleksiteit in die metodes om die probleem van ontbrekende data te hanteer. Deur ‘ontbrekendheid’ in opname data te ignoreer kan tot eensydige skattings en onakkurate bevindinge lei. Die doel van hierdie verhandeling was om die verskillende metodes van ontbrekende data en die impak daarvan op MIV/Vigs prevalensie in demografiese opsigter-waarnemingstudies te evalueer. Metodes: ‘n Stelselmatige oorsig van MIV studies om metodes te identifiseer en te beskryf wat gebruik is om ontbrekende data mee te analiseer, is uitgevoer. ‘n Reeks simulasiestudies is gedoen om die presisie en doeltreffendheid van prevalensieskattings te verken deur gebruik te maak van algehele geval analises (“complete case analysis”, “CCA”), veelvoudige imputasie (“multiple imputation”, “MI”), omgekeerde waarskynlikheidsgewig (“inverse probability weighting”, “IPW”) en dubbele robuustheid (“double robust”, “DR”) metodes wanneer data lukraak in opnamestudies ontbreek. Beskrywende statistiek en ‘n algehele geval-analise (“CCA”) is gebruik om die insidensie en prevalensie te bereken wanneer die skattings die ontbrekendheid in vier verskillende opname rondtes van die Magu Gesondheidsdemografiese Opsigter-Waarnemingstudies ignoreer. Hierna het dataverkenning gevolg om die voorkoms van ontbrekendheid en die verwantskap tussen ontbrekendheid en studie eienskappe te ondersoek. Laastens is die toepassing van statistiese metodes in die simulasiestudie gebruik om die voorkoms van opname data te her-skat deur ontbrekendheid in ag te neem. Resultate: Die stelselmatige oorsig het 24 geskikte artikels van demografiese en deursnitopnames wat die teenwoordigheid van ontbrekende data erken gevind. In hierdie studies was algehele geval-analise (“CCA”) die standaardmetode (100%), gevolg deur veelvuldige imputasies (“MI”, 46%) en Heckman se seleksiemodelle (38%). ‘n Simulasiestudie het ‘n hipotetiese MIV opname gegenereer wat 32 verskillende scenarios van ontbrekende data teen 20% en 55% verken en ondersoek het. Hierdie simulasiemodel het gewys dat wanneer data lukraak ontbreek, die CCA metode eensydige resultate en ondoeltreffende skattings gee. Resultate toon ook dat die drie metodes naamlik “MI”, “IPW” en “DR” geldig en doeltreffend is indien ontbrekendheid of imputasie-modelle korrek gespesifiseer is, maar indien ´of die “MI” ´of “IPW” modelle verkeerd gespesifiseer is, dan is die “DR” skattings steeds geldig. Nogtans, wanneer die korrekte modelle verskaf word, is die “MI” metode nie eensydig nie en ook doeltreffend wanneer daar 55% data lukraak ontbreek. Die verhandeling het vier metodes op data van die Magu Gesondheidsdemografiese Opsigter-Waarnemingstudies (“HDSS”) van Noordwes Tanzanie toegepas. Vier opnames wat tussen 2006 en 2016 uitgevoer is sluit volwassenes van 15 jaar en ouer in, en ongeveer 50% van die bevolking is vir MIV in elke opname getoets. In die “CCA” het die totale bevolkingsprevalensie skattings vir MIV afgeneem van 7.2% in 2006 tot 6.6% in 2016. Cox-modelle is gebruik om die MIV insidensiekoers en risikofaktor-analise per geslag (manlik/vroulik) te bepaal. Die insidensiekoers was 5.5 per 1000 persoon-jare in vrouens teenoor 4.6 per 1000 persoon-jare in mans. Residensie, huwelikstatus, mobiele individue en individue met twee of meer (bed)maats is geassosieer met die insidensie van MIV. Die ontbrekendheid was hoog in 60.3% (in die 2016 opname) en in all opnames was dit geassosieer met ouderdom, geslag, residensie en huwelikstatus. Verdere analise deur “MI”, “IPW” en “DR” is gedoen, en waar die aanname gemaak is dat die data lukraak ontbreek, het getoon dat die totale MIV prevalensie nie beduidend verskillend van die “CCA” analise se resultate is nie, in al vier die opnames. Maar, daar was beduidende verskille in die MIV skattings wanneer data ten opsigte van die kovariate gestratifiseer is. Gegewe die wydte van die vertrouensintervalle, het die “MI” metode beter as die “IPW” en “DR” metodes gedoen, aangesien dit nouer skattings gegee het. Samevatting: Oorsigtelik het hierdie navorsing getoon dat, ten spyte van die beskikbaarheid van metodes om aanpassings vir ontbrekende data te maak, baie opnames steeds ontbrekendheid ignoreer. Die rapportering in artikels waar daar wel aanpassings gemaak is, voldoen nie aan riglyne se standaarde nie. Deur die meganisme van ontbrekendheid te verstaan, versterk die behoorlike toepassing van gevorderde metodes om aanpassings vir ontbrekendheid te maak. Wanneer data lukraak ontbreek, kan “IPW”, “MI” en “DR” metodes gebruik word om aanpassings vir ontbrekendheid te maak en hierdie lei tot nie-eensydige en doeltreffende skattings in MIV opnamestudies. Meer eenvoudige inligting en bewusmaking is nodig om navorsers toe te laat om ingeligte besluite te maak rakende watter metode om in watter scenario te gebruik, vir die skattings om meer betroubaar en verteenwoordigend te wees.
AFRIKAANSE OPSOMMING: Agtergrond: Ontbrekende data is ‘n uitdaging in meeste navorsing, veral met waarnemingsdata afkomstig van demografiese opnames. Hierdie studies neem dikwels die opname se ontwerp en trosgroepering in berekening wanneer siekte se prevalensie en insidensie uitgewerk word, maar dit neem nie ontbrekende data in ag of verklaar duidelik hoe daar met ontbrekende data tewerk gegaan is tydens die analise nie. Daar is baie uitdagings om die patroon van ‘ontbrekendheid’ en die voorkomsmeganisme hiervan te konseptualiseer en daar is kompleksiteit in die metodes om die probleem van ontbrekende data te hanteer. Deur ‘ontbrekendheid’ in opname data te ignoreer kan tot eensydige skattings en onakkurate bevindinge lei. Die doel van hierdie verhandeling was om die verskillende metodes van ontbrekende data en die impak daarvan op MIV/Vigs prevalensie in demografiese opsigter-waarnemingstudies te evalueer. Metodes: ‘n Stelselmatige oorsig van MIV studies om metodes te identifiseer en te beskryf wat gebruik is om ontbrekende data mee te analiseer, is uitgevoer. ‘n Reeks simulasiestudies is gedoen om die presisie en doeltreffendheid van prevalensieskattings te verken deur gebruik te maak van algehele geval analises (“complete case analysis”, “CCA”), veelvoudige imputasie (“multiple imputation”, “MI”), omgekeerde waarskynlikheidsgewig (“inverse probability weighting”, “IPW”) en dubbele robuustheid (“double robust”, “DR”) metodes wanneer data lukraak in opnamestudies ontbreek. Beskrywende statistiek en ‘n algehele geval-analise (“CCA”) is gebruik om die insidensie en prevalensie te bereken wanneer die skattings die ontbrekendheid in vier verskillende opname rondtes van die Magu Gesondheidsdemografiese Opsigter-Waarnemingstudies ignoreer. Hierna het dataverkenning gevolg om die voorkoms van ontbrekendheid en die verwantskap tussen ontbrekendheid en studie eienskappe te ondersoek. Laastens is die toepassing van statistiese metodes in die simulasiestudie gebruik om die voorkoms van opname data te her-skat deur ontbrekendheid in ag te neem. Resultate: Die stelselmatige oorsig het 24 geskikte artikels van demografiese en deursnitopnames wat die teenwoordigheid van ontbrekende data erken gevind. In hierdie studies was algehele geval-analise (“CCA”) die standaardmetode (100%), gevolg deur veelvuldige imputasies (“MI”, 46%) en Heckman se seleksiemodelle (38%). ‘n Simulasiestudie het ‘n hipotetiese MIV opname gegenereer wat 32 verskillende scenarios van ontbrekende data teen 20% en 55% verken en ondersoek het. Hierdie simulasiemodel het gewys dat wanneer data lukraak ontbreek, die CCA metode eensydige resultate en ondoeltreffende skattings gee. Resultate toon ook dat die drie metodes naamlik “MI”, “IPW” en “DR” geldig en doeltreffend is indien ontbrekendheid of imputasie-modelle korrek gespesifiseer is, maar indien ´of die “MI” ´of “IPW” modelle verkeerd gespesifiseer is, dan is die “DR” skattings steeds geldig. Nogtans, wanneer die korrekte modelle verskaf word, is die “MI” metode nie eensydig nie en ook doeltreffend wanneer daar 55% data lukraak ontbreek. Die verhandeling het vier metodes op data van die Magu Gesondheidsdemografiese Opsigter-Waarnemingstudies (“HDSS”) van Noordwes Tanzanie toegepas. Vier opnames wat tussen 2006 en 2016 uitgevoer is sluit volwassenes van 15 jaar en ouer in, en ongeveer 50% van die bevolking is vir MIV in elke opname getoets. In die “CCA” het die totale bevolkingsprevalensie skattings vir MIV afgeneem van 7.2% in 2006 tot 6.6% in 2016. Cox-modelle is gebruik om die MIV insidensiekoers en risikofaktor-analise per geslag (manlik/vroulik) te bepaal. Die insidensiekoers was 5.5 per 1000 persoon-jare in vrouens teenoor 4.6 per 1000 persoon-jare in mans. Residensie, huwelikstatus, mobiele individue en individue met twee of meer (bed)maats is geassosieer met die insidensie van MIV. Die ontbrekendheid was hoog in 60.3% (in die 2016 opname) en in all opnames was dit geassosieer met ouderdom, geslag, residensie en huwelikstatus. Verdere analise deur “MI”, “IPW” en “DR” is gedoen, en waar die aanname gemaak is dat die data lukraak ontbreek, het getoon dat die totale MIV prevalensie nie beduidend verskillend van die “CCA” analise se resultate is nie, in al vier die opnames. Maar, daar was beduidende verskille in die MIV skattings wanneer data ten opsigte van die kovariate gestratifiseer is. Gegewe die wydte van die vertrouensintervalle, het die “MI” metode beter as die “IPW” en “DR” metodes gedoen, aangesien dit nouer skattings gegee het. Samevatting: Oorsigtelik het hierdie navorsing getoon dat, ten spyte van die beskikbaarheid van metodes om aanpassings vir ontbrekende data te maak, baie opnames steeds ontbrekendheid ignoreer. Die rapportering in artikels waar daar wel aanpassings gemaak is, voldoen nie aan riglyne se standaarde nie. Deur die meganisme van ontbrekendheid te verstaan, versterk die behoorlike toepassing van gevorderde metodes om aanpassings vir ontbrekendheid te maak. Wanneer data lukraak ontbreek, kan “IPW”, “MI” en “DR” metodes gebruik word om aanpassings vir ontbrekendheid te maak en hierdie lei tot nie-eensydige en doeltreffende skattings in MIV opnamestudies. Meer eenvoudige inligting en bewusmaking is nodig om navorsers toe te laat om ingeligte besluite te maak rakende watter metode om in watter scenario te gebruik, vir die skattings om meer betroubaar en verteenwoordigend te wees.
Description
Thesis (PhD)--Stellenbosch University, 2022.