Optimisation and benchmarking of analytical approaches to estimation of population level HIV incidence from survey data

Mhlanga, Laurette (2022-04)

Thesis (PhD)--Stellenbosch University, 2022.

Thesis

ENGLISH SUMMARY: Disease prevalence (the proportion of a population with a condition of interest) is conceptually and procedurally much more straightforward to estimate than disease incidence (the rate of occurrence of new cases - for example, infections). For long-lasting conditions, incidence is fundamentally more difficult to estimate than prevalence, but also more interesting, as it sheds light on current epidemiological trends such as the emerging burden on health systems and the impact of recent policy interventions. Progress towards reducing reliance on questionable assumptions in the analysis of large population based surveys (for the estimation of HIV incidence) has been slow. The work of Kassanjee et al and the work of Mahiane et al, in particular, provide rigorous ways of estimating incidence by using 1) markers of ‘recent infection’, 2) the ‘gradient’ of prevalence, and 3) ‘excess mortality’ associated with HIV infection, without the need for simplifying assumptions to the effect that any particular parameters are constant over ranges of time and/or age. To date, the use of these methods has largely ignored 1) the rich details of the age and time structure of survey data, and 2) the opportunities for combining the two methods. The primary objective of this work was to find stable approaches to applying the Mahiane and Kassanjee methods to large age/time structured population survey data sets which include HIV status, and optionally, ‘recent infection’ status. In order to evaluate proposed methods, a sophisticated simulation platform was created to simulate HIV epidemics and generate survey data sets that are structured like real population survey data, with the underlying incidence, prevalence, and mortality explicitly known. The first non-trivial step in the analysis of survey data amounts essentially to performing a smoothing procedure from which the (age/time specific) prevalence of HIV infection, the prevalence of ‘recent infection’, and the gradient of prevalence of infection can be inferred without recourse to ‘epidemiological’ assumptions. The second step involves the correct accounting for uncertainty in a context-specific weighted mean of the Mahiane and Kassanjee estimators. These two steps are approached incrementally, as there are numerous details which have not previously been systematically elucidated. The investigation culminates in a proposed generic ‘once size fits most’ algorithm based on: 1) fitting survey data to generalised linear models defined by simple link functions and high order polynomials in age and time; 2) the use of a ‘moving window’ rule for data inclusion into a separate analysis for each age/time point for which incidence is to be estimated; 3) a ‘variance optimal’ weighting scheme for the combination of the Mahiane and Kassanjee estimators (when both are applicable); 4) flexible use of a delta method expansion or bootstrapping to estimate confidence intervals and p values. We find it is relatively easy to obtain estimates with practically negligible bias, but samplesizes/ sampling-density requirements are always considerable. We also make numerous observations on survey design and the inherent challenges faced by all attempts to estimate HIV incidence using surveys of reasonable size.

AFRIKAANSE OPSOMMING: Die prevalensie van siektes (die proporsie van ’n bevolking met ’n sekere siekte) is konseptueel en prosedureel baie eenvoudiger om te beraam as die insidensie van siektes (die voorkoms van nuwe gevalle - byvoorbeeld infeksies). Vir langdurige toestande is die insidensie fundamenteel moeiliker om te beraam as die prevalensie, maar ook interessanter, aangesien dit lig werp op die huidige epidemiologiese tendense, soos die opkomende las op gesondheidstelsels en die impak van onlangse beleidsintervensies. Twyfelagtige aannames word gemaak gedurende die ontleding van groot bevolkingsopnames om die insidensie van MIV te beraam, en tog word daar gesteun op hierdie studies. Die werk van Kassanjee et al, en veral die werk van Mahiane et al, bied deeglike metodes om insidensie te beraam deur 1) merkers van ’onlangse infeksie’, 2) die ’gradiënt’ van prevalensie en 3) ’oortollige sterftes’ wat verband hou met MIV -infeksie te gebruik. Hierdie metodes maak nie die aannames dat sekere parameters konstant is oor tydsperiodes en/of ouderdomme nie. Tot op datum het die gebruik van hierdie metodes grootliks 1) die ryk besonderhede van die ouderdom en tydstruktuur van opname-data, en 2) die geleenthede om die twee metodes te kombineer, geïgnoreer. Die primêre doel van hierdie werk was om stabiele benaderings te vind vir die toepassing van die Mahiane- en Kassanjee-metodes op groot ouderdom-/tyd-gestruktureerde opname datastelle, wat MIV-status, en soms die status van ’onlangse infeksie’ insluit. Om voorgestelde metodes te evalueer, is ’n gesofistikeerde simulasieplatform geskep om MIV-epidemies te simuleer en opname datastelle te genereer wat soos werklike bevolkingsopname data is, met die onderliggende insidensie, prevalensie en sterftes uitdruklik bekend. Die eerste nie-triviale stap in die analise van opname-data kom in wese neer op die uitvoering van ’n afstrykingsprosedure waaruit die (ouderdom/tydspesifieke) prevalensie van MIV-infeksie, die prevalensie van ’onlangse infeksie’ en die gradiënt van prevalensie van infeksie afgelei kan word sonder om van ’epidemiologiese’ aannames gebruik te maak. Die tweede stap behels die korrekte kwantifisering van onsekerheid in ’n konteks-spesifieke geweegde gemiddelde van die Mahiane en Kassanjee beramings. Hierdie twee stappe word inkrementeel benader, aangesien daar ’n groot aantal besonderhede is wat nie voorheen stelselmatig ondersoek is nie. Die ondersoek loop uit op ’n voorgestelde generiese ’once size fits most’ algoritme gebaseer op: 1) die pas van opname data tot veralgemeende lineêre modelle gedefinieer deur eenvoudige skakelfunksies en hoë orde polinome in ouderdom en tyd; 2) die gebruik van ’n ’bewegende venster’ -reël vir die insluiting van data in ’n aparte analise vir elke ouderdom/tydspunt waarvoor die insidensie beraam moet word; 3) ’n ’variansieoptimale’ wegings-skema vir die kombinasie van die Mahiane- en Kassanjee -beramers (wanneer beide van toepassing is); 4) buigsame gebruik van ’n delta-metode uitbreiding of bootstrapping om vertrouensintervalle en p-waardes te skat. Ons vind dit relatief maklik om beramings te verkry met onbeduidende sydigheid, maar die vereistes vir steekproefgroottes/steekproefdigtheid is altyd aansienlik. Ons maak ook talle opmerkings oor die ontwerp van opnames en die inherente uitdagings waarmee alle pogings om die insidensie van MIV uit opname data te beraam, gekonfronteer word.

Please refer to this item in SUNScholar by using the following persistent URL: http://hdl.handle.net/10019.1/124528
This item appears in the following collections: