Combining different types of highly parallelised technology datasets for bioinformatic analysis in the context of biomarker discovery for tuberculosis disease and treatment response
Date
2021-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
Background:
Monitoring of tuberculosis (TB) treatment response currently relies on month 2 sputum culture. It is
a poor predictor of ultimate treatment failure and recurrent disease and has a long turnaround time
of up to six weeks. A biomarker of treatment response to identify patients at high risk of poor
outcomes will benefit both TB patient care and TB research.
It has been shown that patients with negative end-of-treatment sputum culture can still have a highly
inflammatory picture on Positron Emission Tomography and Computerised Tomography (PET-CT)
scans at the same time point. This inflammation may be in response to the presence of viable
Mycobacterium tuberculosis bacilli which were not sampled in sputum, or not culturable, or it may be
due to ongoing immune dysregulation, which is a well-known phenomenon in TB. Currently, we are
not able to distinguish between these potential scenarios, but despite this, it is clear that PET-CT
provides complementary information to microbiology at the end of treatment. Since PET-CT is
expensive and not widely available, it would be most practical to obtain similar information to what
PET-CT provides, from a blood-based biomarker.
Several whole blood gene expression signatures have been discovered for diagnosis of active TB and
sub-clinical disease, but none have yet attained to the World Health Organisation’s target product
profiles for new diagnostic tests for TB. Gene expression signatures have also been investigated as
biomarkers of treatment response, but none has been validated, as treatment response studies
require many participants and long follow-up times, leading to a scarcity of adequate treatment
response data sets.
Objective
To utilise treatment outcome groups derived from end-of-treatment PET-CT scans, as an alternative
dependent variable to microbiological treatment outcome groups in predictive modelling, and to
discover whether PET-CT could be replaced by multiplexed immunoassay data, gene expression data,
or both in combination.
Methods
Two existing treatment response data sets were utilised – one from a study with follow-up during TB
treatment until 2 years after treatment completion, and one early bactericidal activity study with two-
week follow-up. Both studies produced PET-CT and multiplexed immunoassay (Luminex) data, while
the longer study, which was the main focus of this thesis, additionally included gene expression data.
Unsupervised hierarchical clustering of selected quantitative PET-CT variables at end-of-treatment
was performed to create two outcome groups, independent of microbiological results, for predictive
modelling. RNA-sequencing data and Luminex data at three time points, for the same cohort of
patients, were used to predict membership of the PET-CT outcome groups, both separately and in
combined models. Immunoassay data were also used in predictive regression models to explain a
proportion of the variance in quantitative PET-CT variables.
Results
Two clusters of patients were identified from the PET-CT variables – one consisting of 23 participants
with a predominantly inflammatory ("hot") lung picture, including seven of eight participants who failed treatment, and the second consisting of 76 participants with a less inflammatory or even
resolved lung picture ("cold"). Both gene expression and Luminex data models could predict cluster
membership and achieved cross-validation classification areas-under-the-curve (AUCs) that ranged
from 0.74 to 0.90 at end-of-treatment. The models also achieved similar AUCs at the diagnosis time
point. Combining gene expression and Luminex data in classification models did not improve on the
classification accuracy of the separate models. Luminex analyte regression models explained 55% of
the variance of the total glycolytic activity index PET-CT variable in a test and a validation set. A
Luminex analyte classification model could also identify presence of cavities 1 mm or larger, with
AUCs of 0.83 and 0.75 in the test and validation sets, respectively.
Differential gene expression, gene ontology, pathway and weighted gene co-expression analysis
focusing on the two PET-CT clusters, highlighted known immunological and TB-related processes that
differed between the clusters and provided justification for using treatment outcome groups based
on PET-CT, as a complementary strategy to using microbiological treatment outcome groups.
Conclusion
At the end of TB treatment, PET-CT provides complementary information to microbiological
treatment outcomes, that could be utilised in specific scenarios in future studies to monitor
treatment response. As PET-CT is expensive and not widely available, it is highly desirable to replace
it with a biomarker measured in peripheral blood. I showed that gene expression or protein
measured in peripheral blood could potentially replace PET-CT, but discovery of such a biomarker will
benefit from a study designed for that purpose, and the availability of independent data sets for
validation.
Agtergrond: Die monitor van die reaksie op tuberkulose (TB) behandeling, maak huidiglik staat op die maand-2 sputumkultuur. Dit is ‘n swak voorspeller van die uiteindelike faal van behandeling, of van herhalende siekte en het ‘n lang wagtydperk van tot ses weke. ‘n Biologiese merker van behandelingsreaksie om pasiënte wat ‘n hoë risiko vir slegte uitkomste het, uit te ken, sal beideTB pasiëntsorg en TB navorsing, bevoordeel. Dit is voorheen uitgewys dat pasiënte met negatiewe einde-van-behandeling sputumkulture, steeds ‘n hoogs inflammatoriese beeld op Positron Emmissie Topografie en Rekenaar Topografie (PET-RT) plate kan hê, by dieselfde tydpunt. Hierdie inflammasie mag wees as gevolg van lewendige Mikobakterium tuberkulose basille wat nie deur die monster vasgevang is nie, of wat nie in kultuur gegroei kan word nie, óf dit mag wees as gevolg van ontoepaslike immuunregulasie, wat ‘n welbekende verskynsel is in TB. Huidiglik kan ons nie onderskei tussen hierdie scenario’s nie, maar ten spyte daarvan, is dit duidelik dat PET-RT inligting aanvullend tot mikrobiologie verskaf teen die einde van behandeling. Aangesien PET-RT duur en nie wyd beskikbaar is nie, sal dit mees prakties wees om ooreenstemmende inligting tot dit wat PET-RT verskaf, te verkry van ‘n bloed-gebaseerde biologiese merker. Verskeie heelbloed geenuitdrukking uitkenningspatrone is reeds ontdek vir die diagnose van aktiewe TB of sub-kliniese siekte, maar geen van hulle het al die Wêreld Gesondheidsorganisasie se teikenprodukprofiele vir nuwe diagnostiese toetse vir TB, bereik nie. Geenuitdrukking uitkenningspatrone is ook al ondersoek as biologiese merkers om behandeling te monitor, maar geen van hulle is al bekragtig nie, want studies vir die monitor van behandeling benodig ‘n groot groep pasiënte en ‘n lang opvolgtydperk. Daarom is daar ‘n tekort aan sulke datastelle. Doelwit Om behandelingsuitkomsgroepe afgelei van einde-van-behandeling PET-RT, te gebruik as alternatiewe afhanklike veranderlike tot mikrobiologiese uitkomsgroepe, in voorspellingsmodelle, en om te ontdek of PET-RT vervang kan word deur multipleks immuunmetings, geenuitdrukkingdata, of beide in kombinasie. Metodes Twee bestaande behandelingsreaksie datastelle is aangewend – een uit ‘n studie met opvolg gedurende TB behandling, tot 2 jaar na die voltooiing van behandeling, en een vroeë bakteriosidiese aktiwiteit studie met twee-week opvolg. Beide studies het PET-RT en multipleks immuunmeting (Luminex) data voortgebring, terwyl die langer studie, wat die hooffokus van hierdie tesis was, ook geenuitdrukkingdata ingesluit het. Hiërargiese trosontleding sonder toesig, van verkiesde gekwantifiseerde PET-RT veranderlikes teen die einde van behandeling, is uitgevoer om twee uitkomsgroepe te vorm, onafhanklik van mikrobiologiese uitslae, en te gebruik in voorspellingsmodelle. RNS-volgordebepaling data en Luminex data vir drie tydpunte, vir dieselfde kohort van pasiënte, is gebruik om lidmaatskap van die PET-RT uitkomsgroepe te voorspel, beide apart en in gesamentlike modelle. Luminex data is ook in voorspellingsregressiemodelle gebruik om ‘n breukdeel van die variansie in gekwantifiseerde PET-RT veranderlikes op te som. Resultate Twee groepe pasiënte is uitgeken uit die PET-RT veranderlikes – een groep bestaande uit 23 deelnemers met ‘n grootliks inflammatoriese (“warm”) longbeeld, insluitende sewe van die agt deelnemers wat uiteindelik behandeling gefaal het, en ‘n tweede groep bestaande uit 76 deelnemers met ‘n minder inflammatoriese, of selfs opgeklaarde longbeeld (“koud”). Beide geenuitdrukking- en Luminex data modelle kon PET-RT groeplidmaatskap voorspel en het kruisbekragtiging klassifikasie areas-onder-die-kurwe (AOK) van 0.74 tot 0.90 bereik teen die einde van behandeling. Die modelle het ook soortgelyke AOK’s by die diagnose tydpunt bereik. Luminex data regressiemodelle het 55% van die variansie in die totale glikolitiese aktiwiteitsindeks PET-RT veranderlike opgesom in ‘n toets- en bekragtigingsdatastel. ‘n Luminex analiet klassifikasie model kon ook die teenwoordigheid van kaviteite 1 mm of groter, met AOK’s van 0.83 en 0.75, in die toets- en bekragtigingsdatastelle, onderskeidelik, uitken. Differensiële geenuitdrukkingsanalise, geen-ontologie, biologiese netwerkanalise en aangepasde geen mede-uitdrukkingsanalise, gefokus op die twee PET-RT groepe, het bekende immunologiese en TB- verwante prosesse uitgelig wat verskil het tussen die twee groepe en wat die gebruik van uitkomsgroepe gebaseer op PET-RT, regverdig, as ‘n aanvullende strategie tot mikrobiologiese uitkomsgroepe. Gevolgtrekking PET-RT voorsien informasie aanvullend tot mikrobiologiese behandelingsuitkomsgroepe, teen die einde van TB behandeling. Dit kan gebruik word in spesifieke scenario’s in toekomstige studies om behandelingsreaksie te monitor. Aangesien PET-RT duur en nie wyd beskikbaar is nie, is dit hoogs wenslik om PET-RT te vervang met ‘n biologiese merker in perifere bloed. Ek het gewys dat geenuitdrukking of proteïen, gemeet in perifere bloed, moontlik PET-RT kan vervang, maar dat die ontdekking van so ‘n biologiese merker sou baatvind daarby om studies spesifiek vir hierdie doel, te ontwerp, sowel as by die beskikbaarheid van onafhanklike datastelle vir bekragtiging.
Agtergrond: Die monitor van die reaksie op tuberkulose (TB) behandeling, maak huidiglik staat op die maand-2 sputumkultuur. Dit is ‘n swak voorspeller van die uiteindelike faal van behandeling, of van herhalende siekte en het ‘n lang wagtydperk van tot ses weke. ‘n Biologiese merker van behandelingsreaksie om pasiënte wat ‘n hoë risiko vir slegte uitkomste het, uit te ken, sal beideTB pasiëntsorg en TB navorsing, bevoordeel. Dit is voorheen uitgewys dat pasiënte met negatiewe einde-van-behandeling sputumkulture, steeds ‘n hoogs inflammatoriese beeld op Positron Emmissie Topografie en Rekenaar Topografie (PET-RT) plate kan hê, by dieselfde tydpunt. Hierdie inflammasie mag wees as gevolg van lewendige Mikobakterium tuberkulose basille wat nie deur die monster vasgevang is nie, of wat nie in kultuur gegroei kan word nie, óf dit mag wees as gevolg van ontoepaslike immuunregulasie, wat ‘n welbekende verskynsel is in TB. Huidiglik kan ons nie onderskei tussen hierdie scenario’s nie, maar ten spyte daarvan, is dit duidelik dat PET-RT inligting aanvullend tot mikrobiologie verskaf teen die einde van behandeling. Aangesien PET-RT duur en nie wyd beskikbaar is nie, sal dit mees prakties wees om ooreenstemmende inligting tot dit wat PET-RT verskaf, te verkry van ‘n bloed-gebaseerde biologiese merker. Verskeie heelbloed geenuitdrukking uitkenningspatrone is reeds ontdek vir die diagnose van aktiewe TB of sub-kliniese siekte, maar geen van hulle het al die Wêreld Gesondheidsorganisasie se teikenprodukprofiele vir nuwe diagnostiese toetse vir TB, bereik nie. Geenuitdrukking uitkenningspatrone is ook al ondersoek as biologiese merkers om behandeling te monitor, maar geen van hulle is al bekragtig nie, want studies vir die monitor van behandeling benodig ‘n groot groep pasiënte en ‘n lang opvolgtydperk. Daarom is daar ‘n tekort aan sulke datastelle. Doelwit Om behandelingsuitkomsgroepe afgelei van einde-van-behandeling PET-RT, te gebruik as alternatiewe afhanklike veranderlike tot mikrobiologiese uitkomsgroepe, in voorspellingsmodelle, en om te ontdek of PET-RT vervang kan word deur multipleks immuunmetings, geenuitdrukkingdata, of beide in kombinasie. Metodes Twee bestaande behandelingsreaksie datastelle is aangewend – een uit ‘n studie met opvolg gedurende TB behandling, tot 2 jaar na die voltooiing van behandeling, en een vroeë bakteriosidiese aktiwiteit studie met twee-week opvolg. Beide studies het PET-RT en multipleks immuunmeting (Luminex) data voortgebring, terwyl die langer studie, wat die hooffokus van hierdie tesis was, ook geenuitdrukkingdata ingesluit het. Hiërargiese trosontleding sonder toesig, van verkiesde gekwantifiseerde PET-RT veranderlikes teen die einde van behandeling, is uitgevoer om twee uitkomsgroepe te vorm, onafhanklik van mikrobiologiese uitslae, en te gebruik in voorspellingsmodelle. RNS-volgordebepaling data en Luminex data vir drie tydpunte, vir dieselfde kohort van pasiënte, is gebruik om lidmaatskap van die PET-RT uitkomsgroepe te voorspel, beide apart en in gesamentlike modelle. Luminex data is ook in voorspellingsregressiemodelle gebruik om ‘n breukdeel van die variansie in gekwantifiseerde PET-RT veranderlikes op te som. Resultate Twee groepe pasiënte is uitgeken uit die PET-RT veranderlikes – een groep bestaande uit 23 deelnemers met ‘n grootliks inflammatoriese (“warm”) longbeeld, insluitende sewe van die agt deelnemers wat uiteindelik behandeling gefaal het, en ‘n tweede groep bestaande uit 76 deelnemers met ‘n minder inflammatoriese, of selfs opgeklaarde longbeeld (“koud”). Beide geenuitdrukking- en Luminex data modelle kon PET-RT groeplidmaatskap voorspel en het kruisbekragtiging klassifikasie areas-onder-die-kurwe (AOK) van 0.74 tot 0.90 bereik teen die einde van behandeling. Die modelle het ook soortgelyke AOK’s by die diagnose tydpunt bereik. Luminex data regressiemodelle het 55% van die variansie in die totale glikolitiese aktiwiteitsindeks PET-RT veranderlike opgesom in ‘n toets- en bekragtigingsdatastel. ‘n Luminex analiet klassifikasie model kon ook die teenwoordigheid van kaviteite 1 mm of groter, met AOK’s van 0.83 en 0.75, in die toets- en bekragtigingsdatastelle, onderskeidelik, uitken. Differensiële geenuitdrukkingsanalise, geen-ontologie, biologiese netwerkanalise en aangepasde geen mede-uitdrukkingsanalise, gefokus op die twee PET-RT groepe, het bekende immunologiese en TB- verwante prosesse uitgelig wat verskil het tussen die twee groepe en wat die gebruik van uitkomsgroepe gebaseer op PET-RT, regverdig, as ‘n aanvullende strategie tot mikrobiologiese uitkomsgroepe. Gevolgtrekking PET-RT voorsien informasie aanvullend tot mikrobiologiese behandelingsuitkomsgroepe, teen die einde van TB behandeling. Dit kan gebruik word in spesifieke scenario’s in toekomstige studies om behandelingsreaksie te monitor. Aangesien PET-RT duur en nie wyd beskikbaar is nie, is dit hoogs wenslik om PET-RT te vervang met ‘n biologiese merker in perifere bloed. Ek het gewys dat geenuitdrukking of proteïen, gemeet in perifere bloed, moontlik PET-RT kan vervang, maar dat die ontdekking van so ‘n biologiese merker sou baatvind daarby om studies spesifiek vir hierdie doel, te ontwerp, sowel as by die beskikbaarheid van onafhanklike datastelle vir bekragtiging.
Description
Thesis (PhD)--Stellenbosch University, 2021.
Keywords
Biomarker, UCTD, Tuberculosis -- Treatment, Bioinformatics, Tuberculosis -- Diagnosis