Pipeline and tools for the analysis of multiplexed ELISA data

Date
2023-03
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: A cornerstone of scientific progress is independent data verification. It is, therefore, necessary to develop robust analysis pipelines that can ensure reproducible and verifiable analyses. The pipeline should also record all steps and software that generated the results. The analysis of multiplexed ELISA data (Luminex data) can be challenging due to its complexity and variability. In particular, the data preprocessing stage has many steps and is often ad hoc, leading to inconsistency, non-standard approaches and lack of reproducibility. An existing in-house data reprocessing pipeline, the Luminex Pipeline, addresses some of the aforementioned challenges. However, there remains substantial work to extend its utility, robustness, and overall reproducibility. Thus, in this work, I improved the summary statistic reports by using Rmarkdown and implemented unit testing of pipeline components using the R Testthat package. Unit testing ensured the greater robustness of the code, which was compiled into an R package. The pipeline execution was also automated by using the Nextflow workflow management system. Finally, I deployed the pipeline in a Singularity container for execution on any platform including high-performance computing clusters.
AFRIKAANS OPSOMMING: 'n Hoeksteen van wetenskaplike vooruitgang is onafhanklike databevestiging. Dit is dus nodig om robuuste ontledingspyplyne te ontwikkel wat reproduseerbare en bevestigbare ontledings kan verseker. Die pyplyn moet ook alle stappe en sagteware wat die resultate gegenereer het, aanteken. Die ontleding van vermenigvuldige ELISA-data (Luminex-data) kan uitdagend wees weens die kompleksiteit en veranderlikheid daarvan. Die data-voorverwerkingstadium het veral baie stappe en is dikwels ad hoc, wat lei tot inkonsekwentheid, benaderings wat nie gestandardiseerd is nie en 'n gebrek aan reproduseerbaarheid. 'n Bestaande interne datavoorverwerkingspyplyn, die Luminex-pyplyn, spreek sommige van die voorgenoemde uitdagings aan. Die uitbreding van die bruikbaarheid, robuustheid en algehele reproduseerbaarheid van die huidige pyplyn vereis nog baie werk. In hierdie werk het ek dus die opsommende statistiese verslae verbeter deur Rmarkdown te gebruik en eenheidstoetsing van pyplynkomponente geïmplementeer deur die gebruik van R Testthat-pakket. Eenheidtoetsing verseker meer robuustheid van die kode, wat nou in 'n R-pakket saamgestel is. Die uitvoering van die pyplyn is ook geoutomatiseer deur die Nextflow-werkvloeibestuurstelsel te gebruik. Laastens het ek die pyplyn in 'n Singularity-houer ontplooi vir uitvoering op enige rekenaar platform, insluitend hoëprestasie-rekenaarklusters
Description
Thesis (MSc)--Stellenbosch University, 2023.
Keywords
Citation