Biplot methodology for analysing and evaluating missing multivariate nominal scaled data
Date
2019-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: This research aims at developing exploratory techniques that are specifically suitable for
missing data applications. Categorical data analysis, missing data analysis and biplot
visualisation are the three core methodologies that are combined to develop novel
techniques. Variants of multiple correspondence analysis (MCA) biplots are used for all
visualisations.
The first study objective addresses exploratory analysis after multiple imputation (MI).
Multiple plausible values are imputed for each missing observation to construct multiple
completed data sets for standard analyses. Biplot visualisations are constructed for each
completed data set after MI which require individual exploration to obtain final inference.
The number of MIs will greatly affect the accuracy and consistency of the interpretations
obtained from several plots. This predicament led to the development of GPAbin, to optimally
combine configurations from MIs to obtain a single configuration for final inference. The
GPAbin approach advances from two statistical techniques: generalised orthogonal
Procrustes analysis (GPA) and the combining rules used to combine estimates obtained from
MIs, Rubin’s rules.
Albeit a superior missing data handling approach, MI could be daunting for the non‐technical
practitioner. Therefore, an adequate alternative approach could be appealing and contribute
to the variety of available methods for the handling of incomplete multivariate categorical
data. The second objective aims at confirming whether visualisations obtained from nonimputed
data sets are a suitable alternative to visualisations obtained from MIs. Subset MCA
(sMCA) distinguishes between observed and missing subsets of a multivariate categorical data
set by creating an additional response category level (CL) for missing responses in the
indicator matrix. Missing and observed responses can be visualised separately by only
considering the subset of interest in the recoded indicator matrix. The visualisation of the
observed responses utilises all available information which would have been forfeited by
deletion methods.
The third study objective explores the possibility of predicting a complete multivariate
categorical data set from MI visualisations obtained from the first study objective. The
distances between the coordinates of a biplot in the full space are used to predict plausible responses. Since the aim of this research is to advance missing data visualisations, the
visualisations obtained from predicted completed data sets are compared to visualisations of
simulated complete data sets. The emphasis is on preserving inference and not recreating the
original data.
Missing data techniques are typically developed to address a specific missing data problem.
It is therefore crucial to understand the cause of missingness in order to apply suitable missing
data techniques. The fourth study objective investigates the sMCA biplot of the missing subset
of the recoded indicator matrix. Configurations of the incomplete subsets enable the
recognition of non‐response patterns which could provide insight into the particular missing
data mechanism (MDM). The missing at random (MAR) MDM refers to missing responses that
are dependent on the observed information and is expected to be identified by patterns and
groupings occurring in the incomplete sMCA biplot. The missing completely at random
(MCAR) MDM states that all observations have the same probability of not being captured
which could be identified by a random cloud of points in the incomplete sMCA biplot. Cluster
analysis is applied to confirm distinguishable groupings in the incomplete sMCA biplot which
could be used as a guideline to identify the MDM.
The proposed methodologies to address the different study objectives are evaluated by
means of an extensive simulation study comprising of various sample sizes, variables and
varying number of CLs which are simulated from three different distributions. The findings of
the simulation study are applied to a real data set to aid as a guide for the analysis.
Functions have been developed for R statistical software to perform all methodology
presented in this research. It is included as a tool pack provided as an appendix to assist in
the correct handling and unbiased visualisation of multivariate categorical data with missing
observations.
Keywords: biplots; categorical data; missing data; multiple correspondence analysis; multiple
imputation; Procrustes analysis.
AFRIKAANSE OPSOMMING: Die doel van hierdie navorsing is om verkennende tegnieke te ontwikkel wat spesifiek vir ontbrekende data geskik is. Kategoriese data‐analise, ontbrekende data‐analise en bi‐stipping visualisering is die drie kern metodologieë wat gekombineer word om nuwe tegnieke te ontwikkel. Variante van meervoudige ooreenkomsanalise bi‐stippings word gebruik vir alle visualiserings. Die eerste doelstelling fokus op die verkennende analise van datastelle nadat meervoudige imputasie uitgevoer is. Meervoudige realistiese waardes word vir elke ontbrekende waarde ingevul om sodoende meervoudige voltooide datastelle te konstrueer vir verdere standaard analises. Bi‐stipping visualiserings word vir elke voltooide datastel na ‘n meervoudige imputasie gekonstrueer. Aparte verkenning van die individuele visualiserings word vereis om ‘n finale inferensie te verkry. Die aantal meervoudige imputasies sal die akkuraatheid en konsekwentheid van die interpretasies van verskeie stippings beïnvloed. Hierdie probleem het tot die ontwikkeling van die GPAbin metode gelei om die meervoudige visualiserings van meervoudige imputasies optimaal in een figuur vir ‘n finale inferensie te kombineer. Die GPAbin metode vloei uit twee statistiese tegnieke voort: veralgemeende ortogonale Procrustes analise en Rubin se reëls vir die samevoeging van beramings. Alhoewel meervoudige imputasie bo ander tegnieke vir die hantering van ontbrekende data verkies word, kan meervoudige imputasie uitdagend vir die nie‐tegniese gebruiker wees. ‘n Voldoende alternatiewe tegniek kan aanloklik wees en tot die verskeidenheid van beskikbare metodes vir die hantering van ontbrekende data bydra. Die tweede doelstelling poog dan juis om vas te stel of visualiserings van nie‐geïmputeerde datastelle ‘n geskikte alternatief vir visualiserings van meervoudige imputasies is. Sub‐meervoudige ooreenkomsanalise onderskei tussen waargenome en ontbrekende deelversamelings van ‘n meerveranderlike kategoriese datastel deur ekstra respons kategorievlakke vir ontbrekende waarnemings in die indikatormatriks te skep. Ontbrekende en waargenome response kan apart gevisualiseer word deur spesifieke deelversamelings in die indikatormatriks in ag te neem. Die visualisering van waargenome response benut alle beskikbare inligting, dus word geen inligting verbeur soos in die geval van skrappingsmetodes nie. Die derde doelstelling ondersoek die moontlikheid om ‘n meerveranderlike kategoriese datastel te voorspel vanaf meervoudige imputasie visualiserings wat in die eerste doelstelling verkry is. Die afstand tussen die koördinate van ‘n bi‐stipping in die volle ruimte word gebruik om realistiese responswaardes te voorspel. Aangesien die doel van hierdie navorsing is om visualiserings vir ontbrekende data te bevorder, sal die visualiserings wat van ‘n voorspelde datastel verkry word met die visualiserings van die oorspronklike gesimuleerde datastelle vergelyk word. Die behoud van die oorspronklike inferensie is van belang en nie die herskepping van die volledige oorspronklike data nie. Tegnieke vir ontbrekende data word vir spesifieke ontbrekende data probleme ontwikkel. Dit is dus noodsaaklik om die oorsaak van die ontbrekenheid te verstaan om sodoende toepaslike ontbrekende data tegnieke toe te pas. Die vierde doelstelling fokus op die ontbrekende deelversameling van die sub‐meervoudige ooreenkomsanalise bi‐stipping deur die gekodeerde indikatormatriks te gebruik. Visualiserings van die onvolledige deelversamelings maak die herkenning van nie‐respons patrone moontlik wat insig rakende die spesifieke ontbrekende data meganisme verskaf. Die ewekansig ontbrekende meganisme verwys na ontbrekende waarnemings wat afhanklik is van die waargenome responswaardes. Dit word verwag dat hierdie meganisme sal lei tot patrone en groeperings in die sub‐meervoudige ooreenkomsanalise bi‐stipping van die ontbrekende deelversameling. Wanneer alle waarnemings dieselfde waarskynlikheid het om te ontbreek of waargeneem te word, word dié meganisme as die algeheel ewekansig ontbrekende meganismse geklassifiseer. Aangesien ontbrekende waardes onafhanklik van die waargenome waardes is, word dit verwag dat hierdie meganisme geen merkbare patrone sal voortbring in die sub‐meervoudige ooreenkomsanalise bi‐stipping nie. Trosanalise word toegepas om vas te stel of die visuele groeperings betekenisvol van mekaar geskei kan word in die deelversameling subooreenkomsanalise bi‐stipping geskei. Die graad van skeiding in die visualisering kan as ‘n riglyn gebruik word om die ontbrekende data meganisme te identifiseer. Die voorgestelde metodologieë om die verskillende doelwitte van hierdie studie aan te spreek, word deur middel van ‘n omvangryke simulasie studie geëvalueer. Die simulasie studie bevat datastelle met ‘n verskeidenheid van steekproefgroottes, aantal veranderlikes en wisselende aantal kategorievlakke wat uit drie verskillende verdelings gesimuleer word. Die bevindings van die simulasie studie word toegepas op ‘n bestaande datastel en dien as ‘n gids vir die analise daarvan. Funksies vir R statistiese sagteware is ontwikkel om alle metodes in hierdie navorsing te kan uitvoer. Dit word as ‘n gereedskappakket in die bylae gegee om bystand te bied vir die korrekte hantering en onsydige visualisering van meerveranderlike kategoriese data met ontbrekende waardes. Sleutelwoorde: bi‐stippings; kategoriese data; meervoudige imputasie; meervoudige ooreenkomsanalise; ontbrekende data; Procrustes analise.
AFRIKAANSE OPSOMMING: Die doel van hierdie navorsing is om verkennende tegnieke te ontwikkel wat spesifiek vir ontbrekende data geskik is. Kategoriese data‐analise, ontbrekende data‐analise en bi‐stipping visualisering is die drie kern metodologieë wat gekombineer word om nuwe tegnieke te ontwikkel. Variante van meervoudige ooreenkomsanalise bi‐stippings word gebruik vir alle visualiserings. Die eerste doelstelling fokus op die verkennende analise van datastelle nadat meervoudige imputasie uitgevoer is. Meervoudige realistiese waardes word vir elke ontbrekende waarde ingevul om sodoende meervoudige voltooide datastelle te konstrueer vir verdere standaard analises. Bi‐stipping visualiserings word vir elke voltooide datastel na ‘n meervoudige imputasie gekonstrueer. Aparte verkenning van die individuele visualiserings word vereis om ‘n finale inferensie te verkry. Die aantal meervoudige imputasies sal die akkuraatheid en konsekwentheid van die interpretasies van verskeie stippings beïnvloed. Hierdie probleem het tot die ontwikkeling van die GPAbin metode gelei om die meervoudige visualiserings van meervoudige imputasies optimaal in een figuur vir ‘n finale inferensie te kombineer. Die GPAbin metode vloei uit twee statistiese tegnieke voort: veralgemeende ortogonale Procrustes analise en Rubin se reëls vir die samevoeging van beramings. Alhoewel meervoudige imputasie bo ander tegnieke vir die hantering van ontbrekende data verkies word, kan meervoudige imputasie uitdagend vir die nie‐tegniese gebruiker wees. ‘n Voldoende alternatiewe tegniek kan aanloklik wees en tot die verskeidenheid van beskikbare metodes vir die hantering van ontbrekende data bydra. Die tweede doelstelling poog dan juis om vas te stel of visualiserings van nie‐geïmputeerde datastelle ‘n geskikte alternatief vir visualiserings van meervoudige imputasies is. Sub‐meervoudige ooreenkomsanalise onderskei tussen waargenome en ontbrekende deelversamelings van ‘n meerveranderlike kategoriese datastel deur ekstra respons kategorievlakke vir ontbrekende waarnemings in die indikatormatriks te skep. Ontbrekende en waargenome response kan apart gevisualiseer word deur spesifieke deelversamelings in die indikatormatriks in ag te neem. Die visualisering van waargenome response benut alle beskikbare inligting, dus word geen inligting verbeur soos in die geval van skrappingsmetodes nie. Die derde doelstelling ondersoek die moontlikheid om ‘n meerveranderlike kategoriese datastel te voorspel vanaf meervoudige imputasie visualiserings wat in die eerste doelstelling verkry is. Die afstand tussen die koördinate van ‘n bi‐stipping in die volle ruimte word gebruik om realistiese responswaardes te voorspel. Aangesien die doel van hierdie navorsing is om visualiserings vir ontbrekende data te bevorder, sal die visualiserings wat van ‘n voorspelde datastel verkry word met die visualiserings van die oorspronklike gesimuleerde datastelle vergelyk word. Die behoud van die oorspronklike inferensie is van belang en nie die herskepping van die volledige oorspronklike data nie. Tegnieke vir ontbrekende data word vir spesifieke ontbrekende data probleme ontwikkel. Dit is dus noodsaaklik om die oorsaak van die ontbrekenheid te verstaan om sodoende toepaslike ontbrekende data tegnieke toe te pas. Die vierde doelstelling fokus op die ontbrekende deelversameling van die sub‐meervoudige ooreenkomsanalise bi‐stipping deur die gekodeerde indikatormatriks te gebruik. Visualiserings van die onvolledige deelversamelings maak die herkenning van nie‐respons patrone moontlik wat insig rakende die spesifieke ontbrekende data meganisme verskaf. Die ewekansig ontbrekende meganisme verwys na ontbrekende waarnemings wat afhanklik is van die waargenome responswaardes. Dit word verwag dat hierdie meganisme sal lei tot patrone en groeperings in die sub‐meervoudige ooreenkomsanalise bi‐stipping van die ontbrekende deelversameling. Wanneer alle waarnemings dieselfde waarskynlikheid het om te ontbreek of waargeneem te word, word dié meganisme as die algeheel ewekansig ontbrekende meganismse geklassifiseer. Aangesien ontbrekende waardes onafhanklik van die waargenome waardes is, word dit verwag dat hierdie meganisme geen merkbare patrone sal voortbring in die sub‐meervoudige ooreenkomsanalise bi‐stipping nie. Trosanalise word toegepas om vas te stel of die visuele groeperings betekenisvol van mekaar geskei kan word in die deelversameling subooreenkomsanalise bi‐stipping geskei. Die graad van skeiding in die visualisering kan as ‘n riglyn gebruik word om die ontbrekende data meganisme te identifiseer. Die voorgestelde metodologieë om die verskillende doelwitte van hierdie studie aan te spreek, word deur middel van ‘n omvangryke simulasie studie geëvalueer. Die simulasie studie bevat datastelle met ‘n verskeidenheid van steekproefgroottes, aantal veranderlikes en wisselende aantal kategorievlakke wat uit drie verskillende verdelings gesimuleer word. Die bevindings van die simulasie studie word toegepas op ‘n bestaande datastel en dien as ‘n gids vir die analise daarvan. Funksies vir R statistiese sagteware is ontwikkel om alle metodes in hierdie navorsing te kan uitvoer. Dit word as ‘n gereedskappakket in die bylae gegee om bystand te bied vir die korrekte hantering en onsydige visualisering van meerveranderlike kategoriese data met ontbrekende waardes. Sleutelwoorde: bi‐stippings; kategoriese data; meervoudige imputasie; meervoudige ooreenkomsanalise; ontbrekende data; Procrustes analise.
Description
Thesis (PhD)--Stellenbosch University, 2019.
Keywords
Biplots, Categorical data, Missing observations (Statistics), Correspondence analysis (Statistics), Multiple imputation (Statistics), Procrustes analysis, Multivatiate statistical analysis, UCTD