Natural language processing for characterising the COVID-19 infodemic on South African twitter.
Date
2024-03
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: The novel coronavirus disease of 2019 (COVID-19) was first detected in the city of Wuhan, China, and quickly spread to countries all around the globe. On the advice of the World Health Organization (WHO), governments-imposed lockdowns, social distancing, mask mandates, and other preventive measures that completely disrupted the daily lives of billions of people. Along with the disruption of daily life came fear, confusion, and anxiety, as news about the virus began circulating. Despite the attempts of the WHO and national governments to provide accurate information about the virus and prevent panic, rumours about its origin, effects, and cures surfaced on websites and social media. COVID-19 rumours became so prominent during the height of the pandemic that their spread became known as an “infodemic” and social media has been identified as a major contributing factor. The COVID-19 pandemic has exposed the potential harm that can be caused by misinformation and disinformation that is spread on social media. Scholars have responded by analysing content on social media to identify different kinds of misleading information about COVID-19 and to quantify how far it has spread. These studies make use of automated machine learning (ML) and natural language processing (NLP) techniques to analyse the large amounts of data present on social media. South Africa has, unfortunately, escaped neither the pandemic nor the infodemic. The full extent of the infodemic on South African social media, in contrast with other countries, is still unknown. ML and NLP techniques provide an opportunity to address this gap in research and characterise mis-/disinformation on South African social media. In this dissertation, two approaches were followed to characterise misleading information on South African Twitter. The first is a supervised ML approach that made use of a combination of transformer-based embedding models and feedforward neural network classifiers. The models were trained, optimised, and evaluated on publicly available, labelled COVID-19 Twitter misinformation datasets. The best performing model, LAMBERT, was then applied to unlabelled South African Tweets about the COVID-19 pandemic. Although the model performed well on the labelled test data (obtaining an F1–score of 89.9%), the model failed to reliably distinguish between mis-/disinformation Tweets and general Tweets in the unlabelled South African dataset. The second approach made use of an unsupervised topic modelling algorithm, BERTopic, to divide the unlabelled South African Tweets into coherent topics. The BERTopic model was trained and optimised on the unlabelled South African Tweets and produced 34 topics. By inspecting the representative terms and Tweets assigned to each topic, instances of mis-/disinformation were identified. The unsupervised approach was then refined by defining three novel procedures, namely discrete dynamic topic modelling (DDTM), topic evolution network formation (TENF), and topic characterisation (TC), to model the development of topics over time and characterise the extracted topics in terms of their textual, spatial, temporal and community facets. Using these procedures, networks of topics (including mis-/disinformation topics) were identified in the collected Twitter data. Lastly, these procedures were abstracted and combined to form a novel, generalised topic characterisation framework. This dissertation presents the first large-scale analysis of South African Twitter specifically aimed at characterising and mapping information disorder in the context of COVID-19, helping to better define the information disorder landscape on social media in the Global South and South Africa, in particular. The results described in the dissertation are a valubale departure point for future research and the proposed framework provides a comprehensive, yet flexible guide to characterising large corpora of text for domain experts and researchers alike.
AFRIKAANSE OPSOMMING: Die nuwe koronavirussiekte van 2019 (COVID-19) is die eerste keer in die stad Wuhan, Sjina, opgespoor en het vinnig na lande regoor die wˆereld versprei. Na raad van die Wˆereldgesondheidsorganisasie (WGO) het regerings inperkings, sosiale distansi¨ering, maskermandate, en ander voorkomende maatre¨els ingestel wat die daaglikse lewens van miljarde mense heeltemal ontwrig het. Saam met die ontwrigting van mense se daaglikse lewens het vrees, verwarring, en angs ook opgevlam toe nuus oor die virus begin sirkuleer het. Ten spyte van die pogings van die WGO en nasionale regerings om akkurate inligting oor die virus te verskaf en paniek te voorkom, het gerugte oor die oorsprong, gevolge, en kure daarvan op webwerwe en sosiale media opgeduik. COVID-19 gerugte het so prominent geword tydens die hoogtepunt van die pandemie dat die verspreiding daarvan bekend geword het as ’n “infodemie” en sosiale media is ge¨ıdentifiseer as ’n groot bydraende faktor. Die COVID-19-pandemie het die potensi¨ele skade blootgelˆe wat veroorsaak kan word deur mis- en disinformasie wat op sosiale media versprei word. Geleerdes het gereageer deur inhoud op sosiale media te ontleed om verskillende soorte misleidende inligting oor COVID-19 te identifiseer en om te kwantifiseer hoe ver dit versprei het. Hierdie studies maak gebruik van geoutomatiseerde masjienleer (ML) en natuurlike taalverwerking (NLP) tegnieke om die groot hoeveelhede data wat op sosiale media teenwoordig is, te ontleed. Suid-Afrika het ongelukkig nie die pandemie of die infodemie vrygespring nie. Die volle omvang van die infodemie op Suid-Afrikaanse sosiale media, in teenstelling met ander lande, is nog onbekend. ML- en NLP-tegnieke bied ’n geleentheid om hierdie gaping in navorsing aan te spreek en misen disinformasie op Suid-Afrikaanse sosiale media te karakteriseer. In hierdie verhandeling is twee benaderings gevolg om misleidende inligting op Suid-Afrikaanse Twitter te karakteriseer. Die eerste is ’n ML-benadering wat gebruik gemaak het van ’n kombinasie van transformator-gebaseerde inbeddingsmodelle en oorwaartse neurale netwerkklassifiseerders. Die modelle is opgelei, geoptimeer en ge¨evalueer op publiek-beskikbare, gemerkte COVID-19 Twitter misinformasiedatastelle. Die beste presterende model, LAMBERT, is toegepas op ongemerkte Suid-Afrikaanse “Tweets” oor die COVID-19-pandemie. Alhoewel die model goed presteer het op die benoemde toetsdata (met ’n F1—telling van 89.9%), het die model nie daarin geslaag om betroubaar te onderskei tussen mis-/disinformasie “Tweets” en algemene “Tweets” in die ongemerkte Suid-Afrikaanse datastel nie. Die tweede benadering het gebruik gemaak van ’n onderwerpmodelleringsalgoritme, BERTopic, om die ongemerkte Suid-Afrikaanse “Tweets” in samehangende onderwerpe te verdeel. Die BERTopic-model is opgelei en geoptimeer op die ongemerkte Suid-Afrikaanse “Tweets” en het ’n totaal van 34 onderwerpe opgelewer. Deur die verteenwoordigende terme en “Tweets” wat aan elke onderwerp toegeken is, te ondersoek, is gevalle van mis-/disinformasie ge¨ıdentifiseer. Die BERTopic benadering is daarna verfyn deur drie nuwe prosedures te definieer, naamlik diskrete dinamiese onderwerpmodellering (DDTM), onderwerpevolusienetwerkvorming (TENF) en onderwerpkarakterisering (TC), om die ontwikkeling van onderwerpe oor tyd te modelleer en die onderwerpe in terme van hul teksverwante, ruimtelike, temporele en gemeenskapsfasette te karakteriseer. Deur die gebruik van hierdie prosedures is netwerke van onderwerpe (insluitend mis-/disinformasie onderwerpe) in die versamelde Twitter datastel ge¨ıdentifiseer. Laastens is hierdie prosedures veralgemeen na ’n ho¨er vlak van abstraksie en gekombineer om ’n nuwe, algemene onderwerpkarakteriseringsraamwerk te vorm. Hierdie proefskrif bied die eerste grootskaalse ontleding van Suid-Afrikaanse Twitter aan wat spesifiek daarop gemik is om mis-/disinformasi in die konteks van COVID-19 te karakteriseer en te karteer. Die resultate wat in die proefskrif beskryf word, is ’n waardevolle vertrekpunt vir toekomstige navorsing en die voorgestelde raamwerk verskaf ’n omvattende, dog buigsame gids vir kundiges en navorsers om groot teksdatastelle te karakteriseer.
AFRIKAANSE OPSOMMING: Die nuwe koronavirussiekte van 2019 (COVID-19) is die eerste keer in die stad Wuhan, Sjina, opgespoor en het vinnig na lande regoor die wˆereld versprei. Na raad van die Wˆereldgesondheidsorganisasie (WGO) het regerings inperkings, sosiale distansi¨ering, maskermandate, en ander voorkomende maatre¨els ingestel wat die daaglikse lewens van miljarde mense heeltemal ontwrig het. Saam met die ontwrigting van mense se daaglikse lewens het vrees, verwarring, en angs ook opgevlam toe nuus oor die virus begin sirkuleer het. Ten spyte van die pogings van die WGO en nasionale regerings om akkurate inligting oor die virus te verskaf en paniek te voorkom, het gerugte oor die oorsprong, gevolge, en kure daarvan op webwerwe en sosiale media opgeduik. COVID-19 gerugte het so prominent geword tydens die hoogtepunt van die pandemie dat die verspreiding daarvan bekend geword het as ’n “infodemie” en sosiale media is ge¨ıdentifiseer as ’n groot bydraende faktor. Die COVID-19-pandemie het die potensi¨ele skade blootgelˆe wat veroorsaak kan word deur mis- en disinformasie wat op sosiale media versprei word. Geleerdes het gereageer deur inhoud op sosiale media te ontleed om verskillende soorte misleidende inligting oor COVID-19 te identifiseer en om te kwantifiseer hoe ver dit versprei het. Hierdie studies maak gebruik van geoutomatiseerde masjienleer (ML) en natuurlike taalverwerking (NLP) tegnieke om die groot hoeveelhede data wat op sosiale media teenwoordig is, te ontleed. Suid-Afrika het ongelukkig nie die pandemie of die infodemie vrygespring nie. Die volle omvang van die infodemie op Suid-Afrikaanse sosiale media, in teenstelling met ander lande, is nog onbekend. ML- en NLP-tegnieke bied ’n geleentheid om hierdie gaping in navorsing aan te spreek en misen disinformasie op Suid-Afrikaanse sosiale media te karakteriseer. In hierdie verhandeling is twee benaderings gevolg om misleidende inligting op Suid-Afrikaanse Twitter te karakteriseer. Die eerste is ’n ML-benadering wat gebruik gemaak het van ’n kombinasie van transformator-gebaseerde inbeddingsmodelle en oorwaartse neurale netwerkklassifiseerders. Die modelle is opgelei, geoptimeer en ge¨evalueer op publiek-beskikbare, gemerkte COVID-19 Twitter misinformasiedatastelle. Die beste presterende model, LAMBERT, is toegepas op ongemerkte Suid-Afrikaanse “Tweets” oor die COVID-19-pandemie. Alhoewel die model goed presteer het op die benoemde toetsdata (met ’n F1—telling van 89.9%), het die model nie daarin geslaag om betroubaar te onderskei tussen mis-/disinformasie “Tweets” en algemene “Tweets” in die ongemerkte Suid-Afrikaanse datastel nie. Die tweede benadering het gebruik gemaak van ’n onderwerpmodelleringsalgoritme, BERTopic, om die ongemerkte Suid-Afrikaanse “Tweets” in samehangende onderwerpe te verdeel. Die BERTopic-model is opgelei en geoptimeer op die ongemerkte Suid-Afrikaanse “Tweets” en het ’n totaal van 34 onderwerpe opgelewer. Deur die verteenwoordigende terme en “Tweets” wat aan elke onderwerp toegeken is, te ondersoek, is gevalle van mis-/disinformasie ge¨ıdentifiseer. Die BERTopic benadering is daarna verfyn deur drie nuwe prosedures te definieer, naamlik diskrete dinamiese onderwerpmodellering (DDTM), onderwerpevolusienetwerkvorming (TENF) en onderwerpkarakterisering (TC), om die ontwikkeling van onderwerpe oor tyd te modelleer en die onderwerpe in terme van hul teksverwante, ruimtelike, temporele en gemeenskapsfasette te karakteriseer. Deur die gebruik van hierdie prosedures is netwerke van onderwerpe (insluitend mis-/disinformasie onderwerpe) in die versamelde Twitter datastel ge¨ıdentifiseer. Laastens is hierdie prosedures veralgemeen na ’n ho¨er vlak van abstraksie en gekombineer om ’n nuwe, algemene onderwerpkarakteriseringsraamwerk te vorm. Hierdie proefskrif bied die eerste grootskaalse ontleding van Suid-Afrikaanse Twitter aan wat spesifiek daarop gemik is om mis-/disinformasi in die konteks van COVID-19 te karakteriseer en te karteer. Die resultate wat in die proefskrif beskryf word, is ’n waardevolle vertrekpunt vir toekomstige navorsing en die voorgestelde raamwerk verskaf ’n omvattende, dog buigsame gids vir kundiges en navorsers om groot teksdatastelle te karakteriseer.
Description
Thesis (MEng)--Stellenbosch University, 2024.