Sentiment classification and an approach to sentiment visualisation
Date
2022-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH SUMMARY: The social media platform, Twitter, presents a great amount of text data regarding social interactions from the Tweets posted by users. The user-generated text data contains opinions and sentiments that are considered to be biased towards the users’ individual and community experiences. In this study, text data related to the COVID-19 pandemic is procured from Twitter. The Tweets are utilised in two respective case studies. The first case study uses Tweets posted from three South African cities and the second case study uses Tweets posted from three countries. The selected cities are Cape Town, Durban and Johannesburg. The selected countries are South Africa, Australia and the United Kingdom. The subjective nature of the text leads to the use of sentiment classification to gain insight from the observed text data as well as expose the meaning and context. Sentiment classification entails matching the pre-processed text (i.e. text elements) to terms and phrases in a sentiment lexicon to determine their sentiment polarities. This study considers two sentiment lexicons: Bing and AFINN. Sentiment visualisation is concerned with summarising the content and underlying meaning within the text as well as displaying the distinct sentiments. This study explores and enhances two existing text visualisation tools: word clouds and multiple correspondence analysis (MCA) biplots. These visualisations are used to analyse the content and gauge the underlying sentiment within the text. Word clouds provide an overview of the occurrences of words in a given context. The word clouds are systematically enhanced by colour coding words according to their associated sentiment categories to reveal not only the most relevant topics in the text, but also the overall sentiment. In order to evaluate the dominant sentiment of the text, the word clouds are further enhanced to only display the words that are matched to the Bing sentiment lexicon. Considering that fear and uncertainty were identified as relevant topics related to the pandemic, the overall sentiment within the Tweets is reflected as negative. The sentiment classification results along with additional relevant categorical variables are compiled into a categorical dataset suitable for MCA and biplot visualisation. In its simplest form, a biplot is regarded as a generalised scatterplot which allows the visualisation of observations on more than two variables simultaneously. In this study, the MCA biplot will enable the investigation of the relationships among the Tweets and the levels of the categorical variables. The proximity of points in the biplot display suggests similar response profiles and associations between the category levels under investigation. The categorical variables considered in the case studies, include the location the Tweet was sent from, the overall sentiment categories per Tweet and the number of words in each Tweet classifiable by the sentiment lexicon. The standard MCA biplot is enhanced through word embedding which additionally displays the classifiable words along with the levels of the categorical variables. The number of words considered for classification is found to influence the overall sentiment classification of the Tweet. The embedded word MCA biplot confirmed the consistency of the sentiment classification through the close proximity of category levels representing similar sentiment scores. Words with similar sentiment are also located in close proximity which eases the interpretation of the underlying meaning of the Tweets. Overall, the biplots reveal that the number of words influence the strength of the sentiment classification, seeing that a larger number of classifiable words in the Tweets is more likely to lead to a neutral sentiment due to the averaging of sentiment scores to determine the overall sentiment of a particular Tweet. The methodology enables the visualisation of a quantified measure of sentiment along with the associated words. These promising results therefore add to the developing field of sentiment visualisation through the enhancement of existing text visualisation tools to visualise sentiments within the text.
AFRIKAANSE OPSOMMING: Die sosiale media platform, Twitter, bied ‘n groot hoeveelheid teks data aan met betrekking tot die sosiale interaksies vanaf die Tweets wat geplaas word deur gebruikers. Die teks data gegenereer deur die gebruikers bevat menings en sentimente wat beskou word as bevooroordeeld teenoor die gebruikers se individuele en gemeenskapservarings. Die teks data vir hierdie studie, wat verband hou met die COVID-19 pandemie, word verkry vanaf Twitter. Die Tweets word gebruik in twee onderskeie gevallestudies. Die eerste gevallestudie gebruik Tweets geplaas vanaf drie Suid-Afrikaanse stede en die tweede gevallestudie gebruik Tweets geplaas vanaf drie lande. Kaapstad, Durban en Johannesburg is gekies as die stede vir die eerste gevallestudie. Suid-Afrika, Australie en die Verenigde Koninkryk is gekies as die lande vir die tweede gevallestudie. Die subjektiewe aard van die teks data lei tot die gebruik van sentiment klassifikasie om insig te verkry uit die waargenome teks data asook om die betekenis en konteks in die teks te onthul. Sentiment klassifikasie behels die vergelyking van die vooraf verwerkte teks (d.w.s. teks elemente) met terme en frases in ‘n sentiment leksikon om die sentiment kategoriee te bepaal. Hierdie studie oorweeg twee sentiment leksikons: Bing en AFINN. Sentiment visualisering behels die opsomming van die inhoud en die onderliggende betekenis in die teks asook die voorstelling van die afsonderlike sentimente. Hierdie studie verken en verbeter twee bestaande metodes vir teks visualisering: woord wolke en meervoudige ooreenkomsanalise (Eng. MCA) bi-stippings. Hierdie visualiseringsmetodes word gebruik om die inhoud te ontleed en die onderliggende sentiment in die teks te meet. Woord wolke bied ‘n oorsig van die aantal kere wat woorde voorkom in ‘n gegewe konteks. Die woord wolke word sistematies verbeter deur die woorde se kleure te kodeer volgens hul ooreenstemmende sentiment kategoriee om die mees relevante onderwerpe en die omvattende sentiment te openbaar. Om die oorheersende sentiment van die teks te evalueer, word die woord wolke verder verbeter deur slegs die woorde voor te stel wat ooreenstemmende inskrywings het in die Bing sentiment leksikon. Aangesien vrees en onsekerheid geidentifiseer word as relevante onderwerpe wat verband hou met die pandemie, word die algehele sentiment in die Tweets gereflekteer as negatief. ‘n Kategoriese datastel geskik vir MCA en bi-stipping visualisering word saamgestel vanuit die resultate van die sentiment klassifikasie en addisionele relevante kategoriese veranderlikes. ‘n Bi-stipping in sy eenvoudigste vorm word beskou as ‘n veralgemeende verspreidingsdiagram wat die gelyktydige visualisering van waarnemings vir meer as twee veranderlikes moontlik maak. In hierdie studie, word die MCA bi-stipping gebruik om die verwantskappe tussen die Tweets en die vlakke van die kategoriese veranderlikes te ondersoek. Die nabyheid van die punte in die bi-stipping is ‘n aanduiding van soortgelyke responsprofiele en verhoudings tussen die kategorie vlakke wat ondersoek word. Die kategoriese veranderlikes wat oorweeg word in die gevallestudies sluit die ligging waarvandaan die Tweet gestuur is in, die algehele sentiment kategoriee per Tweet en die aantal woorde wat deur die sentiment leksikon geklassifiseer kan word. Die standaard MCA bi-stipping word verbeter deur woordinbedding wat die klassifiseerbare woorde saam met die vlakke van die kategoriese veranderlikes vertoon. Die ingebedde woord MCA bi-stipping bevestig die konsekwentheid van die sentiment klassifikasie deur die nabyheid van kategorie vlakke wat gelyksoortige sentiment tellings verteenwoordig. Woorde met gelyksoortige sentimente is ook in nabyheid gelee wat die interpretasie van die onderliggende betekenis van die Tweets vergemaklik. In die algemeen, onthul die bi-stippings dat die aantal woorde die sterkte van die sentiment klassifikasie beinvloed, aangesien ‘n groter aantal klassifiseerbare woorde in die Tweets meer geneig is om ‘n neutrale sentiment te he omdat die gemiddelde sentiment telling gebruik word om die algehele sentiment van ‘n spesifieke Tweet te bepaal. Die metodologie maak dit moontlik om die gekwantifiseerde sentiment saam met die geassosieerde woorde te visualiseer. Hierdie belowende resultate dien as ‘n bydrae tot die ontwikkelende navorsingsveld van sentiment visualisering deur die verbetering van bestaande teksvisualiseringsmetodes om die sentiment in teks te visualiseer.
AFRIKAANSE OPSOMMING: Die sosiale media platform, Twitter, bied ‘n groot hoeveelheid teks data aan met betrekking tot die sosiale interaksies vanaf die Tweets wat geplaas word deur gebruikers. Die teks data gegenereer deur die gebruikers bevat menings en sentimente wat beskou word as bevooroordeeld teenoor die gebruikers se individuele en gemeenskapservarings. Die teks data vir hierdie studie, wat verband hou met die COVID-19 pandemie, word verkry vanaf Twitter. Die Tweets word gebruik in twee onderskeie gevallestudies. Die eerste gevallestudie gebruik Tweets geplaas vanaf drie Suid-Afrikaanse stede en die tweede gevallestudie gebruik Tweets geplaas vanaf drie lande. Kaapstad, Durban en Johannesburg is gekies as die stede vir die eerste gevallestudie. Suid-Afrika, Australie en die Verenigde Koninkryk is gekies as die lande vir die tweede gevallestudie. Die subjektiewe aard van die teks data lei tot die gebruik van sentiment klassifikasie om insig te verkry uit die waargenome teks data asook om die betekenis en konteks in die teks te onthul. Sentiment klassifikasie behels die vergelyking van die vooraf verwerkte teks (d.w.s. teks elemente) met terme en frases in ‘n sentiment leksikon om die sentiment kategoriee te bepaal. Hierdie studie oorweeg twee sentiment leksikons: Bing en AFINN. Sentiment visualisering behels die opsomming van die inhoud en die onderliggende betekenis in die teks asook die voorstelling van die afsonderlike sentimente. Hierdie studie verken en verbeter twee bestaande metodes vir teks visualisering: woord wolke en meervoudige ooreenkomsanalise (Eng. MCA) bi-stippings. Hierdie visualiseringsmetodes word gebruik om die inhoud te ontleed en die onderliggende sentiment in die teks te meet. Woord wolke bied ‘n oorsig van die aantal kere wat woorde voorkom in ‘n gegewe konteks. Die woord wolke word sistematies verbeter deur die woorde se kleure te kodeer volgens hul ooreenstemmende sentiment kategoriee om die mees relevante onderwerpe en die omvattende sentiment te openbaar. Om die oorheersende sentiment van die teks te evalueer, word die woord wolke verder verbeter deur slegs die woorde voor te stel wat ooreenstemmende inskrywings het in die Bing sentiment leksikon. Aangesien vrees en onsekerheid geidentifiseer word as relevante onderwerpe wat verband hou met die pandemie, word die algehele sentiment in die Tweets gereflekteer as negatief. ‘n Kategoriese datastel geskik vir MCA en bi-stipping visualisering word saamgestel vanuit die resultate van die sentiment klassifikasie en addisionele relevante kategoriese veranderlikes. ‘n Bi-stipping in sy eenvoudigste vorm word beskou as ‘n veralgemeende verspreidingsdiagram wat die gelyktydige visualisering van waarnemings vir meer as twee veranderlikes moontlik maak. In hierdie studie, word die MCA bi-stipping gebruik om die verwantskappe tussen die Tweets en die vlakke van die kategoriese veranderlikes te ondersoek. Die nabyheid van die punte in die bi-stipping is ‘n aanduiding van soortgelyke responsprofiele en verhoudings tussen die kategorie vlakke wat ondersoek word. Die kategoriese veranderlikes wat oorweeg word in die gevallestudies sluit die ligging waarvandaan die Tweet gestuur is in, die algehele sentiment kategoriee per Tweet en die aantal woorde wat deur die sentiment leksikon geklassifiseer kan word. Die standaard MCA bi-stipping word verbeter deur woordinbedding wat die klassifiseerbare woorde saam met die vlakke van die kategoriese veranderlikes vertoon. Die ingebedde woord MCA bi-stipping bevestig die konsekwentheid van die sentiment klassifikasie deur die nabyheid van kategorie vlakke wat gelyksoortige sentiment tellings verteenwoordig. Woorde met gelyksoortige sentimente is ook in nabyheid gelee wat die interpretasie van die onderliggende betekenis van die Tweets vergemaklik. In die algemeen, onthul die bi-stippings dat die aantal woorde die sterkte van die sentiment klassifikasie beinvloed, aangesien ‘n groter aantal klassifiseerbare woorde in die Tweets meer geneig is om ‘n neutrale sentiment te he omdat die gemiddelde sentiment telling gebruik word om die algehele sentiment van ‘n spesifieke Tweet te bepaal. Die metodologie maak dit moontlik om die gekwantifiseerde sentiment saam met die geassosieerde woorde te visualiseer. Hierdie belowende resultate dien as ‘n bydrae tot die ontwikkelende navorsingsveld van sentiment visualisering deur die verbetering van bestaande teksvisualiseringsmetodes om die sentiment in teks te visualiseer.
Description
Thesis (MCom)--Stellenbosch University, 2022.
Keywords
biplots; multiple correspondence analysis; sentiment classification; sentiment visualisation; text analysis, Human-computer interaction, Multivariate analysis, Correspondence analysis (Statistics), UCTD