A framework for evaluating unstructured text data using sentiment analysis

Stellenbosch : Stellenbosch University
ENGLISH ABSTRACT: Increased exposure of the average customer and citizen to polarised content from various sourceshas been a cause of significant concern for companies and governmental organisations. Suchcontent has, for example, served as a catalyst for violent uprisings and shifts in stock marketprices. The collection and study of opinion have therefore become a necessity in many industries.Due to the vast extent of such data, however, manual approaches to this end are no longerfeasible. This situation has given rise to the research field ofsentiment analysisoropinionmining— thecomputationalstudy of people’s opinions, attitudes and emotions.Whereas the task of sentiment parsing is relatively easy for humans, the subtle nuances ofnatural languages render this task inherently difficult for computers. This is especially true inthe South African context, where opinion-bearing expressions may be composed in up to elevendifferent languages. Automated sentiment analysis tools developed in one setting are, therefore,often ineffective in another. Furthermore, an abundance of research has been dedicated todeveloping algorithms for the purpose of classifying sentiment, while little guidance exists onhow to incorporate this information into the decision-making processes of affected entities.In this dissertation, a generic framework for sentiment analysis is proposed, with a focus onfacilitating the model development process for a user in a manner such that good performancemay be achieved irrespective of the problem domain. The objective of the framework is ulti-mately to facilitate a flexible, exploratory analysis of model results in combination with existingstructured attributes in order to gain actionable insights. The framework may aid organisationsin successfully leveraging unstructured, opinion-bearing data in combination with structureddata sources with a view to inform effective decision making. An instantiation of this framework is implemented on a computer as a concept demonstration.This implementation is applied to a real-world case study in the South African banking sectorin order to illustrate the practical applicability of the framework. Furthermore, the framework’sability to generalise across domains is validated by means of three additional case studies inrespect of freely available benchmark data. During this process, the models developed by meansof the framework are shown to be competitive with published benchmark results. Moreover, theframework is shown to address and successfully overcome shortcomings of existing frameworksin the literature.
AFRIKAANSE OPSOMMING: Toenemende blootstelling van die gemiddelde kli ̈ent en burger aan gepolariseerde inhoud uitverskeie bronne het ’n groot bron van kommer vir ondernemings en regeringsorganisasies geword.Sulke inhoud het byvoorbeeld al as katalisators vir gewelddadige opstande en veranderinge inaandeelpryse gedien. Die insameling en bestudering van menings het dus in baie nywerhede’n noodsaaklikheid geword. Vanwe ̈e die groot omvang van sulke data, is handmatige bena-derings daartoe egter nie meer uitvoerbaar nie. Hierdie situasie het aanleiding gegee tot dienavorsingsveld vansentimentanaliseofmeningsontginning— dieberekeningstudievan mense seopinies, houdings en emosies.Terwyl die taak van sentiment-ontleding relatief maklik is vir mense, maak die subtiele nuansesvan natuurlike tale hierdie taak inherent moeilik vir rekenaars. Dit is veral waar in die Suid-Afrikaanse konteks, waar meningsdraende uitdrukkings in tot elf verskillende tale geformuleerkan word. Instrumente vir outomatiese sentiment-analise wat in een omgewing ontwikkel is, isdus dikwels nie noodwendig in ’n ander omgewing doeltreffend nie. Verder is ’n oorvloed navor-sing aan die ontwikkeling van algoritmes vir sentiment-klassifikasie toegewy, terwyl daar weinigriglyne bestaan oor hoe om hierdie inligting in die besluitnemingsprosesse van belanghebbendeentiteite te inkorporeer. In hierdie proefskrif word ’n generiese raamwerk vir sentimentanalise daargestel, met die klem opfasilitering van die modelontwikkelingsproses op s ́o ’n manier dat goeie werkverrigting, ongeagdie probleemdomein, bereik kan word. Die uiteindelike doel van die raamwerk is die fasiliteringvan ’n buigsame, verkennende analise van modelresultate in kombinasie met bestaande gestruk-tureerde eienskappe ten einde insigte te verwerf wat na sinvolle aksies kan lei. Die raamwerkkan organisasies help om ongestruktureerde, meningsvormende data suksesvol in kombinasie metgestruktureerde databronne te benut met die oog op doeltreffende besluitneming.’n Spesiale geval van hierdie raamwerk word rekenaarmatig as ’n konsepdemonstrasie ge ̈ımple-menteer. Hierdie implementasie word op ’n werklike gevallestudie in die Suid-Afrikaanse bank-sektor toegepas om die praktiese toepasbaarheid van die raamwerk te illustreer. Verder word dieraamwerk se vermo ̈e om oor verskeie terreine te veralgemeen deur middel van drie addisionelegevallestudies in die konteks van vrylik beskikbare maatstafdata bekragtig. Gedurende hierdieproses word daar bevind dat die modelle wat deur middel van die raamwerk ontwikkel is, metgepubliseerde maatstafresultate mededingend blyk te wees. Verder word daar getoon dat dieraamwerk tekortkominge van bestaande raamwerke in die literatuur aanspreek en suksesvoloorkom.
Thesis (PhD)--Stellenbosch University, 2020.
Sentiment analysis, Mining, Opinion, Decision support systems, Machine learning, UCTD