An application of geometric data analysis techniques to South African crime data

Journal Title
Journal ISSN
Volume Title
Stellenbosch : Stellenbosch University
ENGLISH SUMMARY : Due to the high levels of violent crime in South Africa, improved methods of analysis are required in order to better scrutinize these statistics. This study diverges from traditional multivariate data analysis, and provides alternative methods for analyzing crime data in South Africa. This study explores the applications of several types of geometric data analysis (GDA) methods to the study of crime in South Africa, these include: correspondence analysis, the correspondence analysis biplot, and the log-ratio biplot. Chapter 1 discusses the importance of data visualization in modern day statistics, as well as the geometric data analysis and its role as a multivariate analytical tool. Chapter 2 provides the motivation for the choice of subject matter to be explored in this study. As South Africa is recognized as having the eighth highest homicide rate in the world, along with a generally high level of violent crime, the analysis is conducted on reported violent crime statistics in South Africa. Additionally, the possible data collection challenges are also discussed in Chapter 2. The study is conducted on the violent crime statistics in South Africa for the 2004-2013 reporting period, the structure and details of which are discussed in Chapter 3. In order for this study to be comparable, it is imperative that the definitions of all crimes included are well defined. Chapter 3 places a large emphasis on declaring the exact definition of the various crimes which are utilized in this study, as recorded by the South African Police Services. The more common approaches to graphically representing crime data in South Africa are explored in Chapter 4. Chapter 4 also marks the beginning of the analysis of the South African crime data for the 2004-2013 reporting period. Univariate graphical techniques are used to analyze the data (line graphs and bar plots) for the 2004-2013 time period. However, as it is to be expected, they are hampered by serious limitations. In an attempt to improve on the analysis, focus is shifted to geometric data analysis techniques. The general methodologies to correspondence analysis, biplots, and correspondence analysis biplots are discussed in Chapter 5. Both the algorithms and the construction of the associated figures are discussed for the aforementioned methods. The application of these methodologies are implemented in Chapter 6. The results of Chapter 6 suggest some improvement upon the results of Chapter 4. These techniques provided a geometric setting where both the crimes and provinces could be represented in a single diagram, and where the relationships between both sets of variables could be analyzed. The correspondence analysis biplot proved to have some advantages in comparison to the correspondence analysis maps, as it can display numerous metrics, provide multiple calibrated axes, and allows for greater manipulation of the figure itself. Chapter 7 introduced the concept of compositional data and the log-ratio biplot. The log-ratio biplot combined the functionality of the biplot, along with a comparability measure in terms of a ratio. The log-ratio biplot proved useful in the analysis of the South African crime data as it expressed differences on a ratio scale as multiplicative differences. Additionally, log-ratio analysis has the property of being sub-compositionally coherent. Chapter 8 provides the summary and conclusions of this study. It was found that Gauteng categorically has the largest number of reported violent crimes over the reported period (2004-2013). However, the Western Cape proved to have the highest violent crime rates per capita of all the South African provinces. It was noted that over the past decade South Africa has experienced a downward trend in the number of reported murders. However, there has been a spike in the number of reported cases of murder in more recent year. This is spike is mostly driven by the large increases in reported murder cases in the Western Cape, Gauteng and KwaZulu-Natal. The most notable trend seen in the South African crime data is the rapid increase in the number of reported cases of drug-related crimes over the reported period across all provinces, but more noticeably in the Western Cape and Gauteng. On a whole, a majority of the South African provinces share similar violent crime profiles, however, Gauteng and the Western Cape deviate away from other provinces. This is due to Gauteng’s high association to robbery with aggravating circumstances and the Western Cape’s high association to drug-related crime. This study presents some evidence that the use of geometric data analysis techniques provides an improvement upon traditional reporting methods for the South African crime data. Geometric data analysis and its related methods should thus form an integral part of any study conducted into the topic at hand.
AFRIKAANSE OPSOMMING : Die besonder hoe vlakke van misdaad in Suid-Afrika noodsaak verbeterde metodes van analise om hierdie statistieke te ondersoek. Hierdie ondersoek wyk af van tradisionele meerveranderlike metodes en verskaf alternatiewe metodes om Suid-Afrikaanse misdaadsyfers te analiseer. Die toepassing van verskillende vorme van geometriese data analise (GDA) tegnieke om misdaadsyfers in Suid-Afrika te ondersoek, vorm die fokus van hierdie studie. Die volgende GDA tegnieke word onder meer beskou: ooreenstemmingsanalise, die ooreenstemmingsanalise bistipping en die log-ratio bistipping. Hoofstuk 1 bespreek die belangrikheid van data-visualisering in hedendaagse statistiek sowel as GDA en die rol daarvan as ’n meerveranderlike statistiese tegniek. Hoofstuk 2 verskaf die motivering vir die onderwerp van studie in hierdie ondersoek. Aangesien Suid-Afrika algemeen erken word as die land met die agste hoogste vlak van ernstige misdaad in die wereld te same met ’n algemeen hoe vlak van misdaad, word hierdie ondersoek uitgevoer op gerapporteerde ernstige misdaad statistieke in Suid-Afrika. Verder word die uitdagings om sodanige data in te samel ook in Hoofstuk 2 aangespreek. Die studie word uitgevoer op gewelddadige misdaadsyfers in Suid-Afrika vir die 2004-2013 periode van rapportering. Die struktuur en besonderhede van hierdie syfers word bespreek in Hoofstuk 3. Ten einde te verseker dat hierdie studie vergelykbaar moet wees, is dit van die uiterste belang dat al die soorte misdaad wat beskou word volledig gedefinieer moet wees. Hoofstuk 3 plaas dan ook ’n hoe premie op duidelike en volledige definisies van al die soorte van misdaad wat in hierdie studie beskou word. Hierdie definisies is in ooreenstemming met hoe dit deur die Suid-Afrikaanse Polisiediens omskryf word by die rapportering van misdaad. Die tradisionele benaderings wat gevolg word met die grafiese voorstelling van Suid-Afrikaanse misdaadgegewens word ondersoek in Hoofstuk 4. Hierdie hoofstuk vorm ook die begin van die analise van die Suid-Afrikaanse misdaadgegewens soos amptelik gerapporteer vir die tydperk 2004-2013. Eenveranderlike grafiese tegnieke (lyngrafieke en staafdiagramme) word gebruik om die data te analiseer vir die tydperk 2004-2013. Soos egter te verwagte, gaan hierdie tegnieke mank aan ernstige tekortkomings. In ’n poging om hierdie tekortkomings aan te spreek, verskuif die fokus dan na GDA tegnieke. Die algemene metodologie onderliggend aan ooreenstemmingsanalise, bistippings en ooreenstemmingsanalise bistippings word in Hoofstuk 5 bespreek. Beide die algoritmes en die konstruksie van die geassosieerde grafiese voorstellings word bespreek vir die voorafgaande tegnieke. Die toepassing van die metodologie vind neerslag in Hoofstuk 6. Die resultate van Hoofstuk 6 dui dan ook op ’n verbetering op die resultate soos gerapporteer in Hoofstuk 4. Die tegnieke wat in Hoofstukke 5 en 6 aan die hand gedoen word, verskaf die geometriese grondslag waarop beide die misdaadtipes en die provinsies gesamentlik in ’n enkele grafiek voorgestel kan word. Sodoende word dit moontlik om die verwantskappe tussen hierdie twee stelle veranderlikes te analiseer. Dit word aangetoon dat die gebruik van ooreenstemmingsanalise bistippings bepaalde voordele inhou bo die gebruik van konvensionele ooreenstemmingsanalise diagramme aangesien dit die gebruik van verskeie metrieke, veelvuldige gekalibreerde asse sowel as ’n groter mate van manipulasie van die figuur self toelaat. Hoofstuk 7 stel aan die orde die konsep van komposisie-data en die log-verhouding bistipping. Die log-verhouding bistipping kombineer die funksionaliteit van die konvensionele bistipping met ’n vergelykbare maatstaf in terme van ’n verhouding (ratio). Die log-verhouding bistipping blyk van waarde te wees by die analise van Suid-Afrikaanse misdaadsyfers aangesien dit verskille op ’n ratio-skaal as multiplikatiewe verskille uitdruk. Verder het die log-verhouding analise die eienskap om sub-komposisie koherent te wees. Hoofstuk 8 bevat die opsomming en gevolgtrekkings van hierdie studie. Dit is aangetoon dat vir Gauteng per kategorie die grootste getal gewelddadige misdade gerapporteer is oor die tydperk van ondersoek (2004-2013). Dit het egter geblyk dat die Wes-Kaap die grootste gewelddadige misdaadkoerse per capita van al die Suid-Afrikaanse provinsies het. Dit is verder ook aangetoon dat gedurende die afgelope dekade daar ’n dalende tendens was in die aantal moorde wat gerapporteer is. In teenstelling met hierdie algemene tendens toon die gegewens vir die jongste jare ’n toename in gerapporteerde moorde. Hierdie toename word hoofsaaklik gedryf deur ’n toename in die aantal gerapporteerde moorde in die Wes-Kaap, Gauteng en KwaZulu-Natal. Die mees uitstaande tendens in die Suid-Afrikaanse misdaadsyfers is die snelle toename in die aantal dwelm-verwante misdade. Hoewel hierdie tendens by al die provinsies voorkom, is dit veral die geval in die Wes-Kaap en Gauteng. Oor die algemeen deel ’n meerderheid van Suid-Afrikaanse provinsies gelyksoortige gewelddadige misdaadprofiele, maar Gauteng en die Wes-Kaap toon opmerkliklike verskille hiermee. Dit is veral as gevolg van die hoe voorkoms in Gauteng van roof met verswarende omstandighede en die hoe voorkoms van dwelm-verwante misdaad in die Wes-Kaap. Hierdie ondersoek verskaf getuienis dat die gebruik van GDA tegnieke tot ’n verbetering kan lei in die wyse waarop Suid-Afrikaanse misdaadsyfers gerapporteer word wanneer dit met die tradisionele metodes vergelyk word. GDA en verwante tegnieke behoort dus ’n integrale deel uit te maak van ’n studie van Suid-Afrikaanse misdaadsyfers.
Thesis (MCom)--Stellenbosch University, 2016.
Correspondence analysis (Statistics), Geometric data analysis, Log-ratio analysis, Biplots, Criminal statistics, UCTD