Resampling algorithms for multi-label classification

Kotze, Ulrich

Resampling algorithms for multi-label classification

dc.contributor.advisor	Sandrock, Trudie	en_ZA
dc.contributor.author	Kotze, Ulrich	en_ZA
dc.contributor.other	Stellenbosch University. Faculty of Economic and Management Sciences. Dept. of Statistics and Actuarial Science.	en_ZA
dc.date.accessioned	2022-03-04T09:03:42Z
dc.date.accessioned	2022-04-29T09:29:14Z
dc.date.available	2022-03-04T09:03:42Z
dc.date.available	2022-04-29T09:29:14Z
dc.date.issued	2022-04
dc.description	Thesis (MCom)--Stellenbosch University, 2022.	en_ZA
dc.description.abstract	ENGLISH SUMMARY: Multi-label classification is a member of the supervised learning family and represents a scenario where we wish to classify an observation into many of many classes. Therefore, in the classification paradigm an observation can belong to more than one class simultaneously. Imbalanced data is a common problem in the multi-label paradigm of learning. This project investigated resampling algorithms as a pre-processing mechanism to address the manifestation of imbalance in multi-label data to improve multi-label classification performance. Imbalance can manifest itself through a sparse data matrix at small global densities. Imbalance can also manifest itself through a disparity in local label density at larger global densities. The effect of resampling algorithms on multi-label performance is studied for both of these forms of imbalance. We specifically study the effect of these resampling algorithms on multi-label performance at changing levels of global density. The thesis made use of simulated data, five common multi-label classification techniques and seven of the most popular resampling algorithms. Three example-based, label-based and ranking-based evaluation metrics were used to assess the effect of the resampling algorithms on multi-label classification performance.	en_ZA
dc.description.abstract	AFRIKAANSE OPSOMMING: Multi-etiket klassifikasie is 'n voorbeeld van onder toesig leer en verteenwoordig 'n scenario waarin ons 'n waarneming in baie van baie klasse wil klassifiseer. Daarom kan 'n waarneming in 'n klassifikasieparadigma gelyktydig aan meer as een klas behoort. Ongebalanseerde data is 'n algemene probleem in die multi-etiket paradigma van leer. Hierdie tesis het hersteekproefnemingalgoritmes ondersoek as 'n voorverwerkingsmeganisme om die manifestasie van wanbalans in multi-etiket data aan te spreek om multi-etiket klassifikasieprestasie te verbeter. Wanbalans kan manifesteer deur 'n yl data matriks by klein globale digthede of deur 'n verskil in plaaslike etiketdigtheid by groter globale digthede. Die effek van hersteekproefnemingalgoritmes op multi-etiket prestasie word bestudeer vir beide hierdie vorme van wanbalans. Ons bestudeer spesifiek die effek van hierdie hersteekproefnemingalgoritmes op multi-etiket prestasie by veranderende vlakke van globale digtheid. Die studie het gebruik gemaak van gesimuleerde data, vyf algemene multi-etiket klassifikasietegnieke en sewe van die gewildste hersteekproefnemingalgoritmes. Drie voorbeeld-gebaseerde, etiket-gebaseerde en ranglys-gebaseerde evalueringsmetings is gebruik om die effek van die hersteekproefnemingalgoritmes op multi-etiket klassifikasieprestasie te bepaal.	af_ZA
dc.description.version	Masters
dc.format.extent	159 pages : illustrations
dc.identifier.uri	http://hdl.handle.net/10019.1/124730
dc.language.iso	en_ZA	en_ZA
dc.publisher	Stellenbosch : Stellenbosch University
dc.rights.holder	Stellenbosch University
dc.subject	Statistics -- Data processing	en_ZA
dc.subject	Algorithms	en_ZA
dc.subject	Computer algorithms	en_ZA
dc.subject	UCTD
dc.title	Resampling algorithms for multi-label classification	en_ZA
dc.type	Thesis	en_ZA

Files

Original bundle

Now showing 1 - 1 of 1

Name:: kotze_resampling_2022.pdf
Size:: 10.37 MB
Format:: Adobe Portable Document Format
Description:

Download

Collections

Masters Degrees (Statistics and Actuarial Science)