Improving the generalisabiility of a deep learning model for global forest classification through image normalisation, enhancement and augmentation

Date
2022-12
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: Effectively managing global forest resources, under threat from climate change, deforestation and fragmentation, requires the efficient extraction of a global tree cover dataset. The purpose of this research was to identify image enhancement and data augmentation methods that would improve the generalisability of a deep learning model for the classification of global tree cover. In the first experiment we aimed to improve the accuracy of a deep learning model for global forest classification using Sentinel 2 optical data. We present several image enhancement methods widely used in natural image classification and biomedical imaging domains, including histogram equalisation (HE), contrast limited adaptive histogram equalisation (CLAHE) and global contrast normalisation (GCN), as pre-processing steps. The enhancement methods were compared with each other on a per biome basis, and both training and validation regions were selected to represent the heterogeneity within biomes. Selected images were captured within the local optimal foliage growing season and contained minimal or no clouds. A U-Net convolutional neural network model was trained for each enhancement per biome and used to perform inference on validation images for each of the corresponding biomes and enhancements. Random stratified samples were collated for all validation images per biome per enhancement for statistical analysis. Only GCN and CLAHE RGB returned higher means than the baseline dataset. The results showed that GCN most consistently improved classification results for tree cover across biomes, possibly due to the standardization of contrast levels of the training and validation images. In the absence of accurately annotated training data for tree segmentation, training a robust, deep learning model for global tree cover classification remains a challenge. As its first objective, experiment 2 evaluated basic data augmentation methods and prediction frameworks that might lead to achieving an accurate, global tree cover classification. A training dataset was artificially inflated using common geometric and colour data augmentation methods borrowed from the computer vision domain. Their effectiveness in improving the generalisability of a U-Net model for tree classification was tested. Both geometric and colour augmentations, when applied individually, showed improvements in model accuracy. When applied together, the combined augmentations showed only marginal improvements over the individually applied augmentations. The second objective was to test two approaches towards achieving a global tree classification. The first was a model per biome approach, whereby a model was trained with data derived only from the respective biome. The second involved training a single globally representative model with training data from all biomes combined. This resulted in higher MCC scores than the multi-model approach. The diversity in training data appeared to increase model robustness. Thus, it was found that training a single, globally representative model with a combination of colour and geometric augmentations led to an effective framework to infer a global tree classification
AFRIKAANSE OPSOMMING: Om woude regoor die wêreld, wat gebuk gaan onder die bedreiging van klimaatsverandering, ontbossing en fragmentasie, effektief te bestuur, vereis die doeltreffende skepping van 'n wêreldwye boombedekkingdatastel. Die doel van hierdie navorsing is om beeldverbetering en datavergrotingsmetodes te identifiseer wat die veralgemeenbaarheid van 'n diepleermodel vir die klassifikasie van wêreldwye boombedekking sal verbeter. In die eerste eksperiment het ons daarop gemik om die akkuraatheid van 'n diepleermodel vir wêreldwye woudklassifikasie te verbeter deur Sentinel-2 optiese data te gebruik. Ons bied verskeie beeldverbeteringsmetodes aan wat wyd gebruik word in natuurlike beeldklassifikasie en biomediese beeldingsdomeine, insluitend histogramgelykmaking (HE), kontrasbeperkte aanpasbare histogramgelykmaking (CLAHE) en globale kontrasnormalisering (GCN), as voorverwerkingstappe. Die verbeteringsmetodes is met mekaar vergelyk op 'n per-bioom basis, en beide opleiding- en validasiestreke is gekies om die heterogeniteit binne biome te verteenwoordig. Gekose beelde is binne die plaaslike groeiseisoen vasgelê en het geen of baie min wolke bevat. 'n U-Net konvolusionele neurale netwerkmodel is opgelei vir elke beeldverbetering per bioom en is gebruik om afleidings oor validasiebeelde vir elk van die ooreenstemmende biome en verbeterings uit te voer. Ewekansige gestratifiseerde steekproewe is vir alle validasiebeelde per bioom en per beeldverbetering vir statistiese analise ingesamel. Slegs GCN en CLAHE RGB het hoër gemiddeldes as die basislyndatastel opgelewer. Die resultate het getoon dat GCN die klassifikasie van boombedekking oor biome konsekwent verbeter het, moontlik as gevolg van die standaardisering van kontrasvlakke van die opleiding- en validasiebeelde. In die afwesigheid van akkuraat geannoteerde opleidingsdata vir boomsegmentering, bly die opleiding van 'n robuuste, diepleermodel vir wêreldwye boombedekkingklassifikasie 'n uitdaging. As ‘n eerste doelwit het die tweede eksperiment basiese datavergrotingsmetodes en voorspellingsraamwerke geëvalueer wat kan lei tot 'n akkurate, wêreldwye klassifikasie van boombedekking. 'n Opleidingsdatastel is kunsmatig vergroot deur gebruik te maak van algemene meetkundige en kleurdatavergrotingsmetodes wat van die rekenaarvisiedomein geleen is. Hulle doeltreffendheid in die verbetering van die veralgemeenbaarheid van 'n U-Net-model vir boomklassifikasie is getoets. Beide geometriese en kleurdatavergrotings het verbeterings in modelakkuraatheid getoon wanneer dit individueel toegepas is. Wanneer dit saam toegepas is, het die gekombineerde aanvullings slegs minimale verbeterings getoon teenoor die individueel toegepaste aanvullings. Die tweede doelwit was om twee benaderings tot die bereiking van 'n wêreldwye boomklassifikasie te toets. Die eerste benadering tot die probleem was een model per bioom, waar die model opgelei is met data wat slegs van die onderskeie bioom verkry is. Die tweede benadering behels die opleiding van 'n enkele wêreldwye verteenwoordigende model met opleidingsdata van alle biome gekombineer. Dit het gelei tot hoër MCC-tellings as die multi-model benadering. Dit blyk dat die diversiteit in opleidingsdata die robuustheid van die model verhoog het. Dit is daarom bevind dat die opleiding van 'n enkele, wêreldwyd-verteenwoordigende model met 'n kombinasie van kleur en geometriese datavergrotings gelei het tot 'n effektiewe raamwerk om 'n wêreldwye boomklassifikasie te skep.
Description
Thesis (MA)--Stellenbosch University, 2023.
Keywords
Citation