Improving counting performance of densely flocked sheep in aerial imagery.

Date
2023-11
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: The use of machine learning and computer vision to count sheep in aerial images taken by an unmanned aerial vehicle (UAV) is explored. The aim is to develop sheep counting approaches which address the challenges related to high object densities and low object-to-image-pixel ratios encountered when using detection-based architectures and aerial images. A comprehensive review of state-of-the-art object detection and instance segmentation techniques and existing object counting approaches is presented. A novel dataset is generated and presented which contains aerial images and videos of sheep grazing in pastures, captured at an altitude of 30m. These images and videos contain scenes of non-uniform object (sheep) distributions and high object densities. A total of 13 different object detection and instance segmentation models are considered, and five of these models undergo hyperparameter optimisation and k-fold cross-validation. The five models are compared based on their crossvalidation mean average precision (mAP) scores on the novel dataset. The best-performing object detection model and instance segmentation model are shown to be Cascade R-CNN and hybrid task cascade (HTC), respectively. The non-uniform distribution of objects, high object densities and low objectto-image-pixel ratios in aerial images present challenges seen in both this dissertation and the literature. It was found that high object densities and low object-to-image-pixel ratios adversely affect counting performance. Two novel approaches are proposed that minimise these effects. The first approach, local density threshold shifting (LDTS), focuses on the challenges posed by high object densities. LDTS shifts the classification probability of each detection based on the density of that detection. This approach achieves an mean absolute error (MAE) and mean absolute percentage error (MAPE) of 26.50 sheep and 4.22%, respectively, on an unseen test dataset and reduces the overall counting error by 78.51% compared to the baseline counting approach. This approach has been published in the International Journal of Remote Sensing. The second approach, sub-window inference, focuses on increasing the object-to-image-pixel ratios of small objects taken in aerial images and videos. This approach utilises a novel cropping technique along with additional data augmentation during training to enhance performance. Sub-window inference achieves an MAE and MAPE of 3.21 sheep and 1.27%, respectively, on an unseen test video dataset, which is a 97.40% reduction in error compared to the baseline counting approach. Sub-window inference has been submitted to the journal Computers and Electronics in Agriculture.
AFRIKAANSE OPSOMMING: Die gebruik van masjienleer en rekenaarvisie om skape in lugbeelde geneem deur ’n onbemande lugvoertuig (OLV) te tel, word ondersoek. Die doel is om skaap-tel tegnieke te ontwikkel wat die uitdagings aanspreek wat verband hou met hoë voorwerp-digtheid en lae voorwerp-tot-beeld-pieksel-verhoudings wat ondervind word wanneer daar gebruik gemaak word van opsporingsgebaseerde argitekture en lugbeelde. ’n Omvattende oorsig van vooruitstrewende voorwerp-opsporings- en voorwerp-segmenteringstegnieke, konvolusionele neurale netwerke (KNN’s) en bestaande voorwerp-tel benaderings word voorgehou. ’n Nuwe datastel word gegenereer en aangebied wat lugbeelde en videos van skape wat in weiveld wei, afgeneem op ’n hoogte van 30m. Hierdie beelde en videos bevat tonele van nie-uniforme voorwerp (skape) verspreidings en hoë voorwerp-digtheid. ’n Totaal van 13 verskillende voorwerp-opsporings- en voorwerp-segmenteringmodelle word oorweeg, en vyf van hierdie modelle ondergaan hiperparametersoptimering en kvou kruisvalidering. Die vyf modelle word vergelyk op grond van hul kruisvalideringsgemiddelde gemiddelde presisie (GP)-tellings op die nuwe datastel. Die beste presterende voorwerp-opsporingsmodel en voorwerp-segmenteringsmodel is onderskeidelik “Cascade R-CNN” en “Hybrid Task Cascade” (HTC). Die nieuniforme verspreiding van voorwerpe, hoë voorwerp-digtheid en lae voorwerptot-beeld-pieksel-verhoudings in lugbeelde stel uitdagings voor wat gesien word in beide die proefskrif en die literatuur. Daar is bevind dat hoë voorwerpdigtheid en lae voorwerp-tot-beeld-pieksel-verhoudings die telvermoë negatief beïnvloed. Twee nuwe benaderings word voorgestel om hierdie effekte te minimaliseer. Die eerste benadering, “Local Density Threshold Shifting” (LDTS), fokus op die uitdagings wat hoë voorwerp-digtheid meebring. LDTS verskuif die klassifikasie waarskynlikheid van elke opsporing op grond van die digtheid van daardie opsporing. Hierdie benadering behaal ’n gemiddelde absoluutheid fout (GAF) en Gemiddelde absolutewaarde persentasie fout (GAPF) van onderskeidelik 26.50 skape en 4.22% op ’n ongesiene toetsdatastel en verminder die oorhoofse tel-fout met 78.51% in vergelyking met die basislyn-benadering. Hierdie benadering is gepubliseer in die International Journal of Remote Sensing. Die tweede benadering, “sub-window inference”, fokus op die verhoging van die voorwerp-tot-beeld-pieksel-verhoudings van klein voorwerpe wat in lugbeelde en videos geneem is. Hierdie benadering maak gebruik van ’n nuwe snytegniek tesame met addisionele data-augmentasie gedurende opleiding om prestasie te verbeter. “Sub-window Inference” behaal ’n GAF en GAPF van onderskeidelik 3.21 skape en 1.27% op ’n ongesiene toetsdatastel. Hierdie benadering is voorgelê aan die joernaal Computers and Electronics in Agriculture.
Description
Thesis (PhD)--Stellenbosch University, 2023.
Keywords
Citation