Low-resource image captioning

dc.contributor.advisorBrink, Willieen_ZA
dc.contributor.authorDu Plessis, Mikkelen_ZA
dc.contributor.otherStellenbosch University. Faculty of Science. Dept. of Applied Mathematics.en_ZA
dc.date.accessioned2022-11-22T08:27:16Zen_ZA
dc.date.accessioned2023-01-16T12:47:57Zen_ZA
dc.date.available2022-11-22T08:27:16Zen_ZA
dc.date.available2023-01-16T12:47:57Zen_ZA
dc.date.issued2022-12en_ZA
dc.descriptionThesis (MSc) -- Stellenbosch University, 2022.en_ZA
dc.description.abstractENGLISH ABSTRACT: Image captioning combines computer vision and natural language processing, and aims to automatically generate a short natural language phrase that describes relationships between objects and context within a given image. As the field of deep learning evolves, several approaches have produced impressive models and generally follow an encoder-decoder architecture. An encoder is utilised for visual cues and a textual decoder to produce a final caption. This can create a challenging gap between visual and textual representations, and makes the training of image captioning models resource intensive. Consequently, recent image captioning models have relied on a steady increase of training set size, computing requirements and training times. This thesis explores the viability of two model architectures for the task of image captioning in a low-resource scenario. We focus specifically on models that can be trained on a single consumer-level GPU in under 5 hours, using only a few thousand images. Our first model is a conventional image captioning model with a pre-trained convolutional neural network as the encoder, followed by an attention mechanism, and an LSTM as the decoder. Our second model utilises a Transformer in the encoder and the decoder. Additionally, we propose three auxiliary techniques that aim to extract more information from images and training captions with only marginal computational overhead. Firstly, we address the typical sparseness in object and scene representation by taking advantage of top-down and bottom-up features, in order to present the decoder with richer visual information and context. Secondly, we suppress semantically unlikely caption candidates during the decoder’s beam search procedure through the inclusion of a language model. Thirdly, we enhance the expressiveness of the model by augmenting training captions with a paraphrase generator. We find that the Transformer-based architecture is superior under low-data circumstances. Through a combination of all proposed methods applied, we achieve state-of-the-art performance on the Flickr8k test set and surpass existing recurrent-based methods. To further validate the generalisability of our models, we train on small, randomly sampled subsets of the MS COCO dataset and achieve competitive test scores compared to existing models trained on the full dataset.en_ZA
dc.description.abstractAFRIKAANS OPSOMMING: Beeldonderskrifte kombineer rekenaarvisie en natuurlike taalverwerking, en is daarop gemik om outomaties ’n kort natuurlike taalfrase te genereer wat die verhoudings tussen voorwerpe en konteks binne ’n gegewe beeld beskryf. Met die groei van diepleer as ’n veld, lewer verskeie benaderings nou indruk wekkende modelle, en volg gewoonlik ’n enkodeerder-dekodeerder-argitektuur. ’n Enkodeerder word gebruik vir visuele kenmerke en ’n tekstuele dekodeerder om ’n finale onderskrif te produseer. Dit kan ’n uitdagende gaping tussen visuele en tekstuele voorstellings skep, wat die afrigting van beeldonderskrifte modelle hulpbron-intensief maak. Gevolglik het onlangse modelle staatgemaak op groot opleidingsstelle, rekenaarvereistes en opleidingstye. Hierdie tesis ondersoek die lewensvatbaarheid van twee modelargitekture vir die taak van beeldonderskrifte in ’n scenario met beperkte bronne. Ons fokus spesifiek op modelle wat in minder as 5 ure op ’n enkele verbruikervlak GPU opgelei kan word, met slegs ’n paar duisend beelde. Ons eerste model is ’n konvensionele beeldonderskrifmodel met ’n vooraf-afgerigte konvolusionele neurale netwerk as die enkodeerder, gevolg deur ’n aandagmeganisme, en ’n LSTM as die dekodeerder. Ons tweede model gebruik ’n Transformator in die enkodeerder en die dekodeerder. Daarbenewens stel ons drie hulptegnieke voor wat daarop gemik is om bykomende inligting uit beelde en opleidingson derskrifte te onttrek met slegs marginale berekeningskoste. Eerstens spreek ons die tipiese ylheid in voorwerp- en toneelvoorstelling aan deur voordeel te trek uit bo-na-onder en onder-na-bo-kenmerke, om die dekodeerder met ryker visuele inligting en konteks te voorsien. Tweedens onderdruk ons semanties onwaarskynlike onderskrifkandidate tydens die dekodeerder se straalsoek prosedure deur die insluiting van ’n taalmodel. Derdens verbeter ons die ekspressiwiteit van die model deur opleidingsonderskrifte aan te vul met ’n parafrasegenerator. Ons vind dat die Transformator-gebaseerde argitektuur beter vaar onder lae-data-omstandighede. Deur ’n kombinasie van alle voorgestelde metodes wat toegepas word, bereik ons die beste resultaat op die Flickr8k-toetsstel en oortref ons bestaande rekursie-gebaseerde metodes. Om die veralgemeenbaar heid van ons modelle verder te evalueer, rig ons hulle af op klein, ewekansige subversamelings van die MS COCO-datastel en behaal mededingende toet sresultate in vergelyking met bestaande modelle wat met die volle datastel opgelei is.af_ZA
dc.description.versionMastersen_ZA
dc.format.extentvi, 82 pages : illustrationsen_ZA
dc.identifier.urihttp://hdl.handle.net/10019.1/126059en_ZA
dc.language.isoen_ZAen_ZA
dc.publisherStellenbosch : Stellenbosch Universityen_ZA
dc.rights.holderStellenbosch Universityen_ZA
dc.subjectNatural language processing (Computer science)en_ZA
dc.subjectDeep learning (Machine learning)en_ZA
dc.subjectComputer visionen_ZA
dc.subjectImaging systems in architectureen_ZA
dc.subjectArchitectural modelsen_ZA
dc.subjectEncoder-decoder architectureen_ZA
dc.subjectUCTDen_ZA
dc.titleLow-resource image captioningen_ZA
dc.typeThesisen_ZA
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
duplessis_low_2022.pdf
Size:
11.85 MB
Format:
Adobe Portable Document Format
Description: