Low-resource image captioning

Date
2022-12
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: Image captioning combines computer vision and natural language processing, and aims to automatically generate a short natural language phrase that describes relationships between objects and context within a given image. As the field of deep learning evolves, several approaches have produced impressive models and generally follow an encoder-decoder architecture. An encoder is utilised for visual cues and a textual decoder to produce a final caption. This can create a challenging gap between visual and textual representations, and makes the training of image captioning models resource intensive. Consequently, recent image captioning models have relied on a steady increase of training set size, computing requirements and training times. This thesis explores the viability of two model architectures for the task of image captioning in a low-resource scenario. We focus specifically on models that can be trained on a single consumer-level GPU in under 5 hours, using only a few thousand images. Our first model is a conventional image captioning model with a pre-trained convolutional neural network as the encoder, followed by an attention mechanism, and an LSTM as the decoder. Our second model utilises a Transformer in the encoder and the decoder. Additionally, we propose three auxiliary techniques that aim to extract more information from images and training captions with only marginal computational overhead. Firstly, we address the typical sparseness in object and scene representation by taking advantage of top-down and bottom-up features, in order to present the decoder with richer visual information and context. Secondly, we suppress semantically unlikely caption candidates during the decoder’s beam search procedure through the inclusion of a language model. Thirdly, we enhance the expressiveness of the model by augmenting training captions with a paraphrase generator. We find that the Transformer-based architecture is superior under low-data circumstances. Through a combination of all proposed methods applied, we achieve state-of-the-art performance on the Flickr8k test set and surpass existing recurrent-based methods. To further validate the generalisability of our models, we train on small, randomly sampled subsets of the MS COCO dataset and achieve competitive test scores compared to existing models trained on the full dataset.
AFRIKAANS OPSOMMING: Beeldonderskrifte kombineer rekenaarvisie en natuurlike taalverwerking, en is daarop gemik om outomaties ’n kort natuurlike taalfrase te genereer wat die verhoudings tussen voorwerpe en konteks binne ’n gegewe beeld beskryf. Met die groei van diepleer as ’n veld, lewer verskeie benaderings nou indruk wekkende modelle, en volg gewoonlik ’n enkodeerder-dekodeerder-argitektuur. ’n Enkodeerder word gebruik vir visuele kenmerke en ’n tekstuele dekodeerder om ’n finale onderskrif te produseer. Dit kan ’n uitdagende gaping tussen visuele en tekstuele voorstellings skep, wat die afrigting van beeldonderskrifte modelle hulpbron-intensief maak. Gevolglik het onlangse modelle staatgemaak op groot opleidingsstelle, rekenaarvereistes en opleidingstye. Hierdie tesis ondersoek die lewensvatbaarheid van twee modelargitekture vir die taak van beeldonderskrifte in ’n scenario met beperkte bronne. Ons fokus spesifiek op modelle wat in minder as 5 ure op ’n enkele verbruikervlak GPU opgelei kan word, met slegs ’n paar duisend beelde. Ons eerste model is ’n konvensionele beeldonderskrifmodel met ’n vooraf-afgerigte konvolusionele neurale netwerk as die enkodeerder, gevolg deur ’n aandagmeganisme, en ’n LSTM as die dekodeerder. Ons tweede model gebruik ’n Transformator in die enkodeerder en die dekodeerder. Daarbenewens stel ons drie hulptegnieke voor wat daarop gemik is om bykomende inligting uit beelde en opleidingson derskrifte te onttrek met slegs marginale berekeningskoste. Eerstens spreek ons die tipiese ylheid in voorwerp- en toneelvoorstelling aan deur voordeel te trek uit bo-na-onder en onder-na-bo-kenmerke, om die dekodeerder met ryker visuele inligting en konteks te voorsien. Tweedens onderdruk ons semanties onwaarskynlike onderskrifkandidate tydens die dekodeerder se straalsoek prosedure deur die insluiting van ’n taalmodel. Derdens verbeter ons die ekspressiwiteit van die model deur opleidingsonderskrifte aan te vul met ’n parafrasegenerator. Ons vind dat die Transformator-gebaseerde argitektuur beter vaar onder lae-data-omstandighede. Deur ’n kombinasie van alle voorgestelde metodes wat toegepas word, bereik ons die beste resultaat op die Flickr8k-toetsstel en oortref ons bestaande rekursie-gebaseerde metodes. Om die veralgemeenbaar heid van ons modelle verder te evalueer, rig ons hulle af op klein, ewekansige subversamelings van die MS COCO-datastel en behaal mededingende toet sresultate in vergelyking met bestaande modelle wat met die volle datastel opgelei is.
Description
Thesis (MSc) -- Stellenbosch University, 2022.
Keywords
Natural language processing (Computer science), Deep learning (Machine learning), Computer vision, Imaging systems in architecture, Architectural models, Encoder-decoder architecture, UCTD
Citation