Multilingual acoustic word embeddings for zero-resource languages
Date
2023-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: Developing speech applications with neural networks require large amounts of transcribed speech data. The scarcity of labelled speech data therefore restricts the development of speech applications to only a few well-resourced languages. To address this problem, researchers are taking steps towards developing speech models for languages where no labelled data is available. In this zero-resource setting, researchers are developing methods that aim to learn meaningful linguistic structures from unlabelled speech alone. Many zero-resource speech applications require speech segments of different durations to be compared. Acoustic word embeddings (AWEs) are fixed-dimensional representations of variable-duration speech segments. Proximity in vector space should indicate similarity between the original acoustic segments. This allows fast and easy comparison between spoken words. To produce AWEs for a zero-resource language, one approach is to use unlabelled data from the target language. Another approach is to exploit the benefits of supervised learning by training a single multilingual AWE model on data from multiple well-resourced languages, and then applying the resulting model to an unseen target language. Previous studies have shown that the supervised multilingual transfer approach outperforms the unsupervised monolingual approach. However, the multilingual approach is still far from reaching the performance of supervised AWE approaches that are trained on the target language itself. In this thesis, we make five specific contributions to the development of AWE models and their downstream application. First, we introduce a novel AWE model called the Contrastive RNN. We compare this model against state-of-the-art AWE models. On a word discrimination task, we show that the Contrastive RNN outperforms all existing models in the unsupervised monolingual setting with an absolute Improvement in average precision ranging from 3.3% to 17.8% across six evaluation languages. In the multilingual transfer setting, the Contrastive RNN performs on par with existing models. As our second contribution, we propose a new adaptation strategy. After a multilingual model is trained, instead of directly applying it to a target language, we first _ne-tune the model using unlabelled data from the target language. The Contrastive RNN, although performing on par with multilingual variants, showed the highest increase after adaptation, giving an improvement of roughly 5% in average precision on five of the six evaluation languages. As our third contribution, we take a step back and question the effect a particular set of training languages have on a target language. We specifically investigate the impact of training a multilingual model on languages that belong to the same language family as the target language. We perform multiple experiments on African languages which show the benefit of using related languages over unrelated languages. For example, a multilingual model trained on one-tenth of the data from a related language outperforms a model trained on all the available training data from unrelated languages. As our fourth contribution, we showcase the applicability of AWEs by applying them to a real downstream task: we develop an AWE-based keyword spotting system (KWS) for hate speech detection in radio broadcasts. We validate performance using actual Swahili radio audio extracted from radio stations in Kenya, a country in Sub-Saharan Africa. In developmental experiments, our system falls short of a speech recognition based KWS system using five minutes of annotated target data. However, when applying the system to real in-the-wild radio broadcasts, our AWE-based system (requiring less than a minute of template audio) proves to be more robust, nearly matching the performance of a 30-hour speech recognition model. In the fifth and final contribution, we introduce three novel semantic AWE models. The goal here is that the resulting embeddings should not only be similar for words from the same type but also for words sharing contextual meaning, similar to how textual word embeddings are grouped together based on semantic relatedness. For instance, spoken instances of \football" and \soccer", although acoustically different, should have similar acoustic embeddings. We specifically propose leveraging a pre-trained multilingual AWE model to assist semantic modelling. Our best approach involves clustering word segments using a multilingual AWE model, deriving soft pseudo-word labels from the cluster centroids, and then training a classifier model on the soft vectors. In an intrinsic word similarity task measuring semantics, this multilingual transfer approach outperforms all previous semantic AWE methods. We also show for the first time that AWEs can be used for downstream semantic query-by-example search.
AFRIKAANSE OPSOMMING: Die ontwikkeling van spraaktoepassings met die gebruik van neurale netwerke vereis groot hoeveelhede geannoteerde spraakdata. Die tekort aan geannoteerde data beperk dus die ontwikkeling van spraaktoepassings tot slegs 'n paar tale waarvoor daar wel data beskikbaar is. Om hierdie probleem aan te spreek is navorsers besig om stappe te neem om spraakmodelle te ontwikkel vir tale waarvoor daar geen geannoteerde spraakdata beskikbaar is nie. In hierdie nul-hulpbron omgewing, ontwikkel navorsers metodes wat daarop gerig is om betekenisvolle taalkundige strukture uit ongeannoteerde spraak te leer. Baie nul-hulpbron spraaktoepassings vereis dat spraaksegmente van verskillende lengtes met mekaar vergelyk word. Akoestiese woordvektor (AWV) modelle projekteer spraaksegmente van arbitr^ere lengte na 'n enkele vektor. Nabyheid in hierdie vektorruimte moet 'n aanduiding gee van hoe soortgelyk die oorspronklike akoestiese segmente is. Dit laat toe dat gesproke woorde vinnig en maklik met mekaar vergelyk kan word. Een benadering om AWVe vir 'n nul-hulpbrontaal te produseer is om ongeannoteerde spaakdata van die teikentaal te gebruik. 'n Alternatiewe benadering is om die voordele van getoesigde leer te benut deur 'n enkele veeltalige AWV model af te rig op data van veelvuldige goedbefondsde tale, en dan gevolglik die model op 'n nul-hulpbon teikentaal toe te pas. Vorige studies het getoon dat die veeltalige oordragbenadering onder toesig beter resultate lewer as die eentalige benadering sonder toesig. Daar is egter 'n groot gaping tussen die kwaliteit van die veeltalige oordragbenadering AWVe in vergelyking met die kwaliteit van AWVe wat onder toesig afgerig is op data van die teikentaal. In hierdie tesis lewer ons vyf spesi_eke bydraes in die ontwikkeling van AWV modelle vir nul-hulpbrontale. Eerstens stel ons 'n nuwe AWV model bekend genaamd die ContrastiveRNN. Ons vergelyk hierdie model met bestaande AWV modelle. Op 'n woorddiskriminasietaak wys ons dat die ContrastiveRNN beter presteer as alle bestaande AWV modelle in die eentalige omgewing sonder toesig met 'n absolute verbetering in gemiddelde presisie wat wissel tussen 3.3% tot 17.8% oor ses evalueringstale. In die veeltalige oordragomgewing presteer die ContrastiveRNN op gelyke voet met bestaande modelle. Vir ons tweede bydrae stel ons 'n nuwe afrigstrategie voor. Nadat 'n veeltalige model afgerig is, in plaas daarvan om dit direk op 'n teikentaal toe te pas, verfyn ons eers die model deur gebruik te maak van ongeannoteerde data van die teikentaal. Alhoewel die ContrastiveRNN op gelyke voet met veeltalige variante presteer, toon dit die hoogste toename na aanpassing, met verbeteringe van ongeveer 5% in presisie op vyf van die ses evalueringstale. Vir ons derde bydrae neem ons 'n tree terug en bevraagteken die e_ek wat 'n bepaalde stel afrigtale op 'n teikentaal het. Ons ondersoek spesi_ek die impak wat die afrigtale in 'n veeltalige AWV model op die teikentaal het wanneer die afrigtale in dieselfde familie as die teikentaal is. Ons doen verskei eksperimente op Afrika-tale wat die voordeel van die gebruik van verwante tale bo onverwante tale toon. 'n Veeltalige model wat op een tiende van die data van 'n verwante taal afgerig is, presteer byvoorbeeld beter as 'n model wat afgerig is op al die beskikbare afrigdata van onverwante tale. Vir ons vierde bydrae ontwikkel ons 'n sleutelwoordopsporingstelsel wat gebruik maak van AWVe om haatspraak in radiouitsendings te identi_seer. Ons toets ons stelsel op regte radiouitsendings wat versamel is van radiostasies in Kenia. In ontwikkelingeksperimente presteer 'n automatiese spraakherkinnngstelsel, wat slegs vyf minute afrigdata van die teikentaal gebruik, beter as ons AWV gebaseerde stelsel. Nietemin bewys ons AWV gebaseerde stelsel (wat minder as 'n minuut se templaatwoorde benodig) sy robuustheid in praktiese toepassings op werklike radiouitsendings deur soortgelyk te presteer as 'n 30-uur spraakherkenningstelsel. Vir ons vyfde en _nale bydrae stel ons drie nuwe semantiese AWV modelle voor. Hierdie woordvektore behoort nie net soortgelyk te wees vir woorde van dieselfde tipe nie maar ook vir woorde wat kontekstuele betekenis deel, soortgelyk aan hoe teks gebaseerde woordvektore semantiese verhoudings weerspie el. Gesproke voorbeelde van byvoorbeeld, \voetbal" en \sokker", alhoewel hulle akoesties verskillend is, behoort soortgelyke woordvektore te h^e. Ons beste benadering behels die trosvorming van spraaksegmente deur gebruik te maak van 'n veeltalige AWV model. Ons gebruik dan die trossentro _ede om sagte pseudowoordetikette af te lei, wat daarna gebruik word om 'n klassi_seerdermodel af te rig. In 'n intrinsieke woordgelykheidstaak wat semantiek meet, presteer hierdie veeltalige oordragbenadering beter as alle vorige semantiese AWV metodes. Ons toon ook vir die eerste keer dat AWVe gebruik kan word vir semantiese soek-dmv-voorbeeld soektogte.
AFRIKAANSE OPSOMMING: Die ontwikkeling van spraaktoepassings met die gebruik van neurale netwerke vereis groot hoeveelhede geannoteerde spraakdata. Die tekort aan geannoteerde data beperk dus die ontwikkeling van spraaktoepassings tot slegs 'n paar tale waarvoor daar wel data beskikbaar is. Om hierdie probleem aan te spreek is navorsers besig om stappe te neem om spraakmodelle te ontwikkel vir tale waarvoor daar geen geannoteerde spraakdata beskikbaar is nie. In hierdie nul-hulpbron omgewing, ontwikkel navorsers metodes wat daarop gerig is om betekenisvolle taalkundige strukture uit ongeannoteerde spraak te leer. Baie nul-hulpbron spraaktoepassings vereis dat spraaksegmente van verskillende lengtes met mekaar vergelyk word. Akoestiese woordvektor (AWV) modelle projekteer spraaksegmente van arbitr^ere lengte na 'n enkele vektor. Nabyheid in hierdie vektorruimte moet 'n aanduiding gee van hoe soortgelyk die oorspronklike akoestiese segmente is. Dit laat toe dat gesproke woorde vinnig en maklik met mekaar vergelyk kan word. Een benadering om AWVe vir 'n nul-hulpbrontaal te produseer is om ongeannoteerde spaakdata van die teikentaal te gebruik. 'n Alternatiewe benadering is om die voordele van getoesigde leer te benut deur 'n enkele veeltalige AWV model af te rig op data van veelvuldige goedbefondsde tale, en dan gevolglik die model op 'n nul-hulpbon teikentaal toe te pas. Vorige studies het getoon dat die veeltalige oordragbenadering onder toesig beter resultate lewer as die eentalige benadering sonder toesig. Daar is egter 'n groot gaping tussen die kwaliteit van die veeltalige oordragbenadering AWVe in vergelyking met die kwaliteit van AWVe wat onder toesig afgerig is op data van die teikentaal. In hierdie tesis lewer ons vyf spesi_eke bydraes in die ontwikkeling van AWV modelle vir nul-hulpbrontale. Eerstens stel ons 'n nuwe AWV model bekend genaamd die ContrastiveRNN. Ons vergelyk hierdie model met bestaande AWV modelle. Op 'n woorddiskriminasietaak wys ons dat die ContrastiveRNN beter presteer as alle bestaande AWV modelle in die eentalige omgewing sonder toesig met 'n absolute verbetering in gemiddelde presisie wat wissel tussen 3.3% tot 17.8% oor ses evalueringstale. In die veeltalige oordragomgewing presteer die ContrastiveRNN op gelyke voet met bestaande modelle. Vir ons tweede bydrae stel ons 'n nuwe afrigstrategie voor. Nadat 'n veeltalige model afgerig is, in plaas daarvan om dit direk op 'n teikentaal toe te pas, verfyn ons eers die model deur gebruik te maak van ongeannoteerde data van die teikentaal. Alhoewel die ContrastiveRNN op gelyke voet met veeltalige variante presteer, toon dit die hoogste toename na aanpassing, met verbeteringe van ongeveer 5% in presisie op vyf van die ses evalueringstale. Vir ons derde bydrae neem ons 'n tree terug en bevraagteken die e_ek wat 'n bepaalde stel afrigtale op 'n teikentaal het. Ons ondersoek spesi_ek die impak wat die afrigtale in 'n veeltalige AWV model op die teikentaal het wanneer die afrigtale in dieselfde familie as die teikentaal is. Ons doen verskei eksperimente op Afrika-tale wat die voordeel van die gebruik van verwante tale bo onverwante tale toon. 'n Veeltalige model wat op een tiende van die data van 'n verwante taal afgerig is, presteer byvoorbeeld beter as 'n model wat afgerig is op al die beskikbare afrigdata van onverwante tale. Vir ons vierde bydrae ontwikkel ons 'n sleutelwoordopsporingstelsel wat gebruik maak van AWVe om haatspraak in radiouitsendings te identi_seer. Ons toets ons stelsel op regte radiouitsendings wat versamel is van radiostasies in Kenia. In ontwikkelingeksperimente presteer 'n automatiese spraakherkinnngstelsel, wat slegs vyf minute afrigdata van die teikentaal gebruik, beter as ons AWV gebaseerde stelsel. Nietemin bewys ons AWV gebaseerde stelsel (wat minder as 'n minuut se templaatwoorde benodig) sy robuustheid in praktiese toepassings op werklike radiouitsendings deur soortgelyk te presteer as 'n 30-uur spraakherkenningstelsel. Vir ons vyfde en _nale bydrae stel ons drie nuwe semantiese AWV modelle voor. Hierdie woordvektore behoort nie net soortgelyk te wees vir woorde van dieselfde tipe nie maar ook vir woorde wat kontekstuele betekenis deel, soortgelyk aan hoe teks gebaseerde woordvektore semantiese verhoudings weerspie el. Gesproke voorbeelde van byvoorbeeld, \voetbal" en \sokker", alhoewel hulle akoesties verskillend is, behoort soortgelyke woordvektore te h^e. Ons beste benadering behels die trosvorming van spraaksegmente deur gebruik te maak van 'n veeltalige AWV model. Ons gebruik dan die trossentro _ede om sagte pseudowoordetikette af te lei, wat daarna gebruik word om 'n klassi_seerdermodel af te rig. In 'n intrinsieke woordgelykheidstaak wat semantiek meet, presteer hierdie veeltalige oordragbenadering beter as alle vorige semantiese AWV metodes. Ons toon ook vir die eerste keer dat AWVe gebruik kan word vir semantiese soek-dmv-voorbeeld soektogte.
Description
Thesis (PhD)--Stellenbosch University, 2023.