Using transformers to assign ICD codes to medical notes
Date
2023-03
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: International Classification of Disease (ICD) coding plays a significant role in classifying morbidity and mortality rates. Currently, ICD codes are assigned to a patient’s medical record by hand by
medical practitioners or specialist clinical coders. This practice is prone to errors, and training skilled clinical coders requires time and human resources. Automatic prediction of ICD codes can help alleviate this burden.
In this research, we look at transformer-based architectures for predicting ICD codes. Firstly, we expand the size of an XLNet model with label-wise attention to determine whether an increase in model size leads to a better performing model. We also look at using two transformer-based
architectures that are specifically designed to handle long input sequences and compare the results from these architectures based on our best-performing XLNet model. Lastly, we look at the use of different attention mechanisms with our XLNet model to determine which attention mechanism works the best. We found the following three things: an increase in model size does lead to better results, XLNet performs better than the architectures designed for longer sequence lengths, and the label-wise attention used by our XLNet model performs better than the other attention mechanisms.
AFRIKAANS OPSOMMING: Internasionale Klassifikasie van Siektes (ICD)-kodering speel ’n beduidende rol in die klassifikasie van morbiditeit en sterftesyfers. Tans word ICD-kodes tot ’n pasi¨ent se mediese rekord met die hand deur mediese praktisyns of spesialis kliniese kodeerders toegeken. Hierdie praktyk is geneig tot foute, en opleiding van geskoolde kliniese kodeerders verg tyd en menslike hulpbronne. Outomatiese voorspelling van ICD-kodes kan help om hierdie las te verlig.In hierdie navorsing kyk ons na transformator-gebaseerde argitekture vir die voorspelling van ICDkodes. Eerstens brei ons die grootte van ’n XLNet-model uit met etiketwyse aandag om te bepaal of ’n toename in modelgrootte lei tot ’n beter presterende model. Ons kyk ook na die gebruik van twee transformator-gebaseerde argitekture wat spesifiek ontwerp is om lang invoerreekse te hanteer en vergelyk die resultate van hierdie argitekture gebaseer op ons beste presterende XLNet-model. Laastens kyk ons na die gebruik van verskillende aandagmeganismes met ons XLNet-model om te bepaal watter aandagmeganisme die beste werk. Ons het die volgende drie dinge gevind: ’n toename in modelgrootte lei wel tot beter resultate, XLNet presteer beter as die argitekture wat ontwerp is vir langer reekslengtes, en die etiketgewyse aandag wat deur ons XLNet-model gebruik word, presteer beter as die ander aandagmeganismes.
AFRIKAANS OPSOMMING: Internasionale Klassifikasie van Siektes (ICD)-kodering speel ’n beduidende rol in die klassifikasie van morbiditeit en sterftesyfers. Tans word ICD-kodes tot ’n pasi¨ent se mediese rekord met die hand deur mediese praktisyns of spesialis kliniese kodeerders toegeken. Hierdie praktyk is geneig tot foute, en opleiding van geskoolde kliniese kodeerders verg tyd en menslike hulpbronne. Outomatiese voorspelling van ICD-kodes kan help om hierdie las te verlig.In hierdie navorsing kyk ons na transformator-gebaseerde argitekture vir die voorspelling van ICDkodes. Eerstens brei ons die grootte van ’n XLNet-model uit met etiketwyse aandag om te bepaal of ’n toename in modelgrootte lei tot ’n beter presterende model. Ons kyk ook na die gebruik van twee transformator-gebaseerde argitekture wat spesifiek ontwerp is om lang invoerreekse te hanteer en vergelyk die resultate van hierdie argitekture gebaseer op ons beste presterende XLNet-model. Laastens kyk ons na die gebruik van verskillende aandagmeganismes met ons XLNet-model om te bepaal watter aandagmeganisme die beste werk. Ons het die volgende drie dinge gevind: ’n toename in modelgrootte lei wel tot beter resultate, XLNet presteer beter as die argitekture wat ontwerp is vir langer reekslengtes, en die etiketgewyse aandag wat deur ons XLNet-model gebruik word, presteer beter as die ander aandagmeganismes.
Description
Thesis (MSc)--Stellenbosch University, 2023.