Array completion methods for thermodynamic data generation

Date
2023-12
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: This investigation considered the viability of array completion methods (ACMs), a class of machine learning method, for pseudo-data generation for thermodynamic properties. The purpose of the pseudo-data generation was to aid thermodynamic model development, such as that of complex equations of state used in the development and optimisation of processes in the chemical engineering industry. The property of the excess enthalpy of binary liquid mixtures was used for this investigation. This property has significant variations in behaviour that are difficult to predict accurately. Excess enthalpy data are expensive to produce with experimental methods, and, thus, the machine learning method of array completion aims to reduce this expense. The ACM was proposed as opposed to other machine learning methods as it is purely data-driven, therefore, does not require descriptors, and works well with sparse datasets. ACMs operate solely on the data available within the array, making data quality a critical factor for optimal outcomes. A meticulous data collection effort was undertaken to achieve the overarching goal of pseudo-data generation. Reliable excess enthalpy data was collected for binary liquid mixtures encompassing various temperature conditions. The array of excess enthalpy data had 4 dimensions or ways, including the mixtures’ two components on the first two ways and the mixtures’ composition and temperature conditions on the third and fourth ways, respectively. The study involved the exploration of three ACMs, using singular value decomposition (SVD) for 2-way or matrix completion methods (MCM) and higher-order SVD (HOSVD) for 3- and 4-way completion. When used in conjunction with UNIFAC predictions, the MCM outperformed the standalone UNIFAC model. Notably, it is found that a rank of ses for the decomposition suffices for completing the excess enthalpy data array. The research demonstrated, however, that the 3-way and 4-way ACMs did not apply to the excess enthalpy data. The MCM was, therefore, applied on 2-way or matrix slices of the array formed at discrete temperature and composition conditions. The slices were related via a constraint when completing matrix slices in parallel, ensuring smooth predictions across composition. This adjustment to the MCM significantly improved prediction quality and allowed the MCM to be successfully applied to matrices of constant temperature and composition conditions. The optimal pattern of missing entries for pseudo-data generation was found to be randomly missing entries, as opposed to systematically entries. Therefore, the concept of targeted measurements is proposed. This involves directing thermodynamic experiments towards creating randomly missing patterns of entries in arrays. This fills sparse areas of the arrays as well, allowing the MCM to be applied for better quality pseudo-data at a lower cost than experimentation. This circumvention of the limitations imposed by data sparsity could enrich the training data for thermodynamic models and enhance their predictive capabilities. The efficacy of the MCM was also found to rely on initial guesses for missing entries in an array. The research demonstrated the synergy of ACMs with UNIFAC, where the group contribution method provided initial guesses for the MCM, resulting in a hybrid thermodynamic-machine learning method. These informed initial guesses also provided insight into the interpretation of pseudo-data sets, as UNIFAC provides informed estimations for the dataset and can, thus, provide quick checks to users of the MCM. The efficacy of the MCM for varied thermodynamic complexity was also investigated, using the mathematical and thermodynamic descriptions of the data. This included investigating behaviour for the functional groups present in a mixture and other measures of the complexity of mixture behaviour. The MCM recognised underlying patterns inherent in thermodynamic theory, and grouped systems based on their behaviour. The mixture complexity played a small role in prediction accuracy, as mixtures of varied complexity required the same rank for optimal completion. It was, instead, clear that the distribution of data and the presence of similar mixtures played a more pivotal role in predicting the accuracy of the pseudo-data generated. The implications of the study extend to future research. While effective, the MCM employed in this study warrants further refinement, possibly by incorporating fundamental knowledge and robust statistical motivations. This research contributes to understanding how ACMs can be used for pseudo-data generation for composition-dependent thermodynamic properties. The investigation used the excess enthalpy of binary liquid mixtures, a difficult-to-predict property, and succeeded, demonstrating the MCMs efficacy.
AFRIKAANSE OPSOMMING: Hierdie ondersoek oorweeg die lewensvatbaarheid van rangskikkingsvoltooiingsmetodes (ACMs), ’n klas van masjienleermetode, vir pseudodatagenerasie vir termodinamiese eienskappe. Die doel van die pseudodatagenerasie was om termodinamiese modelontwikkeling by te staan, soos die van komplekse vergelykings van toestand gebruik in die ontwikkeling en optimering van prosesse in die chemiese ingenieursindustrie. Die eienskap van die oormaat entalpie van binêre vloeistofmengsels is gebruik vir hierdie ondersoek. Hierdie eienskap het beduidende variasies in gedrag wat moeilik is om akkuraat te voorspel. Oormaat entalpiedata is duur om te genereer met eksperimentele metodes, en dus, die masjienleermetode van rangskikkingvolooiing het ten doel om hierdie onkoste te verminder. Die ACM is voorgestel teenoor ander masjienleermetodes omdat dit suiwer data-gedrewe is, daarom benodig dit nie beskrywers nie, en werk goed met yl datastelle. ACMe werk alleenlik op die data beskikbaar binne die rangskikking, wat datakwaliteit ’n kritiese faktor vir optimale uitkomste maak. ’n Nougesette dataversamelingspoging is onderneem om die oorkoepelende doel van pseudodatagenerasie te bereik. Betroubare oormaat entalpiedata is versamel vir binêre vloeistofmengsels wat verskeie temperatuurkondisies omvat. Die rangskikking van oormaat entalpiedata het vier dimensies of weë, insluitend die mengsel se twee komponente op die eerste twee weë en mengsel se samestelling en temperatuurkondisies op die derde en vierde weë, onderskeidelik. Die studie het die verkenning van drie ACMe ingesluit, wat enkel waarde ontbinding (SVD) vir 2-weg of matriksvoltooiingmetodes (MCM) en hoër orde SVD (HOSVD) vir 3- en 4-weg voltooiing. Wanneer dit saam met UNIFAC-voorspellings gebruik word, doen die alleenstaande UNIFAC-model beter. Merkbaar is dit gevind dat ’n rang van ses vir die ontbinding voldoende is vir voltooiing van die oormaat entalpiedatarangskikking. Die navorsing het egter gedemonstreer dat die 3-weg en 4-weg ACMe nie van toepassing is op die oormaat entalpiedata nie. Die MCM was, daarom, toegepas op 2-weg of matrikssnye van die rangskikking gevorm by diskrete temperatuur en samestellingskondisies. Die snye is verwant via ’n beperking wanneer matrikssnye in parallel voltooi word, wat verseker dat voorspellings oor samestelling glad is. Hierdie aanpassing aan die MCM het voorspellingskwaliteit beduidend verbeter en die MCM toegelaat om suksesvol op matrikse van konstante temperatuur en komposisiekondisies toe te pas. Die optimale patroon van vermiste inskrywings vir pseudodatagenerasie is gevind om lukraak vermiste inskrywings te wees, teenoor sistematiese vermiste inskrywings. Daarom is die konsep van doelwitmates voorgestel. Dit sluit aanwysing van termodinamiese eksperimente in na skepping van lukrake vermiste patrone van inskrywings in rangskikkings. Hierdie vul yl areas in die rangskikkings in sowel as om die MCM toe te pas vir beter kwaliteit pseudodata teen ’n laer koste as eksperimentasie. Hierdie omseiling van die beperkinge opgelê deur dataskaarsheid kan die opleidingsdata vir termodinamiese modelle verryk en hul voorspellingsvermoë verbeter. Die doeltreffendheid van die MCM is ook gevind om op aanvanklike raaiskote vir vermiste inskrywings in ’n rangskikking staat te maak. Die navorsing het gedemonstreer dat die sinergie van ACMe met UNIFAC, waar die groepbydrametode aanvanklike raaiskote vir die MCM verskaf het, tot ’n hibriede termodinamiese-masjienleermetode gelei het. Hierdie ingeligte aanvanklike raaiskote het ook insig verskaf in die interpretasie van pseudodatastelle, soos UNIFAC-ingeligte beramings vir die datastelle verskaf het, en kan, dus, vinnige toetse aan die gebruiker van die MCM verskaf. Die doeltreffendheid van die MCM vir gevarieerde termodinamiese kompleksiteit is ook ondersoek, deur die wiskundige en termodinamiese beskrywings van die data te gebruik. Hierdie het die ondersoek in gedrag vir die funksionele groepe teenwoordig in ’n mengsel en ander mates van die kompleksiteit van mengselgedrag, ingesluit. Die MCM het onderliggende patrone inherent aan termodinamikateorie herken, en sisteme saam gegroepeer gebaseer op hul gedrag. Die mengselkompleksiteit het ’n klein rol in voorspellingsakkuraatheid gespeel, omdat mengsels van verskillende kompleksiteite dieselfde rang vir optimale voltooiing vereis het. Dit was, eerder, duidelik dat die verspreiding van data en die teenwoordigheid van soortgelyke mengsels ’n meer sentrale rol in voorspelling van die akkuraatheid van die pseudodata gegeneer, gespeel het. Die implikasies van die studie strek na toekomstige navorsing. Terwyl doeltreffend, moet die MCM gebruik in hierdie studie verder verfyn word, moontlik deur die inkorporasie van fundamentele kennis en robuuste statistiese motiverings. Hierdie navorsing dra by tot die verstaan van hoe ACMe gebruik kan word vir pseudodatagenerasie vir komposisie-afhanklike termodinamiese eienskappe. Die ondersoek het die oormaat entalpie van binêre vloeistofmengsels gebruik, ’n moeilik-om-te-voorspel-eienskap, en daarin geslaag, wat die MCMe se doeltreffendheid demonstreer.
Description
Thesis (MEng)--Stellenbosch University, 2023.
Keywords
Citation