Off-line signature verification using classifier ensembles and flexible grid features

Swanepoel, Jacques Philip (2009-12)

Thesis (MSc (Mathematical Sciences))—University of Stellenbosch, 2009.

Thesis presented in partial fulfilment of the requirements for the degree of Master of Science in applied mathematics at Stellenbosch University

Thesis

ENGLISH ABSTRACT: In this study we investigate the feasibility of combining an ensemble of eight continuous base classifiers for the purpose of off-line signature verification. This work is mainly inspired by the process of cheque authentication within the banking environment. Each base classifier is constructed by utilising a specific local feature, in conjunction with a specific writer-dependent signature modelling technique. The local features considered are pixel density, gravity centre distance, orientation and predominant slant. The modelling techniques considered are dynamic time warping and discrete observation hidden Markov models. In this work we focus on the detection of high quality (skilled) forgeries. Feature extraction is achieved by superimposing a grid with predefined resolution onto a signature image, whereafter a single local feature is extracted from each signature sub-image corresponding to a specific grid cell. After encoding the signature image into a matrix of local features, each column within said matrix represents a feature vector (observation) within a feature set (observation sequence). In this work we propose a novel flexible grid-based feature extraction technique and show that it outperforms existing rigid grid-based techniques. The performance of each continuous classifier is depicted by a receiver operating characteristic (ROC) curve, where each point in ROC-space represents the true positive rate and false positive rate of a threshold-specific discrete classifier. The objective is therefore to develope a combined classifier for which the area-under-curve (AUC) is maximised -or for which the equal error rate (EER) is minimised. Two disjoint data sets, in conjunction with a cross-validation protocol, are used for model optimisation and model evaluation. This protocol avoids possible model overfitting, and also scrutinises the generalisation potential of each classifier. During the first optimisation stage, the grid configuration which maximises proficiency is determined for each base classifier. During the second optimisation stage, the most proficient ensemble of optimised base classifiers is determined for several classifier fusion strategies. During both optimisation stages only the optimisation data set is utilised. During evaluation, each optimal classifier ensemble is combined using a specific fusion strategy, and retrained and tested on the separate evaluation data set. We show that the performance of the optimal combined classifiers is significantly better than that of the optimal individual base classifiers. Both score-based and decision-based fusion strategies are investigated, which includes a novel extension to an existing decision-based fusion strategy. The existing strategy is based on ROC-statistics of the base classifiers and maximum likelihood estimation. We show that the proposed elitist maximum attainable ROC-based strategy outperforms the existing one.

AFRIKAANSE OPSOMMING: In hierdie projek ondersoek ons die haalbaarheid van die kombinasie van agt kontinue basis-klassifiseerders, vir statiese handtekeningverifikasie. Hierdie werk is veral relevant met die oog op die bekragtiging van tjeks in die bankwese. Elke basis-klassifiseerder word gekonstrueer deur ’n spesifieke plaaslike kenmerk in verband te bring met ’n spesifieke skrywer-afhanklike handtekeningmodelleringstegniek. Die plaaslike kenmerke sluit pikseldigtheid, swaartepunt-afstand, oriëntasie en oorheersende helling in, terwyl die modelleringstegnieke dinamiese tydsverbuiging en diskrete verskuilde Markov modelle insluit. Daar word op die opsporing van hoë kwaliteit vervalsings gefokus. Kenmerk-onttreking word bewerkstellig deur die superponering van ’n rooster van voorafgedefinieerde resolusie op ’n bepaalde handtekening. ’n Enkele plaaslike kenmerk word onttrek vanuit die betrokke sub-beeld geassosieer met ’n spesifieke roostersel. Nadat die handtekeningbeeld na ’n matriks van plaaslike kenmerke getransformeer is, verteenwoordig elke kolom van die matriks ’n kenmerkvektor in ’n kenmerkstel. In hierdie werk stel ons ’n nuwe buigsame rooster-gebasseerde kenmerk-ontrekkingstegniek voor en toon aan dat dit die bestaande starre rooster-gebasseerde tegnieke oortref. Die prestasie van elke kontinue klassifiseerder word voorgestel deur ’n ROC-kurwe, waar elke punt in die ROC-ruimte die ware positiewe foutkoers en vals positiewe foutkoers van ’n drempel-spesifieke diskrete klassifiseerder verteenwoordig. Die doelwit is derhalwe die ontwikkeling van ’n gekombineerde klassifiseerder, waarvoor die area onder die kurwe (AUC) gemaksimeer word - of waarvoor die gelyke foutkoers (EER) geminimeer word. Twee disjunkte datastelle en ’n kruisverifi¨eringsprotokol word gebruik vir model optimering en model evaluering. Hierdie protokol vermy potensiële model-oorpassing, en ondersoek ook die veralgemeningspotensiaal van elke klassifiseerder. Tydens die eerste optimeringsfase word die rooster-konfigurasie wat die bekwaamheid van elke basis-klassifiseerder maksimeer, gevind. Tydens die tweede optimeringsfase word die mees bekwame groepering van geoptimeerde basis-klassifiseerders gevind vir verskeie klassifiseerder fusiestrategieë. Tydens beide optimeringsfases word slegs die optimeringsdatastel gebruik. Tydens evaluering word elke optimale groep klassifiseerders gekombineer met ’n spesifieke fusie-strategie, her-afgerig en getoets op die aparte evalueringsdatastel. Ons toon aan dat die prestasie van die optimale gekombineerde klassifiseerder aansienlik beter is as dié van die optimale individuele basis-klassifiseerders. Beide telling- en besluit-gebaseerde fusie-strategieë word ondersoek, insluitend ’n nuwe uitbreiding van ’n bestaande besluit-gebasseerde kombinasie strategie. Die bestaande strategie is gebaseer op die ROC-statistiek van die basis-klassifiseerders en maksimum aanneemlikheidsberaming. Ons toon aan dat die voorgestelde elitistiese maksimum haalbare ROC-gebasseerde strategie die bestaande strategie oortref.

Please refer to this item in SUNScholar by using the following persistent URL: http://hdl.handle.net/10019.1/3218
This item appears in the following collections: