Structure learning of gene interaction networks

Jones, Piet

Structure learning of gene interaction networks

Files

jones_structure_2014.pdf(3.45 MB)

Date

2014-04

Authors

Jones, Piet

Publisher

Stellenbosch : Stellenbosch University

Abstract

ENGLISH ABSTRACT: There is an ever increasing wealth of information that is being generated regarding biological systems, in particular information on the interactions and dependencies of genes and their regulatory process. It is thus important to be able to attach functional understanding to this wealth of information. Mathematics can potentially provide the tools needed to generate the necessary abstractions to model the complex system of gene interaction. Here the problem of uncovering gene interactions is cast in several contexts, namely uncovering gene interaction patterns using statistical dependence, cooccurrence as well as feature enrichment. Several techniques have been proposed in the past to solve these, with various levels of success. Techniques have ranged from supervised learning, clustering analysis, boolean networks to dynamical Bayesian models and complex system of di erential equations. These models attempt to navigate a high dimensional space with challenging degrees of freedom. In this work a number of approaches are applied to hypothesize a gene interaction network structure. Three di erent models are applied to real biological data to generate hypotheses on putative biological interactions. A cluster-based analysis combined with a feature enrichment detection is initially applied to a Vitis vinifera dataset, in a targetted analysis. This model bridges a disjointed set of putatively co-expressed genes based on signi cantly associated features, or experimental conditions. We then apply a cross-cluster Markov Blanket based model, on a Saccharomyces cerevisiae dataset. Here the disjointed clusters are bridged by estimating statistical dependence relationship across clusters, in an un-targetted approach. The nal model applied to the same Saccharomyces cerevisiae dataset is a non-parametric Bayesian method that detects probeset co-occurrence given a local background and inferring gene interaction based on the topological network structure resulting from gene co-occurance. In each case we gather evidence to support the biological relevance of these hypothesized interactions by investigating their relation to currently established biological knowledge. The various methods applied here appear to capture di erent aspects of gene interaction, in the datasets we applied them to. The targetted approach appears to putatively infer gene interactions based on functional similarities. The cross-cluster-analysis-based methods, appear to capture interactions within pathways. The probabilistic-co-occurrence-based method appears to generate modules of functionally related genes that are connected to potentially explain the underlying experimental dynamics.
AFRIKAANSE OPSOMMING: Daar is 'n toenemende rykdom van inligting wat gegenereer word met betrekking tot biologiese stelsels, veral inligting oor die interaksies en afhanklikheidsverhoudinge van gene asook hul regulatoriese prosesse. Dit is dus belangrik om in staat te wees om funksionele begrip te kan heg aan hierdie rykdom van inligting. Wiskunde kan moontlik die gereedskap verskaf en die nodige abstraksies bied om die komplekse sisteem van gene interaksies te modelleer. Hier is die probleem met die beraming van die interaksies tussen gene benader uit verskeie kontekste uit, soos die ontdekking van patrone in gene interaksie met behulp van statistiese afhanklikheid , mede-voorkoms asook funksie verryking. Verskeie tegnieke is in die verlede voorgestel om hierdie probleem te benader, met verskillende vlakke van sukses. Tegnieke het gewissel van toesig leer , die groepering analise, boolean netwerke, dinamiese Bayesian modelle en 'n komplekse stelsel van di erensiaalvergelykings. Hierdie modelle poog om 'n hoë dimensionele ruimte te navigeer met uitdagende grade van vryheid. In hierdie werk word 'n aantal benaderings toegepas om 'n genetiese interaksie netwerk struktuur voor te stel. Drie verskillende modelle word toegepas op werklike biologiese data met die doel om hipoteses oor vermeende biologiese interaksies te genereer. 'n Geteikende groeperings gebaseerde analise gekombineer met die opsporing van verrykte kenmerke is aanvanklik toegepas op 'n Vitis vinifera datastel. Hierdie model verbind disjunkte groepe van vermeende mede-uitgedrukte gene wat gebaseer is op beduidende verrykte kenmerke, hier eksperimentele toestande . Ons pas dan 'n tussen groepering Markov Kombers model toe, op 'n Saccharomyces cerevisiae datastel. Hier is die disjunkte groeperings ge-oorbrug deur die beraming van statistiese afhanklikheid verhoudings tussen die elemente in die afsondelike groeperings. Die nale model was ons toepas op dieselfde Saccharomyces cerevisiae datastel is 'n nie- parametriese Bayes metode wat probe stelle van mede-voorkommende gene ontdek, gegee 'n plaaslike agtergrond. Die gene interaksie is beraam op grond van die topologie van die netwerk struktuur veroorsaak deur die gesamentlike voorkoms gene. In elk van die voorgenome gevalle word ons hipotese vermoedelik ondersteun deur die beraamde gene interaksies in terme van huidige biologiese kennis na te vors. Die verskillende metodes wat hier toegepas is, modelleer verskillende aspekte van die interaksies tussen gene met betrekking tot die datastelle wat ons ondersoek het. In die geteikende benadering blyk dit asof ons vermeemde interaksies beraam gebaseer op die ooreenkoms van biologiese funksies. Waar die a eide gene interaksies moontlik gebaseer kan wees op funksionele ooreenkomste tussen die verskeie gene. In die analise gebaseer op die tussen modelering van gene groepe, blyk dit asof die verhouding van gene in bekende biologiese substelsels gemodelleer word. Dit blyk of die model gebaseer op die gesamentlike voorkoms van gene die verband tussen groepe van funksionele verbonde gene modelleer om die onderliggende dinamiese eienskappe van die experiment te verduidelik.

Description

Thesis (MSc)--Stellenbosch University, 2014.

Keywords

Dissertations -- Applied mathematics, Theses -- Applied mathematics, Genes -- Analysis -- Mathematical models, UCTD

URI

http://hdl.handle.net/10019.1/86650

Collections

Masters Degrees (Mathematical Sciences)

Full item page