Structure learning of gene interaction networks
Date
2014-04
Authors
Jones, Piet
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: There is an ever increasing wealth of information that is being generated regarding
biological systems, in particular information on the interactions and
dependencies of genes and their regulatory process. It is thus important to be
able to attach functional understanding to this wealth of information. Mathematics
can potentially provide the tools needed to generate the necessary
abstractions to model the complex system of gene interaction.
Here the problem of uncovering gene interactions is cast in several contexts,
namely uncovering gene interaction patterns using statistical dependence, cooccurrence
as well as feature enrichment. Several techniques have been proposed
in the past to solve these, with various levels of success. Techniques
have ranged from supervised learning, clustering analysis, boolean networks
to dynamical Bayesian models and complex system of di erential equations.
These models attempt to navigate a high dimensional space with challenging
degrees of freedom.
In this work a number of approaches are applied to hypothesize a gene
interaction network structure. Three di erent models are applied to real biological
data to generate hypotheses on putative biological interactions. A
cluster-based analysis combined with a feature enrichment detection is initially
applied to a Vitis vinifera dataset, in a targetted analysis. This model
bridges a disjointed set of putatively co-expressed genes based on signi cantly
associated features, or experimental conditions. We then apply a cross-cluster
Markov Blanket based model, on a Saccharomyces cerevisiae dataset. Here
the disjointed clusters are bridged by estimating statistical dependence relationship
across clusters, in an un-targetted approach. The nal model applied
to the same Saccharomyces cerevisiae dataset is a non-parametric Bayesian method that detects probeset co-occurrence given a local background and inferring
gene interaction based on the topological network structure resulting
from gene co-occurance. In each case we gather evidence to support the biological
relevance of these hypothesized interactions by investigating their relation
to currently established biological knowledge.
The various methods applied here appear to capture di erent aspects of
gene interaction, in the datasets we applied them to. The targetted approach
appears to putatively infer gene interactions based on functional similarities.
The cross-cluster-analysis-based methods, appear to capture interactions
within pathways. The probabilistic-co-occurrence-based method appears to
generate modules of functionally related genes that are connected to potentially
explain the underlying experimental dynamics.
AFRIKAANSE OPSOMMING: Daar is 'n toenemende rykdom van inligting wat gegenereer word met betrekking tot biologiese stelsels, veral inligting oor die interaksies en afhanklikheidsverhoudinge van gene asook hul regulatoriese prosesse. Dit is dus belangrik om in staat te wees om funksionele begrip te kan heg aan hierdie rykdom van inligting. Wiskunde kan moontlik die gereedskap verskaf en die nodige abstraksies bied om die komplekse sisteem van gene interaksies te modelleer. Hier is die probleem met die beraming van die interaksies tussen gene benader uit verskeie kontekste uit, soos die ontdekking van patrone in gene interaksie met behulp van statistiese afhanklikheid , mede-voorkoms asook funksie verryking. Verskeie tegnieke is in die verlede voorgestel om hierdie probleem te benader, met verskillende vlakke van sukses. Tegnieke het gewissel van toesig leer , die groepering analise, boolean netwerke, dinamiese Bayesian modelle en 'n komplekse stelsel van di erensiaalvergelykings. Hierdie modelle poog om 'n hoë dimensionele ruimte te navigeer met uitdagende grade van vryheid. In hierdie werk word 'n aantal benaderings toegepas om 'n genetiese interaksie netwerk struktuur voor te stel. Drie verskillende modelle word toegepas op werklike biologiese data met die doel om hipoteses oor vermeende biologiese interaksies te genereer. 'n Geteikende groeperings gebaseerde analise gekombineer met die opsporing van verrykte kenmerke is aanvanklik toegepas op 'n Vitis vinifera datastel. Hierdie model verbind disjunkte groepe van vermeende mede-uitgedrukte gene wat gebaseer is op beduidende verrykte kenmerke, hier eksperimentele toestande . Ons pas dan 'n tussen groepering Markov Kombers model toe, op 'n Saccharomyces cerevisiae datastel. Hier is die disjunkte groeperings ge-oorbrug deur die beraming van statistiese afhanklikheid verhoudings tussen die elemente in die afsondelike groeperings. Die nale model was ons toepas op dieselfde Saccharomyces cerevisiae datastel is 'n nie- parametriese Bayes metode wat probe stelle van mede-voorkommende gene ontdek, gegee 'n plaaslike agtergrond. Die gene interaksie is beraam op grond van die topologie van die netwerk struktuur veroorsaak deur die gesamentlike voorkoms gene. In elk van die voorgenome gevalle word ons hipotese vermoedelik ondersteun deur die beraamde gene interaksies in terme van huidige biologiese kennis na te vors. Die verskillende metodes wat hier toegepas is, modelleer verskillende aspekte van die interaksies tussen gene met betrekking tot die datastelle wat ons ondersoek het. In die geteikende benadering blyk dit asof ons vermeemde interaksies beraam gebaseer op die ooreenkoms van biologiese funksies. Waar die a eide gene interaksies moontlik gebaseer kan wees op funksionele ooreenkomste tussen die verskeie gene. In die analise gebaseer op die tussen modelering van gene groepe, blyk dit asof die verhouding van gene in bekende biologiese substelsels gemodelleer word. Dit blyk of die model gebaseer op die gesamentlike voorkoms van gene die verband tussen groepe van funksionele verbonde gene modelleer om die onderliggende dinamiese eienskappe van die experiment te verduidelik.
AFRIKAANSE OPSOMMING: Daar is 'n toenemende rykdom van inligting wat gegenereer word met betrekking tot biologiese stelsels, veral inligting oor die interaksies en afhanklikheidsverhoudinge van gene asook hul regulatoriese prosesse. Dit is dus belangrik om in staat te wees om funksionele begrip te kan heg aan hierdie rykdom van inligting. Wiskunde kan moontlik die gereedskap verskaf en die nodige abstraksies bied om die komplekse sisteem van gene interaksies te modelleer. Hier is die probleem met die beraming van die interaksies tussen gene benader uit verskeie kontekste uit, soos die ontdekking van patrone in gene interaksie met behulp van statistiese afhanklikheid , mede-voorkoms asook funksie verryking. Verskeie tegnieke is in die verlede voorgestel om hierdie probleem te benader, met verskillende vlakke van sukses. Tegnieke het gewissel van toesig leer , die groepering analise, boolean netwerke, dinamiese Bayesian modelle en 'n komplekse stelsel van di erensiaalvergelykings. Hierdie modelle poog om 'n hoë dimensionele ruimte te navigeer met uitdagende grade van vryheid. In hierdie werk word 'n aantal benaderings toegepas om 'n genetiese interaksie netwerk struktuur voor te stel. Drie verskillende modelle word toegepas op werklike biologiese data met die doel om hipoteses oor vermeende biologiese interaksies te genereer. 'n Geteikende groeperings gebaseerde analise gekombineer met die opsporing van verrykte kenmerke is aanvanklik toegepas op 'n Vitis vinifera datastel. Hierdie model verbind disjunkte groepe van vermeende mede-uitgedrukte gene wat gebaseer is op beduidende verrykte kenmerke, hier eksperimentele toestande . Ons pas dan 'n tussen groepering Markov Kombers model toe, op 'n Saccharomyces cerevisiae datastel. Hier is die disjunkte groeperings ge-oorbrug deur die beraming van statistiese afhanklikheid verhoudings tussen die elemente in die afsondelike groeperings. Die nale model was ons toepas op dieselfde Saccharomyces cerevisiae datastel is 'n nie- parametriese Bayes metode wat probe stelle van mede-voorkommende gene ontdek, gegee 'n plaaslike agtergrond. Die gene interaksie is beraam op grond van die topologie van die netwerk struktuur veroorsaak deur die gesamentlike voorkoms gene. In elk van die voorgenome gevalle word ons hipotese vermoedelik ondersteun deur die beraamde gene interaksies in terme van huidige biologiese kennis na te vors. Die verskillende metodes wat hier toegepas is, modelleer verskillende aspekte van die interaksies tussen gene met betrekking tot die datastelle wat ons ondersoek het. In die geteikende benadering blyk dit asof ons vermeemde interaksies beraam gebaseer op die ooreenkoms van biologiese funksies. Waar die a eide gene interaksies moontlik gebaseer kan wees op funksionele ooreenkomste tussen die verskeie gene. In die analise gebaseer op die tussen modelering van gene groepe, blyk dit asof die verhouding van gene in bekende biologiese substelsels gemodelleer word. Dit blyk of die model gebaseer op die gesamentlike voorkoms van gene die verband tussen groepe van funksionele verbonde gene modelleer om die onderliggende dinamiese eienskappe van die experiment te verduidelik.
Description
Thesis (MSc)--Stellenbosch University, 2014.
Keywords
Dissertations -- Applied mathematics, Theses -- Applied mathematics, Genes -- Analysis -- Mathematical models, UCTD