German Title: Inferenz und Analyse epigenetischer regulatorischer Netzwerktopologien basierend auf statistischen Lernmethoden in T-Helfer Zellen
Preview |
PDF, English
Download (52MB) | Terms of use |
Abstract
The reliable statistical inference of epigenetic regulatory networks that govern mammalian cell fates is very challenging. In this thesis we study this question for the differentiation decisions of T-helper (Th) cells, which have recently been shown to adopt a continuum of differentiated states in response to cytokine signals. To infer the underlying regulatory networks we introduce a novel framework for the inference of epigenetic regulatory network topologies based on statistical learning. First, we infer, via a Hidden Markov Model, chromatin states based on histone modification patterns in naïve Th cells and differentiated Th1, Th2 and mixed Th1/2 states; these states are controlled by external cytokine stimuli and the gene dose of the Th1 master transcription factor Tbet (Tbx21). We then introduce a linear multivariate correlation measure for mapping enhancers to their target genes, which is parametrized on a training set of known enhancers. This analysis is refined further by the application of partial correlations to distinguish direct from indirect effects. Applying this approach to our data, we recover known enhancers and obtain a genomewide enhancer-gene mapping. We also extend this to the correlation of repressive regulatory elements with gene expression. Next, we focus on the enhancers that regulate differentially expressed Th1 and Th2 specific transcripts. Building machine learning based predictors, we identify Th1 and Th2 specific enhancer and repressive state classes characterized by their response patterns to cytokine stimuli and Tbet dose. In turn, we use chromatin immunoprecipitation data of transcription factors to define the transcriptional regulatory logic governing the activities of the enhancer classes. Finally, we combine enhancer-target gene maps and enhancer regulatory logic as well as inhibitory elements to infer a bipartite epigenetic network. The network architecture builds on enhancer and repressive state classes as well as on genes and transcription factors leading to a weighted multidigraph. The network topology reveals distinct community structures related to Th1, Th2 and hybrid functionality. We furthermore analyse multiplex networks resulting in condition-specific topologies. From these analyses we obtain unique contributions of distinct network nodes. Utilizing random walks on multidigraphs we extract metastable processes underlying the observed system. In conclusion we present a robust quantitative framework for mapping chromatin states to gene activity, and, by factoring in transcription factor regulation of enhancers, inferring epigenetic regulatory networks. This methodology is applicable to a wide range of systems.
Translation of abstract (German)
Die verlässliche statistische Inferenz von epigenetischen regulatorischen Netzwerken, die das Zellschicksal bei Säugetieren bestimmen, ist eine äußerst anspruchsvolle Aufgabe. In dieser Arbeit behandeln wir diese Problemstellung im Rahmen von Differenzierungsentscheidungen von T-Helferzellen (Th Zellen), von denen gezeigt werden konnte, dass sie ein Kontinuum von differenzierten Zuständen in Abhängigkeit verschiedener Zytokinsignale annehmen können. Um die zugrundeliegenden regulatorischen Netzwerke zu bestimmen, führen wir eine neuartige Methode zur Inferenz epigenetisch regulatorischer Netzwerktopologien ein, die auf Methoden des statistischen Lernens basiert. Zunächst bestimmen wir, mithilfe eines Hidden Markov Modells, Chromatinzustände die auf Histonmodifikationsmustern in naïven und differenzierten Th1, Th2 und gemischten Th1/2 Zuständen basieren. Diese Zustände werden durch externe Zytokinstimuli und die Gendosis des Master-Transkriptionsfaktors Tbet (Tbx21) bestimmt. Danach führen wir ein lineares multivariates Korrelationsmaß ein, welches der Zuordnung von Enhancern zu ihren Zielgenen dient. Dieses Maß wird anhand eines Satzes von bekannten Enhancern gelernt. Diese Analyse wird verfeinert durch die Anwendung partieller Korrelationen, um direkte von indirekten Effekten zu unterscheiden. Bei der Anwendung dieser Methode auf unsere Daten bestätigen wir zum einen bekannte Enhancer und erhalten zum anderen eine genomweite Zuordnung zwischen Enhancern und Genen. Dies erweitern wir zudem auf die Korrelation repressiver regulatorischer Elemente mit Genexpressionen. Des Weiteren untersuchen wir Enhancer, die differentiell exprimierte Th1 und Th2 spezifische Transkripte regulieren. Mithilfe von Prädiktoren, die auf Methoden des maschinellen Lernens basieren, identifizieren wir Th1 und Th2 spezifische Enhancer-Klassen und solche repressiver Zustände, die durch ihre Reaktionsmuster auf Zytokinstimuli und auf die Dosis von Tbet charakterisiert werden. Außerdem verwenden wir Chromatin-Immunpräzipitationsdaten von Transkriptionsfaktoren, um die transkriptionelle regulatorische Logik, die die Aktivität der Enhancer-Klassen bestimmt, zu definieren. Schlussendlich kombinieren wir die Zuordnungen von Enhancern zu ihren Zielgenen und sowohl die regulatorische Enhancerlogik als auch die von inhibitorischen Elementen, um ein bipartites epigenetisches Netzwerk zu erhalten. Die Netzwerkarchitektur basiert dabei sowohl auf Enhancer-Klassen und repressiven Zustandsklassen als auch auf Genen und Transkriptionsfaktoren, was zu gewichteten Multi-Digraphen führt. Die Netzwerktopologie offenbart ausgeprägte unterscheidbare Strukturen, die mit einer Funktionalität für Th1, Th2 und Hybrid-Zellen identifiziert werden können. Außerdem analysieren wir Multiplex-Netzwerke, was zu zellspezifischen Topologien führt. Aus diesen Analysen erhalten wir charakteristische Beiträge von einzelnen Knoten des jeweiligen Netzwerks. Mithilfe von Random Walks auf Multi-Digraphen gewinnen wir Informationen über metastabile Prozesse, die den beobachteten Systemen zugrunde liegen. Zusammenfassend präsentieren wir eine robuste quantitative Methode, um Chromatinzustände und Genaktivität einander zuzuweisen und um epigenetische Netzwerke durch die Bestimmung von Transkriptionsfaktorregulierung von Enhancern zu lernen. Diese Vorgehensweise ist auf eine Vielzahl von Systemen anwendbar.
Document type: | Dissertation |
---|---|
Supervisor: | Höfer, Prof. Dr. Thomas |
Date of thesis defense: | 10 October 2018 |
Date Deposited: | 31 Oct 2018 09:55 |
Date: | 2018 |
Faculties / Institutes: | The Faculty of Bio Sciences > Dean's Office of the Faculty of Bio Sciences Service facilities > Bioquant Service facilities > Graduiertenschulen > Graduiertenschule Wissenschaftliches Rechnen Service facilities > German Cancer Research Center (DKFZ) |
DDC-classification: | 004 Data processing Computer science 500 Natural sciences and mathematics 510 Mathematics 530 Physics 570 Life sciences |
Controlled Keywords: | Netzwerktheorie, Mathematische Modellierung, Maschinelles Lernen, Epigenetik, Enhancer, T-Zelle, Multistabilität, Markov-Prozess, Angewandte Mathematik, Theoretische Systembiologie |
Uncontrolled Keywords: | network theory, mathematical modelling, statistical learning, machine learning, epigenetics, enhancer, T-helper cell, gene regulatory network, applied mathematics, Markov model, multistability, theoretical systems biology |