Die männliche Infertilität stellt eine hochgradig heterogene Erkrankung dar und ein Großteil der Ursachen ist noch immer unklar. Es wird angenommen, dass genetische Faktoren einen signifikanten Anteil ausmachen. Große Patientenkohorten und die Verfügbarkeit der zugehörigen klinischen und genetischen Daten, wie sie in der CRU zur Verfügung stehen, bilden die Grundlage für die Identifikation dieser Faktoren. In den letzten Jahren konnten durch die Fortschritte im Bereich der Sequenzierung immer größere Datenmengen generiert werden, die unter anderem die Exom-/ und Genomsequenzierung, Transkriptomsequenzierung durch single cell Verfahren sowie Methylomsequenzierung umfasst. Diese Datenmengen stellen jedoch nicht nur hohe Anforderungen an die zur Analyse benötigte Rechenstruktur, sondern erfordern auch profunde bioinformatische Kenntnisse, um den verschiedenen Ansprüchen gerecht zu werden.Obwohl es bereits etablierte Workflows zur Analyse solcher OMICS-Daten gibt, besteht weiterhin ein dringender Bedarf, diese Workflows an die konkrete Fragestellung anzupassen und zu verbessern. Insbesondere werden neuere Methoden im Bereich des single-cell Sequencing angewandt, deren Entwicklung und Optimierung Gegenstand aktueller Forschung ist, wie z.B. Berechnung von RNA velocity oder latent time estimation. Aufgrund ihrer Neuheit steht nicht nur die eigentliche Durchführung solcher Analysen im Vordergrund, sondern insbesondere auch die Validierung und das Benchmarking der Algorithmen, um die Verlässlichkeit der Analysen sicherzustellen. Aktuelle Verfahren zur Bestimmung von Copy Number Variants (CNVs) in Exomen weisen hohe Fehlerquoten und stark variierende Qualität auf. Im Rahmen des Projekts wird ein neuer Algorithmus entwickelt, der aktuelle Techniken des Machine Learnings einsetzt.Durch die Zentralisierung aller bioinformatischen Analysen kann ein hoher Standard der Datenverarbeitung gewährleistet werden. In der ersten Förderperiode wurden bereits mehr als 2900 Proben von sieben verschiedenen Datentypen analysiert (CGH-/SNP Arrays, Exome/Genome sequencing, (sc)RNA Sequencing, Whole Genome Bisulfite Sequencing). Sämtliche Ergebnisse fließen in den Male Fertility Gene Atlas (MFGA), der eine wertvolle neue Ressource darstellt. Die zentralisierte Prozessierung der Datensätze im Core Project wird darüber hinaus auch die Anwendung von Verfahren des Machine Learning ermöglichen, um bislang unbekannte Zusammenhänge zwischen biologischen Markern und klinischen Phänotypen zu identifizieren.
Tüttelmann, Frank | Klinik für Medizinische Genetik |
Varghese, Julian | Institut für Medizinische Informatik |
Tüttelmann, Frank | Klinik für Medizinische Genetik |