Moderne Forschungsarbeit ist ohne leistungsstarke Rechner so gut wie unmöglich
Auch an der Universität zu Lübeck ist das so, weshalb im Jahr 2017 das OMICS-Rechencluster als eine leistungsstarke Rechenplattform für alle Institute und Einrichtungen in Medizin und MINT an den Start ging. Möglich wurde die Beschaffung erst durch die Zusammenarbeit Vieler: rund 1 Million € konnte auf diesem Wege bereits in den Rechner investiert werden.
Prof. Hauke Busch vom Lübecker Institut für experimentelle Dermatologie, LIED, ist der Sprecher der Lenkungsgruppe, die für das OmicsCluster eingerichtet wurde. „Wir sind in den Lebenswissenschaften auf die Rechner angewiesen. Unsere Datenmengen in der Forschung sind riesig. Solch eine zentrale Computerressource zur Forschung zur Verfügung zu stellen, ist daher eine tolle Sache.“, erklärt er.
Doch woher kommen all die Daten? Je nach Forschungsbereich fallen andere Daten an. Ob es um künstliche Intelligenz geht, oder um medizinische Forschungsbereiche: die Menge der Daten ist enorm. Betrachtet man beispielsweise die Erforschung von Erkrankungen, werden in diversen Studien viele Blutproben von Probandinnen und Probanden gesammelt, aus denen das jeweilige Genom extrahiert wird. Das menschliche Erbgut besteht aus Milliarden Basen – dem sogenannten genetischen Code. Diesen Code für jede Probe abzubilden, ist eine enorme Rechenleistung: an einer Probe muss das OmicsCluster rund drei Tage rechnen. Allerdings können mehrere Proben gleichzeitig berechnet werden.
Forschungserfolg am Beispiel des ägyptischen Referenzgenoms
Anhand der berechneten Daten können die Forschenden beispielsweise Veränderungen im Erbgut finden, die auf bestimmte Erkrankungen hindeuten können. Auch das ägyptische Referenzgenom wurde mit OmicsCluster in Lübeck berechnet: Die genetische Ausstattung des Menschen unterscheidet sich weltweit und bestimmt nicht nur das Aussehen, sondern auch die Anfälligkeit für Krankheiten und das Ansprechen auf Medikamente. Eine sogenannte Genomreferenz für die rund 250 Millionen Menschen in Nordafrika fehlte bisher. Um diesen weißen Fleck auf der Weltkarte der Humangenetik zu füllen, hat ein deutsch-ägyptisches Team unter der Leitung von Saleh Ibrahim und Hauke Busch von der Universität zu Lübeck zusammen mit Mohamed Salama von der American University in Kairo und Universität Mansoura das erste ägyptisch-nordafrikanische Referenzgenom erstellt. Dazu wurden mittels neuester Alignmentmethoden mehr als 270 Milliarden DNA-Basen zu einem de novo Genom eines neuzeitlichen Ägypters zusammengesetzt. Ein weißer Fleck auf der Weltkarte der Humangenetik konnte so gefüllt werden.
Viele Forschungsprojekte sind ähnlich rechen- und datenintensiv und darum sind die Verfügbarkeit des Clusters und die Datensicherheit enorm wichtig. Das System wurde zwecks Ausfallsicherheit so designt, dass bis zu einem Drittel des Speichersystems (Glusterfs-Server) ausfallen kann. Bei einem Ausfall von Rechenknoten brechen Jobs ab, die zu diesem Zeitpunkt auf dem jeweiligen Knoten liefen, werden aber auf einem anderen Rechenknoten automatisch wieder neugestartet. Die Daten werden systemseitig ständig gesichert. Zwei Vollzeitstellen gibt es an der Universität zu Lübeck für die Betreuung und Wartung dieses Rechners am ITSC-Service-Center. Wichtige Entscheidungen werden im Lenkungskreis getroffen, der neben Prof. Hauke Busch noch aus Prof. Dr. Lars Bertram (Lübecker Interdisziplinäre Plattform für Genomanalytik, LIGA), Prof. Dr. Jeanette Erdmann (Institut für Integrative und Experimentelle Genomik, IIEG), Prof. Dr. Saleh Ibrahim (Lübecker Institut für experimentelle Dermatologie, LIED) und Dipl.-Inf. Helge Illig (IT-Service-Center, ITSC) besteht.
Hinter den Kulissen: technische Details
In seinem jetzigen Ausbau stehen in Summe 1.600 CPU-Threads und ca. 14,3 TB Arbeitsspeicher für Berechnungen zur Verfügung. Um diese beachtliche Leistung möglichst fair zu verteilen, wird der Job-Scheduler Slurm eingesetzt, welches die Batch-Aufträge verwaltet und entsprechend zur Ausführung bringt. Dabei können ein oder mehrere Rechenknoten reserviert und genutzt werden. Für die Ablage von Projektdaten zwischen den Rechenjobs stehen insgesamt über 750 TB permanenter Speicherplatz im GlusterFS-System zur Verfügung.
Das KI-LAB ist eine weitere Einheit des High-Performance-Computing-Centers (HPC Center) der Universität zu Lübeck, fokussiert auf Anwendungen im Bereich der KI. Mit seinen NVIDIA DGX Recheneinheiten und weiteren Dell-Servern wird eine Rechenleistung von mehr als 7 petaFLOPS durch über 200 Cores, einem Gesamthauptspeicher von mehr als 2,5 Tera Byte und über 350 Tera Byte Storage zur Verfügung gestellt. So wurden erste Anwendungen möglich, die mithilfe konventioneller Rechner nicht durchführbar gewesen wären, z. B. im Bereich der bildbasierten Roboter-Steuerung oder der Patientendatensimulation, bei der die sorgfältig synthetisierten medizinischen Daten für die Analyse durch Machine Learning erstellt wurden. Im Rahmen des KI-MED-Ökosystemen Projektes, welches von der Landesregierung gefördert wird, wird das KI-Lab Lübeck weiter ausgebaut.
Kontakt bei Rückfragen
Prof. Dr. Hauke Busch, Tel.: 0451-31018470, Mail: hauke.busch@uni-luebeck.de
für die Ukraine