Freiburg, 13.03.2025
Big Data, Hochleistungsrechner, KI – diese Themen erhalten derzeit viel Aufmerksamkeit. Aber wie gehen Wissenschaftler*innen Probleme an, wenn die verfügbaren Datenmengen gering sind? Seit Oktober 2023 untersuchen und entwickeln Forscher*innen im Sonderforschungsbereich (SFB) „Small Data“ Methoden für solche Small-Data-Anwendungen. Derzeit sind 36 Doktorand*innen an diesem Vorhaben beteiligt. Wir sprachen mit Maren Hackenberg, Lennart Purucker und Esma Secen über ihre Promotionsprojekte, ihre Erfahrungen mit interdisziplinärer Zusammenarbeit und die erhoffte Wirkung des Sonderforschungsbereichs.
Esma Secen (links), Maren Hackenberg (2. von links) und Lennart Purucker (rechts) im Gespräch mit Verena Krall (Mitte). Foto: Tobias Kupries-Thomma / Universität Freiburg
Esma Secen: Mein Projekt verbindet die Bereiche Biologie und Medizin und konzentriert sich auf die Entschlüsselung der genetischen Grundlagen und molekularen Mechanismen einer seltenen neurologischen Entwicklungsstörung, der geistigen Behinderung. Mein Ziel ist es, bisher nicht in Zusammenhang gebrachte Genmutationen zu charakterisieren, die zu dieser Störung führen. Diese genetischen Faktoren wurden bisher kaum untersucht. Derzeit umfasst meine Forschung Laborversuche mit neuronalen Zellen, bei denen ich die CRISPR/cas9-Technologie einsetze, um die Gene von Interesse präzise zu bearbeiten und ihre funktionalen Rollen zu untersuchen. In Zukunft plane ich, auch mit Modellorganismen wie dem Zebrafisch zu arbeiten, um die umfassenderen entwicklungsbezogenen und systemischen Auswirkungen dieser genetischen Mutationen zu untersuchen.
Maren Hackenberg: Ich habe Mathematik studiert und arbeite gerade an der Modellierung dynamischer Prozesse. Die Anwendungen, mit denen ich mich beschäftige, sind sehr unterschiedlich: Ich arbeite mit Forschern aus biologischen und klinischen Bereichen zusammen. Sie alle haben jedoch eins gemeinsam: die verfügbaren Daten sind begrenzt. Mit einer Kombination von Werkzeugen, zum Beispiel aus der mathematischen Modellierung, der statistischen Schätzung und auch dem Maschinellen Lernen, entwickle ich Methoden zur Erfassung der dynamischen Prozesse. Diese Methoden sind dann sowohl für die spezifische Anwendung nützlich als auch auf andere Bereiche übertragbar.
Lennart Purucker: In meinem Promotionsprojekt geht es um Grundlagenforschung zu tabellarischen Daten. Ich möchte Methoden der künstlichen Intelligenz oder genauer gesagt des Maschinellen Lernens anwenden, um Vorhersagen auf der Grundlage von Daten aus Tabellen zu treffen. Angenommen, ich habe einen Datensatz über die klinische Wirksamkeit eines Medikaments bei Patienten mit unterschiedlichem Alter, unterschiedlichen Symptomen und unterschiedlicher medizinischer Vorgeschichte. Dann versuche ich vorherzusagen, wie ein neuer Patient auf dieses Medikament reagieren würde.
„Für mich ist das Schöne am SFB, dass es gegenseitiges Verständnis zwischen den beteiligten Disziplinen schafft. Das ist etwas, das ich mir in mehr Bereichen der Wissenschaft wünschen würde: Eine Gemeinschaft, die auf ein gemeinsames Ziel hinarbeitet, ihr Wissen und ihre Erkenntnisse teilt und sich nicht so sehr mit Konkurrenzdenken beschäftigt.“
Maren Hackenberg: Nein, dieser Begriff muss relativ definiert werden: Die Daten sind im Verhältnis zur Menge der Eingaben, die Ihr Modell erwartet, oder im Verhältnis zum Rauschpegel oder zur Heterogenität in Ihren Daten gering. Wenn die Ergebnisse eines Experiments alle sehr ähnlich sind, kann die Untersuchung von 50 Fällen zu den gleichen Ergebnissen führen wie die Untersuchung von 1000 Fällen. Wenn die 50 Fälle jedoch in 15 verschiedene Untergruppen fallen, wird das vorliegende Problem sehr komplex und die Datenmenge ist gering
Esma Secen: Dafür gibt es eine Vielzahl von Gründen. Eine Forschungsgruppe hat möglicherweise nicht genug Zeit, Geld oder Personal, um einen großen Datensatz zu untersuchen. Es gibt auch Fälle, in denen die verfügbaren Daten von Natur aus sehr begrenzt sind. Zum Beispiel ist die Krankheit, die ich untersuche, bereits selten, und ich konzentriere mich nur auf eine Teilmenge der Mutationen, die sie verursachen können. Außerdem hängen die Auswirkungen einer genetischen Mutation von den konkreten Umständen ab: In welchem Klima leben die Patienten, was essen und trinken sie? Daher bräuchten wir im Prinzip Daten aus der ganzen Welt, um allgemeine Vorhersagen zu dieser Krankheit zu treffen und die gesamte Komplexität abzudecken.
„Es ist sehr inspirierend für mich, mit Perspektiven aus völlig anderen Bereichen konfrontiert zu werden. Im Gespräch mit jemandem mit einem anderen akademischen Hintergrund überdenke ich meine Herangehensweise an wissenschaftliche Probleme und bekomme neue Ideen.“
Lennart Purucker: Ich entwickle grundlegende Methoden, die idealerweise für Anwendungsfälle vieler verschiedener Disziplinen funktionieren sollten. Ich teste meine Methoden an verschiedenen Tabellen, um zu sehen, ob sie so funktionieren, wie sie sollten. Echtes, ungefiltertes Feedback erhalte ich jedoch nur durch Kooperationen: Ist meine Methode nützlich, um die Forschungsfragen einer bestimmten Disziplin zu beantworten? Sind die Vorhersagen meines maschinellen Lernmodells auch für einen Experten auf dem jeweiligen Gebiet sinnvoll? Mit diesem Input kann ich meine Arbeit dann an den bestehenden praktischen Problemen ausrichten, was ihre Relevanz erheblich erhöht. Die Beschäftigung mit konkreten Anwendungen meiner Forschung gibt mir auch ein Gefühl von Sinn, da ich sehe, wie meine Arbeit die Welt wirklich in irgendeiner Weise verbessert.
Maren Hackenberg: Es ist sehr inspirierend für mich, mit Perspektiven aus völlig anderen Bereichen konfrontiert zu werden. Im Gespräch mit jemandem mit einem anderen akademischen Hintergrund überdenke ich meine Herangehensweise an wissenschaftliche Probleme und bekomme neue Ideen. Außerdem hoffe ich, dass ich so das Rad nicht neu erfinden muss: Viele Probleme wurden bereits in anderen Disziplinen gelöst, nur unter einem anderen Namen, als ich es erwarten würde. Der Austausch mit Experten aus verschiedenen Bereichen hilft mir, auf bestehenden Lösungen aufzubauen und mich auf neue Herausforderungen zu konzentrieren, die noch nicht angegangen wurden.
Esma Secen: Schon allein die Tatsache, dass ich jemandem außerhalb meines Fachgebiets meine eigene Forschung erkläre, hilft mir sehr. Oft bin ich mir des Fachjargons, den ich verwende, gar nicht mehr bewusst. Wenn ich mit anderen spreche, bin ich gezwungen, mich auf die Kernbotschaften meiner Arbeit zu konzentrieren. Das erinnert mich an meine Hauptmotivation und das große Ganze, in das meine Forschung passt.
„Was ich irgendwann gerne entwickeln würde, ist ein Modell für Maschinelles Lernen, das nicht nur ein Ergebnis für eine bestimmte Aufgabe liefert, sondern auch seine eigenen Unsicherheiten versteht, die Fragen, die es angesichts der Menge und Qualität der Eingabedaten beantworten kann und welche nicht.“
Lennart Purucker: Ein großes Problem bei der Verwendung von Maschinellem Lernen für geringe Datenmengen ist die sogenannte Überanpassung: Das KI-Modell versteht den gegebenen Datensatz nicht richtig, weil es sich zu sehr auf die falschen Teile der Daten konzentriert und daher falsche Ergebnisse generiert. Was ich irgendwann gerne entwickeln würde, ist ein Modell für Maschinelles Lernen, das nicht nur ein Ergebnis für eine bestimmte Aufgabe liefert, sondern auch seine eigenen Unsicherheiten versteht, die Fragen, die es angesichts der Menge und Qualität der Eingabedaten beantworten kann und welche nicht.
Esma Secen: Für mich ist das Schöne am SFB, dass es gegenseitiges Verständnis zwischen den beteiligten Disziplinen schafft. Das ist etwas, das ich mir in mehr Bereichen der Wissenschaft wünschen würde: Eine Gemeinschaft, die auf ein gemeinsames Ziel hinarbeitet, ihr Wissen und ihre Erkenntnisse teilt und sich nicht so sehr mit Konkurrenzdenken beschäftigt.
Maren Hackenberg: Oft sind Gruppen bei politischen Entscheidungen unterrepräsentiert, weil sie nicht über die Ressourcen verfügen, um große Datenmengen zu ihren Anliegen zu untersuchen. Im besten Fall könnte die Forschung zu kleinen Datenmengen es ihnen ermöglichen, das Beste aus den vorhandenen Daten zu machen und so dazu beizutragen, die Datennutzung zu demokratisieren.
Maren Hackenberg Sie studierte Mathematik und klassische Sprachen an der Universität Freiburg und der Universität La Sapienza in Rom, Italien, und schloss ihr Masterstudium in Mathematik an der Universität Freiburg ab. Seit 2020 promoviert sie am Institut für Medizinische Biometrie und Statistik, wo sie an Methoden zur Modellierung dynamischer Prozesse in klinischen und biomedizinischen Anwendungen arbeitet und dabei eine Kombination aus Ansätzen der mathematischen Modellierung, Statistik und des Deep Learning verwendet. Seit 2023 ist sie Teil des Small Data SFB.
Lennart Purucker ist seit 2023 Doktorandin an der Universität Freiburg im Rahmen der Small Data Initiative (SFB 1597, Projekt C05). Sein Forschungsinteresse gilt der künstlichen Intelligenz mit Schwerpunkt auf Maschinellem Lernen für kleine Datenmengen. Herr Purucker konzentriert sich hauptsächlich auf tabellarische Daten (z. B. Excel-Tabellen), arbeitet aber auch mit Bild-, Text- und Zeitreihendaten.
Esma Secen studierte Molekularbiologie und Genetik an der Universität Onsekiz Mart Canakkale in der Türkei und schloss ihren Master in Molekularer Medizin mit Schwerpunkt Neurologie an der Friedrich-Schiller-Universität Jena in Deutschland ab. Seit 2023 promoviert sie am Small Data SFB mit dem Schwerpunkt auf der Erforschung der molekularen Grundlagen monogener neurologischer Entwicklungsstörungen und der Untersuchung der genetischen Mechanismen, die der geistigen Behinderung beim Menschen zugrunde liegen.
Künstliche Intelligenz (KI)-Techniken erfordern in der Regel große Datenmengen, auch „Big Data“ genannt. Biomedizinische Datensätze umfassen dagegen oft nur eine relativ geringe Anzahl von Beobachtungen. Diese „Small Data“-Anwendungen mögen auf den ersten Blick überschaubarer erscheinen, erschweren aber den Einsatz datenintensiver KI-Ansätze erheblich. Der Sonderforschungsbereich 1597 „Small Data“ entwickelt Methoden, um mit Techniken der Künstlichen Intelligenz und Modellierung auch in solchen relativ kleinen Datensätzen komplexe Muster zu entdecken. Dies erfordert einen stark interdisziplinären Ansatz, der Fachwissen aus Informatik, Mathematik, Statistik, Medizin und Systemmodellierung kombiniert – und eine gemeinsame Sprache unter den Forschenden der verschiedenen Disziplinen etabliert. Die Deutsche Forschungsgemeinschaft (DFG) fördert den SFB bis Juni 2027 mit über 11 Millionen Euro. Bei erfolgreicher Fortsetzung der Anträge könnte der neue SFB insgesamt zwölf Jahre laufen. Sprecher ist Prof. Dr. Harald Binder, Professor für Medizinische Biometrie und Statistik an der Medizinischen Fakultät der Universität Freiburg und am Universitätsklinikum.