Daten der Natur, Natur der Daten

Der Fluch der großen Dimension

21. September 2020 Statistische Strukturen

Mit umfangreichen Datensätzen und komplexen Systemen haben sich auch die Mathematikerinnen und
Mathematiker der 2019 beendeten Forschungsgruppe „Strukturelle Inferenz in der Statistik: Adaption und Effizienz“ in den vergangenen acht Jahren beschäftigt.

Um beispielsweise Neuro-Imaging-Daten effizient auszuwerten, benötigt man aufwendige Verfahren. Zielsetzung der Hamburger Forschungsgruppe „Strukturelle Inferenz in der Statistik: Adaption und Effizienz“ war es, Verfahren zu entwickeln, um vorhandene

Ihr Ansatz, statistische Strukturen, die in großen Datensätzen vorhanden sind, zu finden und für weitere Berechnungen gewinnbringend auszunutzen, klingt dabei so einfach wie überzeugend.

„Klar ist, dass aufgrund der zunehmenden Verfügbarkeit umfangreicher Datenmengen statistische Verfahren sowohl in wissenschaftlichen als auch in praktischen Anwendungen eine immer wichtigere Rolle spielen“, führt Sprecher Holger Drees von der Universität Hamburg aus. Erschwerend kommt hinzu, dass die Datensätze heutzutage nicht nur sehr groß, sondern auch komplex sind, also  verschiedene Einflussgrößen beinhalten. Wer beispielsweise Genexpressionsdaten oder Bilder aus Neuro-Imaging-Verfahren auswertet, um bestimmten Krankheiten auf die Spur zu kommen, wird
bei seiner Suche nach der Nadel im Heuhaufen mit Daten überflutet.

„Wenn man derart komplexe Daten analysieren will, ergeben sich ganz neue Herausforderungen“, sagt Drees. „Setzen wir Standardverfahren ein, kommt der sogenannte Fluch der großen Dimension mit seinen statistischen Ungenauigkeiten zum Tragen.“ Zielsetzung der Mitglieder der Forschungsgruppe war es deshalb, Verfahren zu entwickeln, um vorhandene zusätzliche Strukturen in den Datensätzen zu erkennen und zur Behebung dieser Ungenauigkeiten effizient auszunutzen. Dies gelang. 

Zugleich führten Erkenntnisse über die Struktur selbst zu einem vertieften Verständnis des die Daten erzeugenden Zufallsprozesses – etwa bei bestimmten Krankheiten hinsichtlich der Frage, ob sich trotz der zufälligen Störungen signifikante Unterschiede in Gehirnbildern feststellen lassen.

Thematisch gibt es in diesem Zusammenhang Berührungspunkte zum hochaktuellen Gebiet des Maschinellen Lernens. Aber es gibt auch Unterschiede: „Der entscheidende Unterschied ist, dass wir mathematisch nachweisbar effiziente Methoden herleiten. Bei ML hingegen werden viele Methoden entwickelt, deren Anwendungsmöglichkeiten in vielen Fällen gar nicht verstanden werden“, so Drees. Auch ließe sich im Nachhinein die statistische Unsicherheit nicht mehr hinreichend benennen. „Man
erhält also eine Prognose von einem System, aber die Prognose ist fehlerbehaftet, weil die Daten teilweise zufällig sind“, resümiert der Forscher. „Für viele Anwendungen ist es aber wichtig, diesen statistischen Fehler abschätzen zu können.“

Jenseits der reinen Forschung hat die DFG-Forschungsgruppe dazu beigetragen, die Bedeutung des Forschungsbereichs in den Köpfen des Nachwuchses zu etablieren – und das über die Grenzen der Bundesrepublik hinaus. Die sogenannten Spring Schools beispielsweise fanden großen  internationalen Zuspruch. Auch wenn das langfristige Ziel, einen allgemeinen Zugang zur Konstruktion von statistischen Verfahren zu entwickeln, die automatisch simultan an verschiedene Strukturen in den Daten adaptieren, nicht ganz erreicht wurde, haben die Mathematikerinnen und Mathematiker durchaus effiziente Methoden entwickelt, die die statistische Analyse komplexer struktureller Modelle in vielen Gebieten verbessern. Und sie haben gezeigt, dass sich bestimmte Methoden für bestimmte Probleme nicht eignen: für Anwender entscheidende Hinweise. „Es besteht aber weiterhin ein großer Forschungsbedarf“, so Drees. Und der dürfte – mit Blick auf immer  komplexere und größere Datensätze – stetig zunehmen.