Daten der Natur, Natur der Daten

Die Skalen der Statistik

21. September 2020 Globale Umweltphänomene

Satelliten liefern aber nicht nur wichtige Daten zum Geomonitoring und Schwerefeld: Aus mehreren Hundert Kilometern Entfernung machen sie auch die Abholzung des Regenwalds und die Verschmutzungen in den Ozeanen sichtbar; sie beobachten den Meeresspiegel oder die Ausdehnung
von Ballungszentren, kurz: Sie beobachten die Veränderungen der Umwelt und versorgen Wissenschaftler mit Unmengen an Rohdaten, die dann allerdings auch noch korrekt ausgewertet
werden müssen. Hier setzt das 2019 von der DFG bewilligte Projekt „Skalierbare raumzeitliche Statistik für globale Umweltphänomene“ an.

Bodenfeuchte, Vegetationsindex, Erdoberflächentemperatur – dies sind Beispiele für globale Satellitendaten. Wie lassen sich diese Daten effizient in statistischen Modellen über die Umwelt verwenden? Damit beschäftigen sich Forschende der Universität

„Wir wollen Methoden entwickeln, wie sich diese Erdbeobachtungsdaten effizient in statistischen Modellen verwenden lassen“, erklärt der Geoinformatiker Edzer Pebesma von der Westfälischen Wilhelms-Universität Münster. Die aktuelle Ausgangslage ist für die Wissenschaft zunehmend herausfordernd. „Man muss zurzeit einen enormen Aufwand betreiben, um die Daten überhaupt erst einmal analysieren zu können“, erklärt Marius Appel, der im Rahmen der Sachbeihilfe promoviert. Denn die Datenvolumina übersteigen oft die lokalen Speicherkapazitäten. Und traditionelle statistische

Modelle funktionieren nicht oder nur unzureichend, wenn man sie auf globale Datensätze anwenden will. Vor allem die Raum-Zeit-Korrelation von Messdaten macht die Berechnungen komplex und zeitaufwendig. Appel und Pebesma suchen nach Alternativen, wie sie diese Raum-Zeit-Abhängigkeiten in den Statistiken effizient modellieren können. „Hauptbestandteil des Projekts ist also eine neue Methodenentwicklung.“

Die Ergebnisse der „Skalierbaren raumzeitlichen Statistik für globale Umweltphänomene“ sollen in zwei Fallstudien demonstriert werden. Einmal geht es um die Erstellung eines hochauflösenden
globalen Niederschlagsdatensatzes, der verschiedene Variablen in dem Modell berücksichtigt. „Wir verwenden dafür sowohl Satellitendaten als auch Bodenmessungen“, erklärt Appel. In der zweiten Studie sollen die Methoden Erkenntnisse zu Entwicklungen an der Landoberfläche verbessern: „Die Idee dahinter ist, dass wir die zu entwickelnden Methoden nutzen, um langsamere Veränderungen zum Beispiel aufgrund von Trockenheit oder Hitzeperioden durch Verwendung von verschiedenen Datenquellen besser zu erkennen.“

Die neuen Methoden sollen der wissenschaftlichen Community als leicht anwendbare  Softwarewerkzeuge für offene und reproduzierbare Analysen globaler Umweltphänomene zur
Verfügung gestellt werden. „Unser Projekt steht für ein interdisziplinäres Forschungsthema: Da werden die Computerwissenschaften für die Skalierbarkeit von Statistik eingesetzt, um in den Geowissenschaften eine Anwendung zu finden“, erklärt Pebesma.