DFG organisiert Panel zu Forschungsdaten-Infrastruktur auf der Jahrestagung der American Association for the Advancement of Science (AAAS)

Logo des AAAS

Logo des Annual Meeting der AAAS

© AAAS

(28.02.22) Aufgrund der Covid-Pandemie musste die ursprünglich für Philadelphia geplante AAAS-Jahrestagung nach 2021 ein weiteres Mal virtuell durchgeführt werden, was über den fortgefallenen Reiseaufwand hinaus auch den Vorteil bot, dass die Beiträge für die Scientific Panels im Vorfeld als sog. „Spotlight Videos“ von jeweils 25 Minuten Dauer vorproduziert und im Internet verfügbar gemacht wurden, so dass an den Konferenztagen die im Programm eingeplanten 45 Minuten dann vollständig der Diskussion der Beiträge zur Verfügung standen. Das vom Nordamerika-Büro der DFG organisierte Panel hatte mit dem späten Samstagvormittag einen sehr guten Programmplatz bekommen, offensichtlich ein Ausdruck des hohen Interesses der AAAS an für wissenschaftliche Forschung relevanten Infrastrukturthemen.

Ein zunehmend an Bedeutung gewinnender Teil dieser Infrastruktur, so Johannes Fournier in seinen einleitenden Bemerkungen, seien Datensätze, die im Wesentlichen in der akademischen Forschung, der privaten Industrie und in der öffentlichen Verwaltung anfielen und die – sobald sie auffindbar und systematisch nutzbar seien – für alle drei Sektoren von erheblichem Wert sein können. Damit sie auffindbar und nutzbar seien, bräuchte es Metadaten, Daten also, die beschreiben, was in den Datensätzen enthalten sei. 2016 seien mit den „FAIR Guiding Principles for Scientific Data Management and Stewardship” wesentliche Leitlinien zur Frage vereinbart und in der Zeitschrift Nature Scientific Data veröffentlicht worden, wie Datensätze und deren Metadaten „Findable, Accessible, Interoperable und Re-usable (FAIR)“ gestaltet werden sollten, um auch international und sektorenübergreifend eine deutlich effizientere Datennutzung zu ermöglichen. In einer ersten Fragerunde stellte Fournier die Anreize für die verschiedenen Akteure zur Debatte, den FAIR-Prinzipien zu folgen, die ja wohlgemerkt weder Gesetzeskraft hätten, noch mit Sanktionsandrohungen unterlegt seien. Der wichtigste Anreiz sei laut York Sure-Vetter das Lernen von anderen in den in der Nationale Forschungsdateninfrastruktur (NFDI) entstehenden bis zu 30 „Communities of Practice”.

Dr. Johannes Fournier

© AAAS/DFG

Im Alltag der bereits eingerichteten 19 Konsortien zeigten sich die sehr unterschiedlichen Erfahrungen und Fertigkeiten verschiedener Fachgebiete im Umgang mit Daten und ggf. auch Datenschutz und der Austausch darüber führe zu einer insgesamt deutlich verbesserten „Data Literacy“ aller Beteiligten. Für eine Firma wie Google, so Natsha Noy, seien die FAIR Principles aus verschiedenen Gründen sehr willkommen, so zum Beispiel im Hinblick auf die Rekrutierung neuer Mitarbeiterinnen und Mitarbeiter aus den Nutzern von auffindbaren (findable) Datensätzen. Sie betonte zudem, das „accessible“ lediglich die prinzipielle Zugänglichkeit der Datensätze meine, also nicht etwa eine kostenlose Zugänglichkeit, und das sei darum für die privatwirtschaftliche Industrie eigentlich kein Problem, wenn auch zum Beispiel die pharmazeutische Industrie leider nur sehr ungerne ihre Forschungsdaten teile und lieber die Konkurrenz in Sackgassen laufen lasse. Robert Hanisch vom National Institute of Standards and Technology (NIST) hob schließlich hervor, dass durch die FAIR Principles eine Regulierungseinrichtung wie NIST – sie ist immerhin direkt dem US Department of Commerce unterstellt – etwas vom Handlungsdruck befreit worden seien, und es war schön aus seinem Munde die Worte zu hören: „Let us avoid making too many rules!“

In der zweiten Fragerunde ging es dann um die technischen und vielfach in den verschiedenen „Datenkulturen“ unterschiedlicher Communities begründeten Schwierigkeiten, Datensätze und ihre Metadaten miteinander kommunizierbar (interoperable) zu machen. Hierzu gab Hanisch das Beispiel seiner Fachcommunity, der Astronomie, wo es vergleichsweise einfach sei und die Datensätze eben nach Himmelskoordinaten indiziert seien. In den im Rahmen der NFDI geförderten Konsortien, so Sure-Vetter, sei das Problem komplexer aber auch lösbar. Für ihn laute der Schlüsselbegriff hier „federation“, also der Zugang zu sehr disparaten Datensätzen vor allem für interdisziplinäre Forschungsfragen. Das ließe sich über eine Zusammenführung und Homogenisierung verschiedenster Datensätze realisieren, oder aber – einfacher, jedenfalls in den Augen eines Informatikers – durch geschickt gebaute Werkzeuge zur Datenanalyse. Laut Noy habe die Industrie bislang zwar weitgehend die Standards für Datensammlungen und ihre beschreibenden Metadaten gesetzt, doch sei sie im Hinblick auf die Nutzung agnostisch, verfolge also keine spezifischen Ziele und schon gar keine, die einer Nutzung außerhalb der Industrie zuwiderliefen.

Eine dritte Runde widmete sich der Frage der Qualität von Datensätzen und ihren Metadaten, ein Aspekt der laut Fournier starken Einfluss auf die Reproduzierbarkeit von Forschungsergebnissen und eben auch auf die (maschinelle) Interoperabilität von Datensätzen habe. Hier waren sich die Panelisten darüber einig, dass die dafür notwendige Disziplin am allerbesten mit den „carrots and sticks“ durchzusetzen sei, die Forschungsförderorganisationen und wissenschaftliche Verlage bereits in den Händen hielten. Dazu bedürfe es keiner weiteren Sanktionsinstanzen und schon gar keiner „data quality police“, wie es Hanisch formulierte.

Abschließend bat Fournier die drei Panelisten dann noch um jeweils eine „take away message“ oder ein Motto, unter dem man sich die nationalen Projekte zu Forschungsdateninfrastrukturen und deren internationale Vernetzung entwickeln sehen möchte. Für Noy sei dies der dringende Bedarf nach einer Art Begutachtungsverfahren zu Sicherstellung der Qualität von Datensätzen und ihren Metadaten. Sure-Vetter wollte den Bedarf eines Rechtsrahmens nicht ausschließen, seien Forschungsdaten und deren Nutzung doch ein Allgemeingut mit entsprechendem Regelungsbedarf. Für Hanisch stelle sich die Frage nach Regulation nicht in gleichem Maße, er vertraue da zunächst auf die Vernunft und Einsicht der verschiedensten Nutzer von Datensätzen und Dateninfrastrukturen, in deren auch internationaler Vernetzung ein riesiges Potenzial läge.

Dieses riesige Potenzial heben zu helfen, so Fournier zum Ausgang der sehr ertragreichen Runde, seien Forschungsfördereinrichtungen, der öffentliche Sektor, die Privatindustrie und eben auch die wissenschaftliche Fach-Communities gleichermaßen gefordert, im Sinne der FAIR Principles Datenstrukturen aufzubauen, sie zu vernetzen und sie gemeinsam zu nutzen.