Zugang & Nachnutzung

  • Creative Commons License
    Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 Internationale Lizenz.

    Datenzugangswege

    Zentrale Aufgabe eines Forschungsdatenzentrums ist – neben der Archivierung der Forschungsdaten und der damit einhergehenden Dokumentations- und Kurationstätigkeiten – die Ermöglichung des Datenzugangs zur Sekundärnutzung. Diesbezüglich gibt es unterschiedliche Möglichkeiten. Sowohl die Datenart als auch der Nachnutzungszweck ist für die Wahl eines Datenzugangsweges entscheidend. Die erstellten Daten können beispielsweise über ein Bestellsystem zugänglich gemacht werden – häufig Datenkatalog oder Recherchesystem genannt. Ein FDZ kann Forschungsdaten auf den folgenden Wegen bereitstellen:

    a) Download

    Die offenste Variante des Datenzugangs ist ein Download der gewünschten Daten und der dazugehörigen Dokumente aus einem Datenkatalog auf das Endgerät der Datennutzenden. Je nach Datenzugangsstrategie kann dieser Download komplett frei sein oder aber auch eine Registrierung, Authentifizierung bzw. Abschluss eines Datennutzungsvertrags erfordern.  Ein Beispiel für einen Datennutzungsvertrag bietet das SOEP oder das Forschungsdatenzentrum des Robert-Koch-Instituts.

    b) Secure Remote Access

    Restriktivere Datenbereitstellungswege belassen die Forschungsdaten entweder auf Servern der FDZ oder Servern von Dienstleistern und gewähren den Datennutzenden dort auf Zugriff auf die Daten.

    Der Oberbegriff Secure Remote Access bzw. Remote Access beschreibt verschiedene Verfahren, bei denen ein Zugriff aus der Ferne, d. h. vom Arbeitsplatz der Datennutzenden, vorgenommen wird (Schiller, 2017 S. 7, Schiller & Welpton, 2015). Dies bedeutet, dass neben der Datenspeicherung auch die Datenverarbeitung auf Servern des FDZ stattfindet und dort entsprechende Software zur Analyse der Daten (z. B. Stata, SPSS, MAXQDA) bereitgestellt werden muss. Es bedarf für diesen Datenzugang einer besonders geschützten internen IT-Infrastruktur aus einem abgeschirmten Netzwerk von virtuellen Maschinen. 

    Remote Desktop

    Bei der Datenbereitstellung durch das Remote Desktop-Verfahren können sich Nutzende mittels einer Software auf den Server des FDZ einwählen, die Daten einsehen und mit der auf dem Server bereitgestellten Software analysieren. Nutzende selbst können keine Dateien herunterladen oder importieren. Alle Dateien, die Nutzende im- oder exportieren möchten, werden vorher durch das FDZ geprüft (In-/Outputkontrolle). Das FDZ-Personal stellt den Datennutzenden nach erfolgter Prüfung die In- und Outputs bereit. 

    Remote Execution

    Bei der restriktiveren Variante, dem Remote Execution-Verfahren, die auch als „Kontrollierte Datenfern­verarbeitung“ (KDFV) oder „Fernrechnen“ bezeichnet wird, können sich Nutzende ebenfalls mit einer Software auf den Server des FDZ einwählen. Im Unterschied zu Remote Desktop haben sie aber keinen Einblick in die Daten selbst. Skripte oder Syntax zur Modifizierung bzw. Aufbereitung und Analyse der Daten werden quasi blind an das FDZ gesendet und anschließend durch das FDZ ausgeführt. Beim Ausführen der Skripte sowie der Übermittlung der Analyseergebnisse sind unterschiedliche Grade an Automatisierung notwendig. Alle Dateien, die Nutzende im- oder exportieren möchten, müssen vorher durch das FDZ geprüft werden (In-/Outputkontrolle). Meist werden die Outputkontrollen softwaregestützt durchgeführt, werden aber in der Regel zusätzlich intellektuell vom FDZ-Personal geprüft. Das FDZ-Personal stellt den Datennutzenden anschließend die In- und Outputs bereit.

    c) Gastwissenschaftsarbeitsplätze (GWAP)

    Bei dieser Form des Datenzugangs (auch als Gastaufenthalte, On-Site oder Secure Data Center bezeichnet) erfolgt der Datenzugriff vor Ort im FDZ. Dies stellt somit die restriktivste Variante des Datenzugangs dar.

    Wie bei Secure Remote Access findet die Datenspeicherung und Datenverarbeitung auf zentralen Servern des FDZ statt, Nutzende arbeiten aber nicht am eigenen Arbeitsplatz, sondern an speziell ausgestatteten Arbeitsplätzen vor Ort im FDZ. Diese sind in der Regel mit einem Rechner ohne Internetzugriff und ohne funktionsfähige USB-Anschlüsse, Laufwerke etc. ausgestattet.

    Überwiegend gibt es weitere Regularien für die Räumlichkeiten wie das Verbot von Fotografien, Abschreiben, Mobiltelefonen, Laptops und ähnliches. Nutzende können die Daten einsehen und mit der bereitgestellten Software analysieren. Es können durch die Nutzenden keine Daten ex- oder importiert werden. Alle Dateien, die Nutzende im- oder exportieren lassen möchten, werden vorher geprüft (In-/Outputkontrolle).

    Eine nächste Ausbaustufe von GWAP kann die Vernetzung von GWAP verschiedener Institutionen sein. Die im Pilotprojekt RDCnet von KonsortSWD erarbeiteten Mindeststandards für eine Vernetzung von GWAP bezüglich Raumsicherheit und Kriterien hinsichtlich der technischen Umgebung können auch als Richtlinie für einfache GWAP verwendet werden (Murray/Goebel 2022: 11 ff). 

    Generell sollte der am wenigsten restriktive Datenbereitstellungsweg gewählt werden, der für die spezifischen Forschungsdaten notwendig ist, um die Daten möglichst zugänglich zu machen. Zudem gehen restriktivere Datenbereitstellungswege auch mit höheren Kosten und mehr Bearbeitungsaufwand einher.

    Datenpakete

    Die in das FDZ aufgenommene Daten können in der Regel nicht direkt zur Sekundärnutzung bereitgestellt werden. So müssen diese gegebenenfalls aufbereitet, anonymisiert und um standardisierte Metadaten angereichert werden. Meist werden die Daten als standardisierte Datenpakete an die Nutzenden bereitgestellt. Teilweise werden die Daten aber auch erst on demand durch Anfrage der Nutzenden zusammengestellt. 

    Die Daten können auf unterschiedliche Arten aufbereitet werden – je nach Zielgruppe und Nutzungszweck. Die folgende Beschreibung orientiert sich an der Terminologie zur Unterscheidung von Daten der EU (Schiller 2017: 4):

    • Public Use File (PUF)
    • Campus Use File (CUF)
    • Scientific Use File (SUF)
    • Secure Use File (SecUF)

    Public Use Files (PUF) sind Daten, die der gesamten Öffentlichkeit zur Verfügung gestellt werden können, für die es also keinerlei rechtliche oder ethische Bedenken gibt. Im Bereich der Sozialwissenschaften sind dies oft stark anonymisierte Daten oder Strukturdateien.

    Campus Use File (CUF) bezeichnen Daten, die nur für die wissenschaftliche Lehre bereitgestellt werden. Häufig sind diese Daten ebenfalls stark anonymisiert.

    Scientific Use File (SUF) sowie Secure Use File (SecUF) bezeichnen Daten, die nur für die wissenschaftliche Forschung zur Verfügung gestellt werden, wobei SecUF nicht oder schwach anonymisiert oder nur pseudonymisiert sind. In der Praxis ist nicht die gesamte Terminologie verbreitet – oft werden auch SecUF als SUF bezeichnet, da sie auch für die Wissenschaft bereitgestellt werden. 

    Aus einem Datensatz können grundsätzlich auch mehrere Varianten erstellt werden, etwa ein Campus Use File für die Lehre sowie Scientific Use File für die Forschung, um Bedarfe unterschiedlicher Zielgruppen zu erfüllen.