Zugang & Nachnutzung

  • Creative Commons License
    Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 Internationale Lizenz.

    Datenzugangswege

    Zentrale Aufgabe eines Forschungsdatenzentrums ist – neben der Archivierung der Forschungsdaten und der damit einhergehenden Dokumentations- und Kurationstätigkeiten – die Ermöglichung des Datenzugangs zur Sekundärnutzung. Diesbezüglich gibt es unterschiedliche Möglichkeiten. Sowohl die Datenart als auch der Nachnutzungszweck ist für die Wahl eines Datenzugangsweges entscheidend. Die erstellten Daten können beispielsweise über ein Bestellsystem zugänglich gemacht werden – häufig Datenkatalog oder Recherchesystem genannt. Ein FDZ kann Forschungsdaten auf den folgenden Wegen bereitstellen:

    Download

    Die offenste Variante des Datenzugangs ist ein Download der gewünschten Daten und der dazugehörigen Dokumente aus einem Datenkatalog auf das Endgerät der Datennutzenden. Je nach Datenzugangsstrategie kann dieser Download komplett frei sein oder aber auch eine Registrierung, Authentifizierung bzw. Abschluss eines Datennutzungsvertrags erfordern.  Ein Beispiel für einen Datennutzungsvertrag bietet das SOEP oder das Forschungsdatenzentrum des Robert-Koch-Instituts.

    Secure Remote Access

    Restriktivere Datenbereitstellungswege belassen die Forschungsdaten entweder auf Servern der FDZ oder Servern von Dienstleistern und gewähren den Datennutzenden dort auf Zugriff auf die Daten.

    Der Oberbegriff Secure Remote Access bzw. Remote Access beschreibt verschiedene Verfahren, bei denen ein Zugriff aus der Ferne, d. h. vom Arbeitsplatz der Datennutzenden, vorgenommen wird (Schiller, 2017 S. 7, Schiller & Welpton, 2015). Dies bedeutet, dass neben der Datenspeicherung auch die Datenverarbeitung auf Servern des FDZ stattfindet und dort entsprechende Software zur Analyse der Daten (z. B. Stata, SPSS, MAXQDA) bereitgestellt werden muss. Es bedarf für diesen Datenzugang einer besonders geschützten internen IT-Infrastruktur aus einem abgeschirmten Netzwerk von virtuellen Maschinen. Beispielhaft lässt sich hier die Technologie von JOSUA nennen, die einen sicheren Online-Zugang zur Forschungsdaten ermöglichen.

    Remote Desktop

    Bei der Datenbereitstellung durch das Remote Desktop-Verfahren können sich Nutzende mittels einer Software auf den Server des FDZ einwählen, die Daten einsehen und mit der auf dem Server bereitgestellten Software analysieren. Nutzende selbst können keine Dateien herunterladen oder importieren. Alle Dateien, die Nutzende im- oder exportieren möchten, werden vorher durch das FDZ geprüft (In-/Outputkontrolle). Das FDZ-Personal stellt den Datennutzenden nach erfolgter Prüfung die In- und Outputs bereit. 

    Remote Execution

    Bei der restriktiveren Variante, dem Remote Execution-Verfahren, die auch als „Kontrollierte Datenfern­verarbeitung“ (KDFV) oder „Fernrechnen“ bezeichnet wird, können sich Nutzende ebenfalls mit einer Software auf den Server des FDZ einwählen. Im Unterschied zu Remote Desktop haben sie aber keinen Einblick in die Daten selbst. Skripte oder Syntax zur Modifizierung bzw. Aufbereitung und Analyse der Daten werden quasi blind an das FDZ gesendet und anschließend durch das FDZ ausgeführt. Beim Ausführen der Skripte sowie der Übermittlung der Analyseergebnisse sind unterschiedliche Grade an Automatisierung notwendig. Alle Dateien, die Nutzende im- oder exportieren möchten, müssen vorher durch das FDZ geprüft werden (In-/Outputkontrolle). Meist werden die Outputkontrollen softwaregestützt durchgeführt, werden aber in der Regel zusätzlich intellektuell vom FDZ-Personal geprüft. Das FDZ-Personal stellt den Datennutzenden anschließend die In- und Outputs bereit.

    Gastwissenschaftsarbeitsplätze (GWAP)

    Bei dieser Form des Datenzugangs (auch als Gastaufenthalte, On-Site oder Secure Data Center bezeichnet) erfolgt der Datenzugriff vor Ort im FDZ. Dies stellt somit die restriktivste Variante des Datenzugangs dar.

    Wie bei Secure Remote Access findet die Datenspeicherung und Datenverarbeitung auf zentralen Servern des FDZ statt, Nutzende arbeiten aber nicht am eigenen Arbeitsplatz, sondern an speziell ausgestatteten Arbeitsplätzen vor Ort im FDZ. Diese sind in der Regel mit einem Rechner ohne Internetzugriff und ohne funktionsfähige USB-Anschlüsse, Laufwerke etc. ausgestattet.

    Überwiegend gibt es weitere Regularien für die Räumlichkeiten wie das Verbot von Fotografien, Abschreiben, Mobiltelefonen, Laptops und ähnliches. Nutzende können die Daten einsehen und mit der bereitgestellten Software analysieren. Es können durch die Nutzenden keine Daten ex- oder importiert werden. Alle Dateien, die Nutzende im- oder exportieren lassen möchten, werden vorher geprüft (In-/Outputkontrolle). Beispielhaft können hier die Möglichkeiten zur Nutzung von GWAP beim Forschungsdatenzentrum des IAB oder bei GESIS – Leibniz-Insititut für Sozialswissenschaften genannt werden.

    Eine nächste Ausbaustufe von GWAP kann die Vernetzung von GWAP verschiedener Institutionen sein. Die im Pilotprojekt RDCnet von KonsortSWD erarbeiteten Mindeststandards für eine Vernetzung von GWAP bezüglich Raumsicherheit und Kriterien hinsichtlich der technischen Umgebung können auch als Richtlinie für einfache GWAP verwendet werden.

    In den Beiträgen „Rechtliches: Urheberrecht & Datennachnutzung“ sowie „Tipps & Checklisten“ finden Sie sowohl Musterverträge als auch beispielhafte Nutzungsbedingungen für die Datennachnutzung, die bei den unterschiedlichen Zugangswegen eine Rolle spielen (können).

    Generell sollte der am wenigsten restriktive Datenbereitstellungsweg gewählt werden, der für die spezifischen Forschungsdaten notwendig ist, um die Daten möglichst zugänglich zu machen. Zudem gehen restriktivere Datenbereitstellungswege auch mit höheren Kosten und mehr Bearbeitungsaufwand einher.

    Der Artikel „Datenzugang. Einführung in das Thema Zugang zu Daten der Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften in Forschungsdatenzentren“ (DOI: 10.5281/zenodo.7347064) bietet eine übersichtliche und umfassende thematische Einführung.

    Datenpakete

    Die in das FDZ aufgenommene Daten können in der Regel nicht direkt zur Sekundärnutzung bereitgestellt werden. So müssen diese gegebenenfalls aufbereitet, anonymisiert und um standardisierte Metadaten angereichert werden. Meist werden die Daten als standardisierte Datenpakete an die Nutzenden bereitgestellt. Teilweise werden die Daten aber auch erst on demand durch Anfrage der Nutzenden zusammengestellt. 

    Die Daten können auf unterschiedliche Arten aufbereitet werden – je nach Zielgruppe und Nutzungszweck. Die folgende Beschreibung orientiert sich an der Terminologie zur Unterscheidung von Daten der EU:

    • Public Use File (PUF)
    • Campus Use File (CUF)
    • Scientific Use File (SUF)
    • Secure Use File (SecUF)

    Public Use Files (PUF) sind Daten, die der gesamten Öffentlichkeit zur Verfügung gestellt werden können, für die es also keinerlei rechtliche oder ethische Bedenken gibt. Im Bereich der Sozialwissenschaften sind dies oft stark anonymisierte Daten oder Strukturdateien.

    Campus Use File (CUF) bezeichnen Daten, die nur für die wissenschaftliche Lehre bereitgestellt werden. Campus Use Files werden normalerweise von der Bildungseinrichtung bereitgestellt, um den Studierenden, Dozenten und Mitarbeitern Zugang zu spezifischen Ressourcen zu ermöglichen, die für ihre akademischen oder administrativen Bedürfnisse relevant sind. Diese Dateien können beispielsweise Lernmaterialien für bestimmte Kurse, wissenschaftliche Artikel, Forschungsdatenbanken oder Softwarelizenzen umfassen.

    Der Zugriff auf Campus Use Files ist normalerweise auf Personen beschränkt, die mit der Bildungseinrichtung verbunden sind, und erfordert oft eine Authentifizierung über ein Campusnetzwerk oder ein spezielles Login-System. Dies dient dazu, den Zugriff auf lizenzierte oder urheberrechtlich geschützte Materialien zu kontrollieren und sicherzustellen, dass sie nur von berechtigten Personen genutzt werden.

    Scientific Use File (SUF) sowie Secure Use File (SecUF) bezeichnen Daten, die nur für die wissenschaftliche Forschung zur Verfügung gestellt werden, wobei SecUF nicht oder schwach anonymisiert oder nur pseudonymisiert sind. In der Praxis ist nicht die gesamte Terminologie verbreitet – oft werden auch SecUF als SUF bezeichnet, da sie auch für die Wissenschaft bereitgestellt werden. 

    Scientific Use Files werden oft für wissenschaftliche Studien, statistische Analysen oder andere Forschungsprojekte verwendet. Sie bieten Forschenden die Möglichkeit, auf umfangreiche und detaillierte Daten zuzugreifen, ohne dabei personenbezogene Informationen preiszugeben.

    Der Zugang zu Scientific Use Files ist in der Regel streng reglementiert und erfordert eine Genehmigung oder einen speziellen Vertrag mit der Institution, die die Daten bereitstellt. Dies dient dazu, sicherzustellen, dass die Daten nur für legitime wissenschaftliche Zwecke verwendet werden und die Privatsphäre der Betroffenen geschützt bleibt.

    Aus einem Datensatz können grundsätzlich auch mehrere Varianten erstellt werden, etwa ein Campus Use File für die Lehre sowie Scientific Use File für die Forschung, um Bedarfe unterschiedlicher Zielgruppen zu erfüllen.