Datenübernahme

  • Creative Commons License
    Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 Internationale Lizenz.

    Rechtliches: Anonymisierung & Pseudonymisierung

    Die Arbeit mit Forschungsdaten ist eine verantwortungsvolle Aufgabe. Das trifft in besonderem Maße auf die Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften zu, deren Forschungsgegenstand häufig Menschen sind und dadurch sensible, personenbezogene Daten den Kerngegenstand der Forschung bilden. Dabei können verschiedene ethische Prinzipien in Konflikt miteinander geraden, die wir Ihnen im Artikel zur Forschungsethik vorstellen.

    Auch rechtliche Vorgaben, wie z.B. Datenschutz– oder Urheberrechtsgesetze, spielen im Forschungsdatenmanagement für Datenkuratierende eine zentrale Rolle und regeln den Umgang mit Forschungsdaten auf EU-, Bundes- oder Länderebene. Eine Kernaufgabe von Datenmanager/-innen ist, diese Aspekte nicht nur zu kennen, sondern auch auf ihre Einhaltung aktiv hinzuwirken, Risiken und Verstöße zu erkennen und Verfahren zur Einhaltung dieser Prinzipien in ihren Institutionen zu entwickeln.

    Anonymisierung & Pseudonymisierung

    Für die Übernahme der auswählten Forschungsdaten in Ihr Datenzentrum sind in Zusammenhang mit der anfallenden Datenaufbereitung die Themen der Anonymisierung und Pseudonymisierung von sensiblen Daten relevant.

    AnonymisierungAnonymisierung bezieht sich auf den Prozess der Veränderung von personenbezogenen Daten, um sicherzustellen, dass keine direkte oder indirekte Identifizierung einer bestimmten Person möglich ist. Bei der Anonymisierung werden alle Informationen entfernt oder verändert, die Rückschlüsse auf die Identität einer Person ermöglichen könnten. Das Ziel besteht darin, die Daten so zu modifizieren, dass sie nicht mehr einer bestimmten Person zugeordnet werden können.
    PseudonymisierungPseudonymisierung bezieht sich auf den Prozess der Ersetzung von personenbezogenen Daten durch Pseudonyme oder Codes, um die direkte Identifizierung einer Person zu erschweren. Die Zuordnung zwischen den Pseudonymen und den tatsächlichen Identitäten wird in einer separaten Tabelle oder Datenbank aufbewahrt, die nur für autorisierte Personen zugänglich ist.

    [Quelle: Glossar | Praxis kompakt | Forschungsdaten und Forschungsdatenmanagement]

    Sowohl Anonymisierung als auch Pseudonymisierung sind Methoden zum Schutz der Privatsphäre und zur Gewährleistung des Datenschutzes. Sie werden eingesetzt, um sicherzustellen, dass sensible Daten in den Sozialwissenschaften nicht dazu verwendet werden können, einzelne Personen zu identifizieren oder ihre Privatsphäre zu verletzen. Durch diese Maßnahmen wird das Risiko einer unbefugten Offenlegung oder missbräuchlichen Verwendung von personenbezogenen Daten minimiert.

    Gängige Strategien zur Anonymisierung von sensiblen Daten sind beispielsweise:

    1. Aggregation: Bei der Aggregation werden personenbezogene Daten zusammengefasst und in aggregierter Form präsentiert. Dadurch werden individuelle Informationen verschleiert, während allgemeine Trends und Muster sichtbar bleiben.
    2. Generalisierung: Bei der Generalisierung werden personenbezogene Daten verändert, um die Identifizierung einzelner Personen zu erschweren. Beispielsweise können Altersangaben in Altersgruppen zusammengefasst oder genaue Ortsangaben auf Regionen reduziert werden.
    3. Datenmaskierung: Bei der Datenmaskierung werden bestimmte Teile der personenbezogenen Daten entfernt oder unkenntlich gemacht. Dies kann durch das Entfernen von Namen, Adressen oder anderen identifizierenden Informationen geschehen.
    4. Datensuppression: Bei der Datensuppression werden bestimmte Datensätze oder Variablen entfernt, um die Identifizierung von Personen zu verhindern. Dies kann beispielsweise bei kleinen Stichproben oder seltenen Merkmalen erforderlich sein.
    5. Top-/Bottom-Coding: Diese Strategie wird häufig in der Statistik angewendet, um Ausreißer oder extreme Werte zu behandeln. Beim Top-Coding werden Werte, die über einem bestimmten Schwellenwert liegen, auf diesen Schwellenwert begrenzt. Das bedeutet, dass alle Werte, die über diesem Schwellenwert liegen, auf den Schwellenwert selbst gesetzt werden. Dadurch werden extreme Werte abgeschnitten und die Identifizierung einzelner Personen mit ungewöhnlich hohen Werten wird erschwert. Beim Bottom-Coding werden hingegen Werte, die unter einem bestimmten Schwellenwert liegen, auf diesen Schwellenwert begrenzt. Das bedeutet, dass alle Werte, die unter diesem Schwellenwert liegen, auf den Schwellenwert selbst gesetzt werden. Dadurch werden extreme Werte nach unten begrenzt und die Identifizierung einzelner Personen mit ungewöhnlich niedrigen Werten wird erschwert. Top-/Bottom-Coding kann in verschiedenen Kontexten angewendet werden, beispielsweise bei Einkommensdaten, wo sehr hohe oder sehr niedrige Einkommen als Ausreißer betrachtet werden können. Durch die Anwendung dieser Strategie wird die Privatsphäre der Personen geschützt, während wichtige Informationen über die Verteilung der Daten erhalten bleiben. Zu berücksichtigen ist dabei, dass Top-/Bottom-Coding auch Auswirkungen auf die statistische Analyse haben kann, insbesondere auf die Verteilung der Daten und die Schätzung von Parametern. Daher sollte diese Strategie mit Vorsicht angewendet werden und die Auswirkungen auf die Analyse sorgfältig berücksichtigt werden.

    Es ist wichtig zu beachten, dass die Wahl der Anonymisierungsstrategie von verschiedenen Faktoren abhängt, wie dem spezifischen Forschungskontext, den Datenschutzbestimmungen und den Anforderungen der Datenanalyse. Es ist ratsam, sich an die geltenden Datenschutzrichtlinien und -gesetze zu halten und gegebenenfalls Rücksprache mit Datenschutzexperten zu halten.

    Es gibt hilfreiche Arbeitspapiere des Verbundes Forschungsdaten Bildung, die sowohl die Anonymisierung insbesondere von qualitativen sowie zur Anonymisierung von quantitativen Forschungsdaten beleuchtet. Das kostenfreie Anonymisierungstool QualiAnon unterstützt bei der Anonymisierung/Pseudonymisierung von Textdaten.

    Zugriffskontrollen

    Schließlich gibt es bei Daten, bei denen eine umfassende Anonymisierung nicht hinreichend gewährleistet werden kann, die Möglichkeit einer institutionell umgesetzten Zugriffskontrolle.

    Ein Beispiel dafür sind die Empfehlungen der DGPs zum Umgang mit Forschungsdaten. Das FDZ am ZPID hat diese Empfehlungen in Form eines Zugriffsklassenmodells umgesetzt: Für Daten, die aus datenschutz- und forschungsethischen Gründen besondere Anforderungen haben, bietet das ZPID verschiedene Daten-Freigabestufen an.