Erhaltungsmaßnahmen

Datenerhalt

Nachdem Sie die eingegangenen Forschungsdaten gesichtet, selektiert, dokumentiert und aufbereitet haben, stehen im Zusammenhang mit der langfristigen Verwahrung der Daten spezifische Maßnahmen zur Datenerhaltung an. Damit die verwahrten Forschungsdaten nicht einfach technisch veralten und damit für die Forschungsgemeinschaft unbrauchbar werden, steht hier insbesondere die Gewährleistung der (technischen) Nachnutzbarkeit im Mittelpunkt.

Die Notwendigkeit für spezifische Erhaltungsmaßnahmen ist sowohl bedingt durch sich ändernde Anforderungen der Forschenden, die die Daten nachnutzen, als auch durch technologische Entwicklungen:

„Beispiele dafür sind neue Daten- oder Dateiformate, neue Schnittstellen, die von der Zielgruppe für die Arbeit mit neuen Softwareprogrammen oder Arbeitsumgebungen benötigt werden, neue wissenschaftliche Standards oder Arbeitsweisen, die eine Umrechnung in neue Maßeinheiten oder zusätzliche Parameter als Hintergrundinformation erfordern, oder auch die Erweiterung der Zielgruppe auf Laien.“
(Ludwig, Enke (2013), S. 36).

Maßnahmen

Zentral ist die andauernde Dokumentation der genutzten Technologien und der Bedürfnisse der Nutzendenzielgruppe. Die dafür nötige Beobachtung der technologischen Entwicklung (Technology Watch) und der Zielgruppe (Community Watch) sind entsprechend wesentliche Tätigkeiten in der Erhaltungsphase und entscheidend dafür, ob Maßnahmen zur langfristigen Nutzungsgewährleistung ergriffen werden müssen.

Community Watch

„Die vorgesehenen Zielgruppen mit ihren inhaltlichen und technischen Anforderungen und Möglichkeiten sind der wesentliche Referenzpunkt, um zu bestimmen, ob Informationsobjekte genutzt werden können oder unbenutzbar zu werden drohen.“

(nestor-Arbeitsgruppe Digitale Bestandserhaltung 2012, S. 29)

Die Zielgruppe ist maßgeblich dafür entscheidend, welche Datenformate die aktuell gängigen sind. Das bedeutet einerseits, dass auch seltene Formate legitim sind, wenn sie von der Nutzendenzielgruppe verarbeitet werden können. Andererseits kann sich auch im Falle der Nichtnutzbarkeit der vorliegenden Daten durch die Zielgruppe die Notwendigkeit einer Erhaltungsmaßnahme ergeben, selbst wenn es ein ansonsten geläufiges Datenformat betrifft.

Entsprechend ist die genaue und ständige Beobachtung der Zielgruppe eine wesentliche Aktivität im Rahmen der Datenerhaltung für die digitale Langzeitarchivierung von Forschungsdaten. Um diese Beobachtung systematisch durchführen zu können, eignen sich „z. B. selbst durchgeführte jährliche Interviews, Fragebögen oder Workshops mit Vertretern der vorgesehenen Zielgruppe oder die gezielte Auswertung von Benutzeranfragen und -wünschen.“ (nestor-Arbeitsgruppe Digitale Bestandserhaltung 2012, S. 29-30)

Technology Watch

Neben der Beobachtung der Zielgruppe ist auch eine stetige Bewertung der aktuellen technologischen Entwicklungen und Möglichkeiten nötig. Dadurch können sowohl die aktuell verwendeten Softwareumgebungen ständig reflektiert werden als auch innovative Alternativen in Betracht gezogen werden.

Prüfsummen

Prüfsummen sind auch in den Sozialwissenschaften ein relevantes Thema für den Langzeiterhalt von Forschungsdaten. In den Sozialwissenschaften werden oft große Mengen an Daten generiert, die über einen langen Zeitraum hinweg gesammelt und analysiert werden. Prüfsummen helfen dabei, die Qualität und Verlässlichkeit der Daten zu sichern und tragen zur Reproduzierbarkeit von Forschungsergebnissen bei. Außerdem stellen sie die Datenintegrität sicher, was von entscheidender Bedeutung für die Reproduzierbarkeit von Forschungsergebnissen ist. Prüfsummen werden vor allem dazu eingesetzt, um sicherzustellen, dass die Daten während der Erhaltung für die Archivierung unverändert bleiben. Dies ist besonders wichtig, da Forschungsdaten oft über einen langen Zeitraum hinweg aufbewahrt werden und möglicherweise auf verschiedenen Speichermedien oder in verschiedenen Archivierungssystemen gespeichert werden. Darüber hinaus können Prüfsummen auch bei der Übertragung von Daten zwischen verschiedenen Institutionen oder Forschungsteams eingesetzt werden. Durch den Vergleich der Prüfsummen vor und nach der Übertragung können potenzielle Datenverluste oder -beschädigungen erkannt werden.

Konkret ist eine Prüfsumme ein numerischer Wert, der aus einem digitalen Objekt berechnet wird. Der Algorithmus basiert auf den Bits der Datei und ändert sich selbst bei geringfügigen Veränderungen. Beim Kopieren können die Prüfsummen der Originaldatei und der Kopie verglichen werden, um Fehler zu erkennen. Bei der Überprüfung von Dateien durch Datenrepositorien werden in der Regel kryptographische Hash-Funktionen verwendet, die auf den Bitstream angewendet werden und die auf kleinste Änderungen mit unterschiedlichen Prüfsummen reagieren. Das Ergebnis der Algorithmen ist eine eindeutige Zeichenfolge, die sich ändert, sobald sich auch nur ein einziges Bit in den Daten ändert. Wenn die Daten später wiederhergestellt werden, kann die Prüfsumme erneut berechnet und mit der ursprünglichen Prüfsumme verglichen werden. Wenn die beiden Prüfsummen übereinstimmen, ist dies ein Hinweis darauf, dass die Daten unverändert und intakt sind.

In den Sozialwissenschaften werden oft allgemeine Prüfsummenalgorithmen verwendet, die auch in anderen Bereichen der Informatik und Datenverarbeitung Anwendung finden. Einige der gängigsten Prüfsummenalgorithmen sind:

MD5 (Message Digest Algorithm 5): MD5 ist ein weit verbreiteter Prüfsummenalgorithmus, der eine 128-Bit-Prüfsumme erzeugt. Obwohl MD5 immer noch häufig verwendet wird, gilt es mittlerweile als unsicher für kryptografische Anwendungen, da es Schwächen aufweist.
SHA-1 (Secure Hash Algorithm 1): SHA-1 ist ein weiterer bekannter Prüfsummenalgorithmus, der eine 160-Bit-Prüfsumme erzeugt. Auch SHA-1 gilt mittlerweile als unsicher für kryptografische Anwendungen.
SHA-256 (Secure Hash Algorithm 256-Bit): SHA-256 ist eine Weiterentwicklung des SHA-1-Algorithmus und erzeugt eine 256-Bit-Prüfsumme. Es wird als sicherer angesehen und findet in vielen Bereichen Anwendung, einschließlich der Langzeitarchivierung von Forschungsdaten.

Diese Prüfsummenalgorithmen können in den Sozialwissenschaften verwendet werden, um die Integrität von Forschungsdaten während der Archivierung, Übertragung oder Analyse zu gewährleisten. Durch den Vergleich der Prüfsummen vor und nach bestimmten Prozessen des Datenerhaltes und der Archivierung können potenzielle Datenverluste oder -beschädigungen erkannt werden.

Insgesamt sind Prüfsummen ein wichtiges Instrument, um die Integrität von Forschungsdaten in den Sozialwissenschaften zu gewährleisten.