Selbstlerneinheit Forschungsdatenmanagement
FDM-Einführung für Studierende: Umgang mit Daten während des Studiums – Grundsätze und Praxis
Der Kurs „Umgang mit Forschungsdaten während des Schreibens der Masterarbeit - Grundsätze und Praxis“ wurde als Einstieg in das Forschungsdatenmanagement für Studierende der Universität Rostock von der Universitätsbibliothek konzipiert. Die folgende Selbstlerneinheit vermittelt Ihnen Verfahrensweisen und Methoden für besseres Datenmanagement.
Der Kurs dauert ca. 1 Stunde.
Wenn Sie Fragen zum Forschungsdatenmanagement haben, wenden Sie sich gern und jederzeit an das Team Forschungsdaten der Universitätsbibliothek Rostock.
Prolog
Forschungsdaten sind Daten, die im Rahmen von Forschungsprozessen wie beispielsweise auch einer Bachelor- oder Masterarbeit erhoben, generiert oder anderweitig erfasst werden. Diese Daten können aus unterschiedlichen Quellen stammen und verschiedene Formate aufweisen, wie zum Beispiel Text-, Bild- oder Audio-Dateien. Forschungsdaten bilden die Grundlage für Forschungsergebnisse und sind damit essenzieller Bestandteil der Wissenserkenntnis.
Beispiele für Forschungsdaten sind: Messdaten und Laborwerte, audiovisuelle Objekte, methodische Testverfahren, Software (Prototypen, Simulationsmodelle), Konfigurationsdateien für Maschinen, Objekte aus Sammlungen und Proben, Umfrage-Daten und Fragebögen, Plots sowie eigene Texte und Notizen.
Forschungsdatenmanagement (FDM) vereint alle mit Forschungsdaten zusammenhängende Aktivitäten: das Planen des Forschungsprojektes, das Erstellen und Sammeln, Bearbeiten, das Analysieren, das Archivieren und Publizieren, das Teilen und Nachnutzen der Daten.
Persönliche Vorteile für Studierende
Das Forschungsdatenmanagement bietet Studierenden eine Reihe von Vorteilen. Das systematische Erfassen und Speichern der Daten minimiert das Risiko eines Datenverlusts während des Schreibens der Masterarbeit. Eine gute Dokumentation der Arbeitsumgebung, der Software sowie Versionsangaben und Metadaten verbessern die Reproduzierbarkeit und Nachnutzbarkeit der Daten, sowohl durch den Studierenden selbst als auch durch andere Personen, die auf die Daten zugreifen.
Angewandtes Forschungsdatenmanagement bietet zahlreiche Vorteile, wie die Minimierung von Datenverlusten, der Beleg der Arbeitsweise, die Nachvollziehbarkeit und Nachnutzbarkeit der Daten sowie die Gewährleistung rechtskonformer Datenverarbeitung und Speicherung.
Das Forschungsdatenmanagement trägt auch zur Verbesserung der Zusammenarbeit zwischen Studierenden und den Betreuer:innen bei und hilft, bei der Reduzierung von Fehlern. Dadurch können Forschungsergebnisse schneller und einfacher besprochen und ausgetauscht werden. Durch die Verwendung offener Software im Forschungsprozess und die Verwendung nicht-proprietärer Formate können die Forschungsdaten langfristig nachgenutzt werden.
Gemeinschaftliche Vorteile für die Wissenschaftscommunity
Das Forschungsdatenmanagement bietet nicht nur den Studierenden während der Arbeit im Projekt, sondern auch der Forschungsgemeinschaft zahlreiche Vorteile. Forschungsdatenmanagement fördert die Validierbarkeit, Reproduzierbarkeit und Transparenz der Forschung.
Darüber hinaus können Forschungsdaten für neue Projekte nachgenutzt und neue Forschungsfragen generiert werden. Dies trägt zur Effizienzsteigerung und zur Vermeidung von Doppelarbeit in der Forschung bei und schafft Synergien für künftige, ähnliche Vorhaben.
Durch das systematische Erfassen und Speichern der Forschungsdaten entstehen bessere Grundlagen für Überblicksanalysen und Metastudien. Diese können einen umfassenderen Einblick in den Forschungsgegenstand ermöglichen und zu einem besseren Verständnis der Zusammenhänge führen. Insgesamt trägt das Forschungsdatenmanagement somit zur Qualitätssteigerung und Effizienzverbesserung in der Forschung bei.
Der Forschungsdatenlebenszyklus beschreibt den vollständigen Weg von der Entstehung bis zur Nachnutzung von Forschungsdaten.
Der FDM-Prozess wird in der Regel in verschiedene Phasen unterteilt. Hierzu gehören die Planung, Datenerhebung, Datenaufbereitung, Datenanalyse, Datenarchivierung, Datenpublikation und Wiederverwertung. Der idealtypische FDM-Prozess dient dabei nur als Orientierungshilfe.
Der FDM-Prozess kann für jede Disziplin anders sein, da unterschiedliche Anforderungen an die Handhabung von Forschungsdaten bestehen. Eine sorgfältige Umsetzung aller Phasen sind daher von entscheidender Bedeutung, um hochwertige Forschungsergebnisse zu erzielen und Vertrauenswürdigkeit der Forschungsdaten zu gewährleisten.
Im Folgenden werden einzelne Phasen des FDM-Zyklus beleuchtet und wichtige Methoden dabei erläutert.
Planung – Suchen von veröffentlichten Forschungsdaten
Im Forschungsdatenmanagement-Lebenszyklus spielt die Planungsphase eine zentrale Rolle. Eine Frage dabei ist, ob die Forschungsdaten selbst generiert werden oder ob sie nachgenutzt werden.
Wenn Sie für Ihre Masterarbeit veröffentlichte Forschungsdaten nachnutzen wollen, suchen Sie dazu am besten in Repositorien.
Ein Repository ist ein digitaler Speicherort für die strukturierte Ablage von Dokumenten zur öffentlichen Nachnutzung dieser. Dies ist in vielen Fällen eine Webplattform, auf der man mithilfe einer Suche Dokumente suchen und herunterladen kann. Es gibt Repositorien für wissenschaftliche Artikel, Verwaltungsdaten oder auch für Forschungsdaten auf die wir uns im Folgenden beziehen möchten.
Die Plattform re3data sammelt Informationen zu Repositorien und kann damit als Suchmaschine für relevante Repositorien dienen. Wir empfehlen die Suche von Forschungsdaten in fachspezifischen Repositorien vor allgemeinen (d.h. disziplin-unabhängigen) Repositorien. Beispiel für ein allgemeines Repository ist Zenodo.
Für Forschende in Rostock gibt es den lokalen Dokumentenserver RosDok, auf dem auch einige Forschungsdaten veröffentlicht sind.
Planung – Forschungsdaten nachnutzen
Wenn Sie Forschungsdaten für Ihre Masterarbeit nachnutzen, müssen Sie prüfen, ob die Lizenz das Nachnutzen erlaubt. Lizenzen für die angegebene Forschungsdaten klärt Sie darüber auf, wie Sie die Forschungsdaten nachnutzen können oder ob die Lizenz diese Nachnutzung erlaubt. Eine Lizenz ist ein Nutzungsvertrag zwischen den Rechteinhaber:innen und den Nachnutzenden, der die Möglichkeiten der Nachnutzung regelt. Dies kennst du vielleicht schon von Softwarelizenzverträgen, die bei der Nutzung einer Software akzeptiert werden müssen. Ähnlich verhält es sich für Forschungsdaten, wo eine Lizenz klärt, wie diese genutzt werden dürfen.
Creative Commons
Die Creative Commons sind Urheberrechtslizenzen und -werkzeuge. Sie sind modular aufgebaut, um urheberrechtlich geschützte Werke von den Urhebern mit Rechten für die Weiterverwertung zu versehen. Was die einzelnen Symbole bedeuten, finden Sie auf der Webseite About License CC.
Software Lizenzen
Wenn die zu veröffentlichten Forschungsdaten Software sind, gibt es unter Software-Lizenzen Erklärungen für die weitere Nutzung.
GNU Free Documentation Licence
Die GNU-Lizenz für freie Dokumentation ist eine Copyleft-Lizenz, die für freiheitsgewährende Software-Dokumentationen gedacht ist, die aber auch für andere freie Inhalte verwendet wird. GNU Free Documentation.
Planung – Daten nachnutzen
Um die gefundenen Forschungsdaten zu verstehen, sollten Sie vorhandene Dokumentation (z.B. in Form einer README-Datei) lesen.
Eine Readme-Datei – häufig als Readme.txt oder Readme.md erstellt – enthält üblicherweise wichtige Informationen zu den jeweiligen Daten, dem Projekt oder der jeweiligen Software. Oftmals liegt eine solche Datei in der obersten Verzeichnisebene. Sie sollte gelesen werden, bevor man Daten nachnutzt, um mehr Kontextinformationen über die Daten zu gewinnen. Beispiel einer README-Datei
Manchmal finden sich diese oder zusätzliche Informationen auch in anderen Dokumenten. Dies kann eine einzelne Datei sein, Teil einer Publikation oder auch Teil von Analyse-Workflows (z.B. als Jupyter-Notebook oder Rmarkdown-Dokument).
- Forschungsvorhaben (Projekttitel oder Person) und Kontext der Erhebung (Projektziele, Hypothesen),
- Erhebungsmethode (Sampling-Methode, Instrumente, verwendete Hard- und Software, sekundäre Datenquellen, Erhebungsort und Erhebungszeitraum),
- Struktur der Daten und deren Beziehungen zueinander (wie sind die Daten aufgebaut, was enthalten sie; bei mehreren Datensätzen: wie gehören sie zusammen, welche Daten braucht man, um die anderen Daten richtig zu interpretieren),
- Qualitätsmaßnahmen (Bereinigung, Gewichtung, Datenprüfung etc.) und Erklärungen für Codes und Labels (Codebook),
- Datenversionen und die enthaltenen Änderungen und Informationen zum Zugang, Nutzungsbedingungen und Vertraulichkeit.
Planung – nachgenutzte Daten zitieren
Nach dem Suchen der Forschungsdaten, dem Prüfen der Lizenz und lesen der Dokumentation/README-Datei, müssen Sie die Forschungsdaten in Ihrer Arbeit nachweisen und als Teil der guten wissenschaftlichen Praxis zitieren. Oftmals gibt es in Repositorien oder Plattformen, bei denen die Daten verfügbar sind, Hinweise über eine korrekte Zitation. Dies kann beispielsweise auch in Form einer Citation.CFF-Datei geschehen, die Informationen über die Zitation der Daten anhand des Citation File Format (CFF) enthält.
Zitationsmöglichkeiten
1.a. Creator (Veröffentlichungsdatum): Titel. Version. Publikationsagent. Typ der Ressource. Identifier.
1.b.
Creator: Maximal fünf Namen sind möglich, danach ist mit ‘et al.’ abzukürzen.
Veröffentlichungsdatum: Hier wird nur das Jahr der Veröffentlichung des Datensatzes angegeben.
Titel: Hier sind der Titel und eventuell weitere Titel der Studie/des Datensatzes anzugeben.
Version: Die Version repräsentiert die Versionsnummer der Ressource.
Publikationsagent: Name des Datenzentrums/der Institution, das/die Ressource veröffentlicht hat.
Identifier: Hier erscheint ein Persistent Identifier. Für Angaben mit DOI-Namen kann der Identifier optional im Originalformat und in einem Http-Format erscheinen. Um direkt auf die Quelle des Objektes verweisen zu können, sollte der DOI-Name entweder mit der URL des Resolvers abgedruckt (http://doi.org/doi:10.4232/1.10770 ) oder – platzsparender – mit einem Hyperlink (doi:10.4232/1.10770) unterlegt werden.
2. Zitation nach FORCE 11:
Zitation gemäß der Empfehlung von FORCE 11:
Datenzitation:
Autor:in(en) (Publikationsjahr): Titel der Forschungsdaten. Datenrepositorium oder Archiv. Version. Weltweit persistenter Identifikator (vorzugsweise als Link)
Zitation von Software:
Autor:in(en) (Publikationsjahr): Titel der Software (Versionsangabe) [Form, zum Beispiel Computer Software] Quelle als URL und/oder DOI (Datum des Abrufs)
Weitere Informationen zu Zitationsschemata für Forschungsdaten
Planung – Daten selbst erzeugen
Neben dem Nachnutzen von bereits vorhandenen Daten können Sie natürlich auch Daten selbst erzeugen.
Wenn Sie mit personenbezogenen, medizinischen Daten oder betrieblichen Daten während Ihrer Masterarbeit arbeiten, sollten Sie folgende Aspekte beachten.
- Wenn Sie die Daten selbst erheben und es sich um personenbezogene Daten handelt, müssen Sie die informierte Einwilligung einholen und können sich über die Vorgehensweise bei der Datenschutzbeauftragten informieren.
- Bei medizinischen Fragen wenden Sie sich an die Ethikkommission der Universität Rostock.
- Sollten Sie mit außeruniversitären Einrichtungen kooperieren, ist es sinnvoll eine Vereinbarung über die Nutzung und Weitergabe der Forschungsdaten mit eventuellen Geheimhaltungsklauseln zu schließen. So weiß jeder Partner, wie mit den Daten umzugehen ist.
Überblick über Aspekte, die in der Planungsphase zu prüfen sind.
Planung – Allgemeine Informationen
In dieser Planungsphase der Masterarbeit werden wichtige Entscheidungen getroffen. Es wird festgelegt, wie die Forschungsdaten erfasst, gespeichert, bearbeitet und archiviert werden sollen. Ziel ist es, sicherzustellen, dass die Daten korrekt und sicher aufbewahrt werden.
Ein wichtiger Aspekt ist zudem die Bestimmung der Datenformate, die verwendet werden sollen. Hierbei müssen die Anforderungen der Forschungscommunity berücksichtigt werden. Darüber hinaus muss die Wahl eines geeigneten Speicher für die Daten getroffen werden. Dabei müssen sowohl die Kosten als auch die Sicherheit und Zuverlässigkeit berücksichtigt werden.
Es ist sicherzustellen, dass die Daten während des gesamten Projekts vor Verlust, Beschädigung oder unbefugtem Zugriff geschützt sind. Sprechen Sie daher mit Ihrer/m Betreuer:in.
Hilfreich ist es, gleich zu Beginn mit den Dokumentation (siehe oben) für Ihre Masterarbeit zu beginnen.
Um alle die genannten Informationen zu sammeln, empfiehlt es sich, einen Datenmanagementplan (DMP) zu erstellen.
Ein Datenmanagementplan (DMP) ist ein Dokument, das Studierende dabei unterstützt, ihre Forschungsdaten effektiv und nachhaltig zu verwalten. Die Phase des Erstellens eines DMP ist Teil der Planungsphase. Ein DMP beschreibt alle Phasen und Tätigkeiten im Lebenszyklus der Daten.
Es werden grundlegende Informationen wie Projektname, Drittmittelgeber, Projektpartner:innen etc. des Projekts notiert. Informationen zur Datenerhebung, -speicherung, -analyse und –freigabe werden festgehalten. Aussagekräftige DMPs beleuchten zudem Aspekte über die Strukturierung der Daten, der Metadaten und Antworten auf die Fragen des Datenerhalts. Der DMP ist ein Instrument, das sicherstellt, dass Forschungsdaten unter Einhaltung ethischer und rechtlicher Vorgaben behandelt werden.
Ein DMP ist ein lebendes Dokument, das während der Projektlaufzeit immer wieder angepasst werden muss. Er enthält einen Überblick über Abläufe (Datenschutz, Löschung/Anonymisierung von Daten, Speicherkapazitäten, Datenströme) und hilft damit Probleme im Vorhinein zu identifizieren und Lösungen zu erarbeiten. Darüber hinaus ermöglicht die lückenlose Dokumentation das Nachnutzen der Daten.
Die Universitätsbibliothek bietet den Studierenden den Research Data Management Organiser (RDMO) zur Erstellung eines DMP Ihrer Projekte an. Ein gemeinsames Arbeiten an einem DMP mit anderen Projektteilnehmer:innen ist möglich.
Mehr Informationen zur Nutzung von RDMO erhalten Sie auf der Seite: rdmo.uni-rostock.de
Gute wissenschaftliche Praxis
Kodex „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ – in diesem ist skizziert, wie sich wissenschaftlich arbeitenden Personen zu verhalten haben. Es wird in einigen Abschnitten konkret der empfohlene Umgang mit Forschungsdaten beleuchtet und die Erwartung der DFG dargelegt.
Im Kodex "Leitlinien zur Sicherung guter wissenschaftlicher Praxis" wird betont, dass Forschungsdaten als Grundlage wissenschaftlicher Erkenntnis gelten und daher sorgfältig behandelt werden müssen.
Die Datengewinnung sollte präzise dokumentiert und nachvollziehbar sein, um die Reproduzierbarkeit und Verifizierbarkeit von Forschungsergebnissen zu gewährleisten. Zudem wird eine Aufbewahrung der Daten für eine angemessene Zeitdauer empfohlen, um die Nachvollziehbarkeit der Ergebnisse auch nach Abschluss des Projekts sicherzustellen.
Der Umgang mit Forschungsdaten soll auf ethischen Prinzipien basieren und auch die Rechte Dritter berücksichtigen. Der Kodex fordert außerdem, dass Forschende ihre Daten verantwortungsvoll handhaben und bei der Veröffentlichung und Weitergabe der Daten darauf achten, dass keine personenbezogenen Informationen oder Urheberrechtsverletzungen vorliegen.
FAIR-Kriterien
Die FAIR-Kriterien beschreiben die Eigenschaften, die Forschungsdaten erfüllen sollten, um bestmöglich genutzt werden zu können. Auch Studierende sollten darauf achten, dass ihre Forschungsdaten FAIR sind, um sie langfristig verwenden zu können und gegebenenfalls bestmöglich zur Veröffentlichung vorzubereiten.
Das Akronym FAIR steht dabei für Findable, Accessible, Interoperable und Reusable. Findable bedeutet, dass die Daten einfach auffindbar sein müssen, damit sie genutzt werden können. Accessible bedeutet, dass die Daten zugänglich sein müssen, d.h. sie müssen verfügbar sein und die Nutzungsbedingungen müssen klar sein. Interoperable bedeutet, dass die Daten mit anderen Daten und Systemen zusammenarbeiten können müssen. Reusable bedeutet, dass die Daten nachnutzbar sein müssen, d.h. sie sollten in der Lage sein, von anderen wiederverwendet zu werden, um neue Erkenntnisse zu generieren.
Indem Forschungsdaten diese Kriterien erfüllen, wird ihre Wiederverwendung und Verwendung durch andere Forschende erleichtert und somit die Effektivität und Effizienz von Forschungsprozessen verbessert.
Weiterführende Informationen zu den FAIR-Kriterien.
CARE-Kriterien
Die CARE-Kriterien sind vor allem für die Studierenden relevant, die in den Geisteswissenschaften mit historischen Quellen und Artefakten arbeiten.
Die CARE-Prinzipien beschreiben die grundlegenden Anforderungen an ethisch verantwortungsvolles Datenmanagement. Das Akronym steht für Collective Benefit (kollektiver Nutzen), Authority to Control (Autorität zur Kontrolle), Responsibility (Verantwortung) und Ethics (Ethik).
Collective Benefit fordert, dass Datenmanagement-Entscheidungen im Interesse aller Beteiligten getroffen werden sollten. Authority to Control bedeutet, dass Datenmanager die Kontrolle über die Daten haben sollten, um ihre Schutzwürdigkeit und Verfügbarkeit zu gewährleisten. Responsibility umfasst die Pflicht, die Daten zu schützen und sicherzustellen, dass sie korrekt genutzt werden. Ethics bezieht sich auf die Notwendigkeit, bei der Datenverarbeitung und -nutzung ethische Grundsätze einzuhalten.
Zusammen bieten die CARE-Prinzipien eine umfassende Richtlinie für verantwortungsvolles Datenmanagement, das den Interessen aller Beteiligten dient.
Daten werden in verschiedenen Formaten gespeichert, um sie zu sammeln, zu verarbeiten und zu sichern.
Abhängig von der verwendeten Software und den Zielen des Forschungsprojekts eignen sich bestimmte Dateiformate besser als andere. Es gibt spezialisierte Programme mit eigenen Dateiformaten, die meist geschlossen sind und nur mit der entsprechenden Software geöffnet werden können. Oft sind jedoch auch alternative Exportformate verfügbar.
Zur Weiterverarbeitung und zum Datenaustausch zwischen verschiedenen Programmen und Herstellern sollten offene Dateiformate bevorzugt werden. Offene Formate sind nicht rechtlich oder technisch eingeschränkt und können sowohl von geschlossener als auch von freier oder Open-Source-Software implementiert werden.
XLS - CSV
Wenn ein Studierender mit Excel arbeitet, legt er die Daten meist als XLS-Datei (geschlossenes Dateiformat) ab. Um seine Forschungsdaten jedoch unabhängig nutzen zu können, ist es sinnvoll, die Tabelle als CSV-Datei (offenes Dateiformat) abzulegen.
Excel-Dateien im XLS-Format sind ausschließlich kompatibel mit ausgewählten Anwendungen wie MS Office oder OpenOffice, die sie öffnen und verändern können. Hingegen können CSV-Dateien mithilfe jeglicher Text-Editoren geöffnet und angepasst werden. Es wird empfohlen, die Daten als CSV-Dateien zu speichern, wenn man sie bis zu 10 Jahre nutzen möchte.
Mehr Informationen finden Sie auf der Seite Forschungsdateninfo.
Den Studierenden der Universität Rostock stehen folgende Ressourcen zur Ablage und zum Austausch Ihrer Daten zur Verfügung.
ITMZ Homedirectory
Auf den öffentlichen Windows-Systemen der Universität Rostock (PC-Pools, Anwendungsserver Uniapps, usw.) finden Sie Ihr persönliches Homedirectory automatisch als Laufwerk R: vor. Wir empfehlen auf diesen Systemen die Speicherung Ihrer Daten unbedingt auf dem Homedirectory vorzunehmen.
Projektlaufwerk
Die Universität Rostock stellt Projektlaufwerke auf Antrag zur Verfügung. Es dient der Speicherung von projektbezogenen Daten und der gemeinsamen Nutzung durch mehrere Mitarbeiter:innen.
SharePoint
Wissen und Daten einer Arbeitsgruppe oder auch arbeitsgruppenübergreifend können mit dem SharePoint der Universität gesammelt und verwaltet werden.
Unibox
Mit dem Dienst "Unibox" ist es möglich zwischen den (externen) Nutzer:innen, Desktop-Computern und mobilen Endgeräten Daten zu synchronisieren und zu speichern. Der Datenzugriff erfolgt dabei wahlweise per Webbrowser, Desktopanwendung oder über mobile Clients. Für diesen Dienst stehen jedem/jeder Nutzer:in 20 GB Speicherplatz zu Verfügung.
Back-up
Das Erstellen von regelmäßigen Back-ups ist ein wichtiger Teil des Datenmanagements, um die Sicherheit und Integrität der Daten zu gewährleisten. Bei der Auswahl der Back-up-Strategie gibt es verschiedene Optionen, wie zum Beispiel das Back-up des gesamten Systems oder nur bestimmter Ordner.
Es ist wichtig, dass mindestens drei Kopien der Daten erstellt werden, um sicherzustellen, dass die Daten auch bei einem Ausfall einer Kopie noch vorhanden sind. Zusätzlich sollten diese Kopien auf mindestens zwei verschiedenen Speichermedien gespeichert werden, um das Risiko von Datenverlust durch z.B. Hardwarefehler zu minimieren. Schließlich sollte mindestens eine dieser Kopien dezentral hinterlegt sein, um immer noch auf eine Kopie der Daten zugreifen zu können.
Insgesamt ist es wichtig, eine Back-up-Strategie zu wählen, die zu den individuellen Bedürfnissen und Anforderungen passt, um sicherzustellen, dass wichtige Daten immer verfügbar und sicher gespeichert sind.
Beispiel
- Die Erstellung der Masterarbeit und die Speicherung erfolgen auf dem Laptop-Laufwerk.
- Zusätzlich werden die Daten auf dem ITMZ Homedirectory abgelegt.
- Darüber hinaus werden die Daten auf einer externen Festplatte gespeichert.
Vergleich von Back-up und den Speicherorten der Universität Rostock
Speicherort | Eigene Infrastruktur | Angebote der Universität Rostock | Angebote der Universität Rostock |
---|---|---|---|
Beispiel | PC, Laptop, externe Speicher | Homedirectory/ Projektlaufwerk | Unibox |
Nutzung | lokales Arbeiten | lokales Arbeiten mit Uni-Services – Teilen von Daten | kooperatives Arbeiten |
Arbeitsweise | lokale Arbeitskopie | Netzlaufwerk | Cloudspeicher |
Datensicherheit | erhöhtes Risiko des Datenverlusts | geringes Risiko des Verlusts, des Diebstahls oder des unautorisierten Zugriffs | geringes Risiko des Verlusts, des Diebstahls oder des unautorisierten Zugriffs |
Back-ups | selbst verantwortlich | regelmäßig, automatisch | selbst verantwortlich |
Verzeichnisstruktur
Eine sinnvolle Ordnerstruktur ist eine wichtige Voraussetzung für ein effektives Forschungsdatenmanagement. Es ist empfehlenswert, die betreuende Person nach der optimalen Ordnerstruktur in der Forschung oder entsprechenden Empfehlungen zu fragen.
In der Regel sollten Ordner strukturell oder inhaltlich zusammengehörende Daten enthalten. Die Anzahl an Ordnern und Unterordnern sollte so gering wie möglich gehalten werden, um eine unnötige Komplexität zu vermeiden. Eine selbsterklärende Benennung und die Vermeidung unspezifischer Ordnernamen sind ebenfalls wichtig, um eine schnelle und einfache Identifikation der Daten zu gewährleisten.
Zudem sollten Namenskonventionen festgelegt und konsequent genutzt werden, um eine einheitliche Benennung der Dateien zu gewährleisten. Durch eine klare Ordnerstruktur und eine einheitliche Namensgebung kann das Auffinden und Verwalten von Forschungsdaten erheblich erleichtert werden.
Versionierung von Daten
Ein wichtiger Aspekt bei der Benennung von Dateien und Ordnern ist die Vermeidung von Leer- und Sonderzeichen sowie die Verwendung aussagekräftiger Namen. Dabei sollte ein einheitliches Schema und eine logische Struktur für alle Dateien und Ordner verwendet werden. Eine erweiterte Möglichkeit der Versionierung bietet sich durch den Einsatz von Software-Werkzeugen wie z.B. Git. Dabei ist es empfehlenswert, die Versionierung auch in der Benennung mit einzubeziehen, z.B. durch die Verwendung von "01", "02", "03" etc. für verschiedene Versionen. Eine Datumsangabe in der Form "JJJJMMTT" ermöglicht zudem eine chronologische Sortierung. Dokumentierte Namenskonventionen oder genutzte Abkürzungen sollten ebenfalls festgelegt und konsequent genutzt werden, um eine einheitliche und klare Benennung von Dateien und Ordnern zu gewährleisten.
Beispiel
v20180312_h2oProbe1_original.jpg
v20180315_h2oProbe1_KDS_Ausschnitt_01.jpg
v20180315_h2oProbe1_KDS_Ausschnitt_02.jpg
v20180324_h2oProbe1_KDS_Ausschnitt_bearbeitet_bunt.jpg
Definition Metadaten
Metadaten sind strukturierte Daten, die Informationen über Merkmale anderer Daten enthalten.
Sie werden verwendet, um Daten zu beschreiben, zu organisieren und zu verwalten. Metadaten können auf verschiedene Arten angewendet werden, um Forschungsdaten zu beschreiben und zu klassifizieren, um sie für eine spätere Wiederverwendung besser zugänglich zu machen. Im Einzelnen können Metadaten folgende Informationen über Forschungsdaten enthalten:
- Analyseparameter wie Zeiträume, Einheiten und andere Angaben, die für die Analyse der Daten relevant sind
- Informationen zur Arbeitsumgebung, in der die Daten erstellt oder verarbeitet wurden, wie z.B. das verwendete Betriebssystem und die verwendete Software
- Informationen über die verwendete Technologie, z.B. Art und Spezifikationen von Geräten oder Instrumenten, die bei der Datenerhebung eingesetzt wurden
- Erläuterungen zu Variablen und Labels, die in den Daten verwendet werden, um ihre Bedeutung zu erklären und ihre Interpretation zu erleichtern
- Beschreibung von Datenbereinigungsmaßnahmen, die während der Datenvorbereitung durchgeführt wurden, wie z.B. das Entfernen von Ausreißern oder das Korrigieren von fehlenden Werten
- Informationen über den Zugang und die Nutzung der Daten, z.B. durch die Angabe von Lizenzen oder Nutzungsbedingungen
- Zusatzmaterial wie Codebücher, Laborbucheinträge oder READ-ME-Dateien, die weitere Informationen zu den Daten und deren Nutzung bereitstellen.
Die Verwendung von Metadaten erleichtert die Organisation, das Auffinden und die Wiederverwendung von Forschungsdaten, indem sie zusätzliche Informationen und Kontext bereitstellen. Darüber hinaus können Metadaten dazu beitragen, die Transparenz und Nachvollziehbarkeit der Forschungsergebnisse zu erhöhen.
Metadatenstandards
Ein Screenshot aus RosDok mit den jeweiligen Metadaten zu den veröffentlichten Daten.
Beispiel für Metadatenstandard – Dublin Core
Dublin Core ist ein Satz von Metadatenstandards, die für die Beschreibung von digitalen Ressourcen wie Websites, Dokumenten und Bildern verwendet werden kann. Dieser Standard wurde 1995 entwickelt und hat sich seither zu einem international anerkannten Standard für die Beschreibung von digitalen Ressourcen entwickelt.
Dublin Core besteht aus einer Reihe von
15 Standardelementen wie Titel, Autor, Datum
und Beschreibung, die Informationen über
eine digitale Ressource liefern. Diese Elemente
können erweitert und angepasst werden,
um zusätzliche Informationen bereitzustellen.
Mehr Informationen zu Dublin Core
Wenn Sie die Daten Ihrer Masterarbeit veröffentlichen wollen, suchen Sie sich am besten ein fachspezifisches Repositorium über re3data.
Ein qualitativ hochwertiges fachspezifisches Repository zeichnet sich durch die effiziente Sammlung, Organisation und Zugänglichkeit von relevanten Fachinformationen aus. Wichtige Merkmale sind:
- Relevante Inhalte, die aktuell und korrekt sind.
- Klar strukturierte Organisation nach Themen oder Kategorien.
- Suchfunktionen mit Filter- und Sortieroptionen.
- Metadaten zur Identifizierung von Ressourcen.
- Qualitätskontrolle durch Peer-Review oder andere Verfahren.
- Offener Zugang für uneingeschränkte Ressourcennutzung.
- Nutzerfreundliche Dokumentation.
- Kompatibilität mit verschiedenen Dateiformaten und Standards.
- Gemeinschaftsbeteiligung durch Ressourcenbeiträge, Kommentare und Bewertungen.
- Barrierefreiheit unterstützt diverse Benutzergruppen.
- DOI-Vergabe für Inhalte, um Ressourcen eindeutig zu identifizieren und belegen.
Im Zusammenhang mit Forschungsdaten müssen verschiedene rechtliche Aspekte berücksichtigt werden, um eine rechtskonforme Verarbeitung und Verbreitung der Daten sicherzustellen. Im Folgenden werden einige wichtige Punkte näher erläutert.
Besonders im Hinblick auf personenbezogene Daten müssen die Grundsätze des Datenschutzes eingehalten werden. Das bedeutet, dass die Daten nur zu einem bestimmten Zweck erhoben, verarbeitet und genutzt werden dürfen. Personenbezogene Daten dürfen zudem nur dann verarbeitet werden, wenn eine rechtliche Grundlage dafür vorliegt. Hierbei muss die informierte Einwilligung der Betroffenen dafür eingeholt werden.
Ansprechpartnerin ist die Datenschutzbeauftragte der Universität Rostock.
Bei der Nutzung und Verbreitung von Forschungsdaten müssen auch die Regelungen des Urheberrechts und der Leistungsschutzrechte berücksichtigt werden. Hierbei geht es vor allem darum, dass die Rechte derjenigen gewahrt werden, die die Daten erzeugt haben oder an denen sie beteiligt waren. Es muss sichergestellt werden, dass keine Rechte verletzt werden und dass die Daten nur in dem Rahmen genutzt werden, für den eine entsprechende Zustimmung vorliegt.
Die Nutzung und Verbreitung von Forschungsdaten kann durch eine entsprechende Lizenz geregelt werden. Hierbei handelt es sich um ein rechtliches Instrument, das die Bedingungen für die Nutzung und Verbreitung der Daten festlegt. Es können beispielsweise bestimmte Bedingungen für die Weiterverwendung der Daten oder für die Nennung der Quelle vereinbart werden.
Auf der Webseite der Universitätsbibliothek finden Sie unter dem Punkt: Lizenzierung und Open Access mehr Informationen und unter Rechtsfragen bei Open Science - Ein Leitfaden.
Um eine rechtskonforme Verarbeitung und Verbreitung der Daten sicherzustellen, bieten sich Datenzentren als geeignete Lösung an. In Datenzentren werden die Daten nach bestimmten Standards verwaltet und gespeichert. Die Datenzentren stellen zudem sicher, dass die Daten langfristig zugänglich und nutzbar bleiben. Eine zentrale Rolle spielen hierbei auch die Metadaten, die dazu beitragen, die Daten zu dokumentieren und zugänglich zu machen.
Die Universitätsbibliothek bietet mit RosDok ein institutionelles Datenzentrum an.
[1] Abb. 1.1. Stress lass nach. Eine Bildergeschichte zum Forschungsdatenmanagement. Erstellt von Julia Werthmüller und Tatjana Jesserich, Projekt FOKUS, Forschungsdatenkurse für Graduierte und Studierte, 2019. CC BY-SA 4.0 Gefördert vom BMBF 2017 bis 2019.
[2] digitalbevaring.dk (CC BY 2.5. Dänemark Lizenz), Autor Jørgen Stamp, https://commons.wikimedia.org/wiki/Category:Illustrations_released_by_digitalbevaring.dk
[3] Foto von ©Peter Murray-Rust (CC-BY license) ursprünglich gepostet auf https://blogs.ch.cam.ac.uk/pmr/2011/08/01/why-you-need-a-data-management-plan/
[4] Bres, E. E., & Bittner, C. (2024). A collection of AI generated images visualising various RDM aspects (1.0.0). Zenodo. https://doi.org/10.5281/zenodo.11147887
[5] https://ride.i-d-e.de/fair-criteria-editions/
[6] https://www.gida-global.org/care
[7] https://doi.org/10.18453/rosdok_id00003418