Daten finden und nutzen
Daten sind wertvoll. Nicht nur ist ihre Gewinnung meist zeit- und kostenintensiv (Experimentaldaten, abgeleitete Daten) – auch sind sie oft nicht oder nur schwer reproduzierbar (Beobachtungsdaten). Nicht zuletzt aus forschungsökonomischen Gründen wird daher der Nachnutzung von Daten wachsende Bedeutung beigemessen.
Von einer Nachnutzung von Daten spricht man, wenn bereits erhobene Forschungsdaten für spätere Forschungen im Rahmen anderer Projekte und / oder anderer Fragestellungen verwendet werden.
Potential zur Nachnutzung besteht bereits innerhalb von Instituten, Forschergruppen oder Projekten, wo leider oft genug nach Abschluss von Projekten oder mit dem Ausscheiden von Mitarbeitenden Daten und/oder notwendige Informationen für deren Nutzung verloren gehen. Damit Daten uneingeschränkt nachgenutzt werden können, müssen sie verständlich und interpretierbar sein. Erreichen kann man dies unter anderem durch:
- Hinzufügen beschreibender Dokumente zur intellektuellen Einordnung der Daten
- Klare Beschreibung der Nutzungsbedingungen (Lizenzbestimmungen)
- Provenienz-Informationen als Basis einer Bewertung der Daten
- Aufbereitung nach (Fach-)Standards
Möchten Sie selbst Daten von Dritten nutzen, etwa für Meta-Analysen, Erweiterung des eigenen wissenschaftlichen Schwerpunkts, Optimierung eigener Studiendesigns, Modellkalibrierungen u.v.m. stehen Sie oft vor der Herausforderung, nachnutzbare Daten zu finden (vgl. FAQ Wo finde ich Forschungsdaten?).
Für die Nachnutzung selbst müssen Sie unbedingt die jeweiligen Rechte (Lizenzen, ggf. Nutzungsverträge) beachten. Sie können u.a. festlegen, wer die Daten zu welchem Zweck und für welche Zeit nutzen darf.
Im Sinne der Guten Wissenschaftlichen Praxis muss eine Datennutzung außerdem äquivalent zu einer Textzitation dokumentiert werden (vgl. Wie zitiere ich Forschungdaten?)
FAQ
Nicht zuletzt durch die Vorgaben und Empfehlungen von Förderern, Verlagen und Institutionen zur Zugänglichmachung von Daten stehen zunehmend Forschungsdaten für die Nachnutzung zur Verfügung. Um geeignete Forschungsdaten für den eigenen Forschungsbereich zu finden, bieten oft einschlägige Angebote aus dem eigenen Fachgebiet die erste Anlaufstelle. Dies können institutionelle oder fachliche Repositorien oder auch Datenjournale sein. Repositorien können Sie – nach Fachgebiet aufgeschlüsselt – über den Repository Finder recherchieren. Eine – längst nicht erschöpfende – Liste von Datenjournalen finden Sie hier.
Darüber hinaus besteht auch die Möglichkeit, Daten mit Hilfe generischer Suchdienste über mehrere Repositorien hinweg zu recherchieren. Ein großer Nachteil dieser Suchdienste besteht darin, dass sie die detaillierten Metadatenschemata ihrer Quellen oft nicht adäquat abbilden können. Zudem unterscheiden sich die die jeweiligen Metadaten stark dahingehend, was sie identifizieren, also einzelne Daten, Datensets oder –Sammlungen.
Zu den bekanntesten Portalen gehören:
Ruft Metadaten von Repositorien und Datenbanken über OAI-PMH ab. Forschungsdaten sind über die Dokumentart „Primärdaten“ zu finden.
Durchsucht Metadaten aus verschiedenen Quellen wie CLARIN oder Global GBIF.
Durchsucht Metadaten von Informationsobjekten, u.a. Forschungsdaten (Objekttyp ‚Dataset‘), die bei DataCite mit DOIs registriert sind. Die Metadaten werden z.T. auch von den anderen beiden Diensten abgefragt.
Enthält frei zugängliche Forschungsergebnisse aus EU-geförderten Projekten
- Google Dataset Search (proprietär!)
- gesisDataSearch - Suche von Daten zur Sozial- und Wirtschaftsforschung in Datenrepositorien und Metadatendiensten
- VerbundFDB - Suche von Studien, Forschungsdaten und Instrumenten der empirischen Bildungsforschung
Für die Nachnutzung selbst sind die jeweiligen Rechte (Lizenzen, ggf. Nutzungsverträge) bindend. Sie können u.a. festlegen, wer die Daten zu welchem Zweck und für welche Zeit nutzen darf.
Um Forschungsdaten nachnutzen zu können, ist vor allem die Qualität der Daten entscheidend. Datenqualität im Forschungsdatenmanagement umfasst insbesondere folgende Bereiche:
- Datenformat (spezielle Speicherformate wissenschaftlicher Daten, wie z.B. Vektorformat, Rasterformat und Eigenschaftsformat, etc.)
- Datenvollständigkeit und Datenrichtigkeit
Der Leibniz Data Manager ist ein kostenfreier Prototyp, der hier exemplarisch für ähnliche Tools steht:
Leibniz Data Manager ermöglicht die Visualisierung verschiedener Forschungsdatenformate, wodurch das 'Screening' von Datensätzen auf ihren potentiellen Nutzen möglich wird. Als Visualisierungs- und Management-Tool unterstützt es die Verwaltung und den Zugriff auf heterogene Forschungsdatenpublikationen, und somit die Forscherinnen und Forscher bei der Auswahl relevanter Datensätze für ihre jeweiligen Disziplinen.
Derzeit ist ein Prototyp des Leibniz Data Managers verfügbar und bietet zahlreiche Funktionen zur Visualisierung von Forschungsdaten.
Um die (Nach-)Nutzung von eigenen und fremden Forschungsdaten im Sinne der Guten Wissenschaftlichen Praxis adäquat zu dokumentieren, ist eine korrekte Datenzitation unerlässlich.
Im Falle von Fremddaten wird hierdurch außerdem die wissenschaftliche Leistung ihrer ‚Urheber‘ gewürdigt. Wie bei der Zitation von anderen Publikationen können die Konventionen zur Zitation von Daten formal abweichen. Inhaltlich verbindet sie jedoch der Anspruch einer eindeutigen Identifizierbarkeit der Datenquelle. Die FORCE11 Data Citation Synthesis Group hat Empfehlungen zur Datenzitation erarbeitet. Ihnen zufolge umfasst eine vollständige Datenzitation
Autor(en), Jahr, Titel der Forschungsdaten, Datenrepositorium oder Archiv, Version, weltweit Persistenter Identifikator
Weitere optionale Angaben, die im Rahmen einer Zitation sinnvoll sein können, sind Edition, Feature name and URI, Resource type, Publisher, Unique numeric fingerprint (UNF) und Location (vgl. Alex Ball & Monica Duke (2015). How to Cite Datasets and Link to Publications).