Text- und Data-Mining

Text- und Data-Mining (TDM) ist ein Sammelbegriff für verschiedene Verfahren, um große Mengen von Texten oder Daten (Korpora) unter verschiedenen Aspekten zu durchsuchen und auszuwerten. Mithilfe computergestützter Analyseverfahren können Korpora etwa auf Muster, Korrelationen und andere forschungsrelevante Zusammenhänge hin untersucht werden. Beispielprojekte des TDM wären etwa

Kontakt

Bei lizenzrechtlichen, technischen und anderen Fragen rund um Text- und Data-Mining kontaktieren Sie uns gerne per E-Mail:

Forschende dürfen im Rahmen gesetzlicher und lizenzrechtlicher Vorgaben Text- oder Data-Mining-Methoden einsetzen. Seit der Novelle des Urheberrechtsgesetzes (UrhG) durch das ‚Gesetz zur Angleichung des Urheberrechts an die aktuellen Erfordernisse der Wissensgesellschaft (UrhWissG)' im Jahr 2018 ist dieses Recht mit §60d UrhG gesetzlich verbrieft. Das gilt auch unabhängig von eventuell widersprechenden Klauseln in einzelnen Lizenzverträgen, wenn die Verträge nach dem 28. Februar 2018 geschlossen wurden.
Einige Verlage verfügen außerdem über allgemeine Regelungen zum Einsatz von Text- und Datamining bei ihren Publikationen (etwa Cambridge University Press, Oxford University Press, Elsevier, SAGE, Springer Nature, Wiley) Diese gehen in der Regel NICHT über das gesetzlich festgeschriebene Recht hinaus, bieten aber z.T. Informationen zu den eigenen Schnittstellen und deren Nutzung (Registrierung, Vorgabe für Lade- und Download-Raten, ...).

Das Recht zum TDM umfasst auch die hierfür nötigen Schritte des Speicherung und Bearbeitung, die mit der Korpusbildung einhergeht und die Analyse ermöglicht, wie etwa digitalisieren, normalisieren, strukturieren, kategorisieren, sortieren, annotieren, kombinieren usw. Das zugrundeliegende Korpus darf wiederum nach Abschluss der Forschung zur Sicherung von Referenzierbarkeit und Qualitätsprüfung an privilegierte Gedächtnisinstitutionen (z.B., der Bibliothek) zur dauerhaften Aufbewahrung übergeben werden.

Obwohl TDM grundsätzlich erlaubt sind, setzen die gesetzlichen Regeln auch bestimmte Grenzen

  • Der Forschungszweck darf ausschließlich nicht-kommerziellen Zwecken dienen.
  • Ein legaler Zugang zu den Daten muss gegeben sein, d.h. die Daten sollten auf Grundlage einer mit dem Rechteinhaber geschlossenen Lizenzvereinbarung oder als Open-Access-Publikationen verfügbar sein.
  • Es darf kein bestehender Kopierschutz umgangen werden. Unter Umständen besteht das Recht, vom Beschränkenden Mittel zur Aufhebung des Schutzes zu erhalten.
  • Zugriff auf das Korpus ist nur im Rahmen der Qualitätsprüfung zulässig, für etwaige Anschlussforschung darf das Material nicht zugänglich gemacht werden .

Viele Lizenzgeber verbieten außerdem das automatisierte, massenhafte Herunterladen von Pdf-Dateien von ihren Portalen per Crawler, Script, Bot etc. Ein derartiger Massendownload kann zur Sperrung des Verlagsangebots für die ganze Universität führen. Informieren Sie sich daher bitte im Vorfeld über alternative Schnittstellen und/oder nehmen Sie mit uns Kontakt auf: tdm[at]bibliothek.uni-kassel[dot]de

Die DOI-Registrierungsstelle Crossref sowie einige Verlage bieten besondere Schnittstellen an, wo Sie Volltexte für Ihre TDM-Vorhaben erhalten. Bitte machen Sie sich ggf. mit diesen Schnittstellen vertraut – sie könnten Ihre Arbeit erleichtern:

Ein Anspruch auf TDM besteht wie oben dargelegt nur bei Material, auf das Sie legal Zugriff haben, als entweder lizenziertes Material oder Open-Access-Content. In Ausnahmefällen geben Verlage zum Zweck des TDM auch Zugriff auch nicht-lizenziertes Material (vgl. z.B. Elsevier "on a case-by-case basis").

Neben den Inhalten, die eine Lizenzierung/Subskription erfordern, gibt es auch frei zugängliche Datenbanken, welche den Einsatz von TDM erlauben (Liste nicht abschließend):

  • Arxiv
    Freier Zugang auf Preprints aus den Bereichen Physik, Mathematik, Informatik, Statistik, Finanzmathematik und Biologie
  • BioMed Central
    Über 300 Open-Access-Zeitschriften von BioMed Central, Chemistry Central und SpringerOpen aus den Bereichen Biologie und Medizin
  • Europeana
    Digitale Bibliothek mit Digitalisaten zum wissenschaftlichen und kulturellen Erbe aus über 2000 europäischen Institutionen
  • HathiTrust Digital Library
    Digitalisate von über 120 akademischen Institutionen weltweit
  • Internet Archive
    Zugriff auf Millionen von frei zugänglichen Büchern und Texten
  • Public Library of Science (PLOS)
    Zugriff auf die Inhalte der Zeitschriften der Public Library of Science, einem wissenschaftlichen Open-Access-Verlag
  • PubMed Central: Databases and Text Mining Tools
    Diverse frei zugängliche Mining Tools, mit denen PubMed Central, ein Archiv mit frei zugänglichen Inhalten aus den Fachbereichen Biologie und Biomedizin, durchsucht werden kann

Der offene Zugang zu Inhalten im Sinne von Open Science erleichtert die Durchführung von TDM. Das eindeutige Rechte-Management aufgrund standardisierter, maschinenlesbarer und open-content-gerechter Creative-Commons-Lizenzen trägt zur rechtssicheren Anwendung von TDM-Methoden auf Daten- und Textkorpora bei.