Methoden zur effektiven Nachnutzung von Textressourcen aus dem Kontext wissenschaftlicher Projekte und Bibliotheken

"Digitale Bibliothek", Kulturelles Erbe in der Cloud

Matthias Schulz, Susanne Haaf, Christian Thomas, Bryan Jurish, Frank Wiegand, Alexander Geyken

Zuletzt geändert: 2013-12-04

Abstract

In den vergangenen zwei Jahrzehnten wurden in den Bibliotheken und Archiven zur tieferen Erschließung des Bestandes (vor allem von Texten des 17. bis 20. Jahrhunderts) sowohl Bild- als auch Volltextdigitalisierungen (i.d.R. mithilfe von OCR-Verfahren) erstellt. In den letzten Jahren werden mit Methoden der Big-Data-Analyse in den Digital Humanities nach signifikanten Kenngrößen z.B. für Bedeutungsstrukturen, für spezifische Aussagen sowie bestimmten Zitationsspuren gesucht. Bei genauerer Betrachtung der jeweils zur Verfügung stehenden Daten zeigt sich jedoch, dass diese hinsichtlich der bereitgestellten Formate sowie der Erfassungsrichtlinien und -genauigkeit untereinander stark divergieren und somit die Datengrundlage solcher Untersuchungen oft heterogen ist. Ein Desiderat dieser derzeitigen Entwicklungen ist somit die Erstellung von großen Textbeständen mit einheitlicher Qualität. Genau dies strebt das DTA mit seinem Modul DTAE (DTA-Erweiterungen) an, mit dem verschiedene Lösungsansätze zur Homogenisierung, Standardisierung und qualitative Aufwertung von vorhandenen Volltextressourcen entwickelt werden, um diese mit dem DTA-Kernkorpus zu verknüpfen. An drei Fallbespielen soll gezeigt werden, welche Schritte für
eine Verbesserung der Qualität und die Vereinheitlichung strukturelle Annotationen dieser Texte notwendig sind aber auch welche einfachen Verfahren sowie Veränderungen in den jeweiligen Workflows bei den Textproduzenten verwendet werden könnten, die zu einer wesentlichen Qualitätsverbesserung und nachhaltigen Nutzung der Texte führen.

PRÄSENTATION:

Methoden zur effektiven Nachnutzung von Textressourcen aus dem Kontext wissenschaftlicher Projekte und Bibliotheken (.pdf)