Zuletzt geändert: 2022-10-05
Abstract
Die zunehmende Bedeutung des World Wide Webs und der schon jetzt umfangreichen archivierten Bestände rückt nach und nach auch Möglichkeiten für die computergestützte Analyse dieser Bestände in den Blick. Der aktuelle Standard in der Webarchivierung basiert auf einem manuellen oder automatisierten Crawling mit einem automatisch oder manuell gesteuerten Browser. Aufgezeichnet wird dabei die Kommunikation zwischen Browser und Webserver. Die Aufzeichnung wird im strukturierten Datenformat Web ARChive (WARC) gespeichert. Dieses Datenformat ist inzwischen ein Industriestandard und wird von zahlreichen Einrichtungen im Bereich Kulturelles Erbe für die Webarchivierung verwendet.
Blogs basieren in den meisten Fällen auf Content Mangement Systemen wie Wordpress oder werden auf Plattformen wie Tumblr oder Medium publiziert. In vielen Fällen bieten Content Management Systeme und Plattformen neben dem Zugriff via Browser auch einen Zugriff über eine definierte Schnittstelle an (API - Advanced Programming Interface). Über diese Schnittstelle werden die Daten in einem
strukturierten Format ausgeliefert, das die Erkennung von Dubletten und die Extraktion von Texten in den meisten Fällen stark erleichtert und hochgradig automatisierbar macht. Auf diese Weise können also Textcorpora erstellt werden, die für textanalytische Methoden zuverlässig nutzbar sind.
PRÄSENTATION: