Zuletzt geändert: 2019-03-11
Abstract
Das Fraunhofer-Informationszentrum Raum und Bau (IRB) produziert bibliographische Datenbanken, die Dokumente (Metadaten-Einträge) im Bereich Bauwesen enthalten. Die Dokumente werden u.a. mit Deskriptoren aus einer Nomenklatur (Schlagwortliste IRB) indexiert. Bei der Produktion der Datenbanken muß täglich eine große Anzahl dieser Dokumente indexiert werden. Eine intellektuelle Indexierung der umfangreichen Datenbanken ist zeit- und kostenintensiv. Automatische Verfahren der Indexierung können diese Aufgaben bewältigen. Da die Nomenklatur keine Beziehungen zwischen Deskriptoren unterstützt und viele Deskriptoren enthält, die selten zu Indexierungszwecken verwendet wurden, ist eine erfolgreiche automatische Indexierung problematisch.
In dem Beitrag wird ein wird ein hybrider Ansatz vorgestellt, der verwendet wird, um die o.g. Probleme zu lösen. Der Ansatz besteht darin, daß jedes Dokument von einem Ensemble aus mehreren separaten Prozeduren indexiert wird, die nach verschiedenen Indexierungsverfahren funktionieren. Zu den verwendeten Indexierungsverfahren gehören informationslinguistische, statistische, regelbasierte Verfahren sowie die Schlüsselwort-Extraktion.
PRÄSENTATION:
Domäne-spezifische hybride automatische Indexierung von bibliographischen Metadaten. (.pdf)