Deutsch-französischer Workshop: "Massendigitalisierung und die Bearbeitung großer Textkorpora mit Methoden der 'Digital Humanities'

12. März 2015

Reihe: Frankreich-Schwerpunkt

Zeit: 12. – 13. März 2015
Veranstaltungsort: Universität Stuttgart, Keplerstr. 17, Raum 17.23, 70174 Stuttgart
Download als iCal:
Die in großen Bibliotheksportalen wie Gallica (über 3 Millionen Dokumente) und dem Zentralen Verzeichnis Digitalisierter Drucke (1,2 Millionen Dokumente) sowie in weiteren Repositorien vorhandenen Dokumente stellen für Geisteswissenschaftler wie auch Computerlinguisten eine enorme Herausforderung dar: Die Massendigitalisate eröffnen einerseits eine Fülle von bislang unerforschten Quellen, andererseits müssen die Wissenschaftler Mittel und Wege finden, um sich einen schnellen Überblick verschaffen und aussagekräftige Stichproben nehmen zu können und eine sinnvolle Auswahl aus der Materialfülle treffen zu können. Für die Literaturwissenschaft wird beispielsweise vermutet, dass sie lediglich bislang etwa 2% aller Texte ausgeforscht hat, die in ihren Gegenstandsbereich fallen (hier werden also nur einige wenige kanonische Texte immer wieder bearbeitet), während 98% aller Texte noch nicht einmal gesichtet wurden. Der Workshop wird sich dieser Kluft zwischen den vorhandenen Materialmassen und ihrer Unausgeforschtheit widmen und an mehreren Beispielen aufzeigen, wie explorative Schneisen in diese terra incognita geschlagen werden können und welche Mittel dafür zur Verfügung stehen.

Der Workshop wird bei jenen Dokumenten ansetzen, die nicht nur digitalisiert vorliegen, sondern auch mit einer Texterkennungssoftware (Optical Character Recognition, OCR) behandelt worden sind, können diese Volltexte doch mit den Werkzeugen und Methoden der digital humanities bearbeitet und ausgewertet werden. So soll zum einen aufgezeigt werden, wie anhand der zur Verfügung stehenden Metadaten und Volltexte einzelne Textgruppen voneinander abgegrenzt und sinnvolle Fragestellungen an das vorhandene Material gestellt werden können. Zum anderen soll der Workshop in Instrumente und Methoden der digital
humanities einführen, die es ermöglichen, schnelle Überblicke über das vorhandene Material zu erhalten, die Beziehungen zwischen den einzelnen Werken zu eruieren, wiederkehrende Textelemente zu untersuchen und Visualisierungsmöglichkeiten zu nutzen. Der Workshop richtet sich auch an Studenten der Geisteswissenschaften und der Computerlinguistik, dient aber vor allem dem Fachaustausch zwischen den beteiligten deutschen und französischen Forschern. Er greift damit weiterführende Ideen auf, die aus der deutsch-französischen Tagung „Raconter la guerre“ erwuchsen und partiell in den im Herbst 2014 publizierten gleichnamigen Sammelband eingeflossen sind. Besagte Tagung kann somit als Initialzündung gelten, um in einem zweiten Workshop das Schwergewicht stärker auf methodische Fragen der Korpuserschließung zu richten. 

Die für den Workshop vorgesehenen Beiträge sollen dabei im Vortragsteil jeweils in mindestens ein gängiges Werkzeug der digital humanities einführen und seine Anwendung an vorhandenem Material vorführen sowie die Forschungsperspektiven erörtern, die sich daraus ergeben. Im Workshopteil wird dann en détail auf die verwendete Technik und die sich jeweils stellenden Probleme und Begrenzungen der unterschiedlichen Zugänge eingegangen werden, um die Teilnehmer zu befähigen, auch selbst mit der Technik zu arbeiten. Dabei wird in eine ganze Reihe von Verfahren eingeführt werden, wie sie in den einzelnen Disziplinen sowohl in Deutschland als auch in Frankreich verwendet werden, und die auch Potentiale aufweisen, die über eine einzelne Fachdisziplin hinausgehen. 

Zum Seitenanfang