Informationen für
Logo VIS

« Zurück

Studienprojekt "Visual Text Analytics for Digital Humanities"
Semester: SS 2014
Umfang: 16 SWS
Prüfer: Prof. Dr. Thomas Ertl
Betreuer: Dr.-Ing. Steffen Lohmann
Dr. Steffen Koch
Dr.-Ing. Michael Wörner
Markus John M.Sc.
Beschreibung:

Projekthintergrund

Der Begriff Digital Humanities bezeichnet ein interdisziplinäres Forschungsgebiet, das die Verwendungs-möglichkeiten moderner Informationstechnologien in den Geistes- und Kulturwissenschaften behandelt. Zum einen soll durch die Entwicklung von computergestützten Methoden und Werkzeugen die Arbeit von Geisteswissenschaftlern erleichtert werden. Zum anderen werden neuartige Forschungsfragen und -erkennt­nisse durch die Digitalisierung von Texten und den Einsatz von Informationstechnologien überhaupt erst ermöglicht. Hierbei wird insbesondere auf computerlinguistische Verfahren zur quantitativen Text­analyse zurückgegriffen, die üblicherweise um weitere statistische und semantische Modelle sowie Techniken aus dem Text Mining ergänzt werden.

Die Visualisierung spielt in den Digital Humanities eine zentrale Rolle, da sie maßgeblich zum Verständnis der ermittelten Zusammenhänge sowie zur Aufbereitung der Analyseergebnisse und -erkenntnisse beiträgt. Neben spezifischen Visualisierungstechniken sind insbesondere Analysesysteme von Bedeutung, die es ermöglichen, auch große Textdatensätze mittels interaktiver und visueller Techniken umfassend dazustellen und zu explorieren.

 

Zielsetzung

Im Rahmen des Studienprojekts „Visual Text Analytics for Digital Humanities“ (ViTA) soll ein Softwaresystem zur visuellen Analyse von Texten entwickelt werden, das sich sinnvoll in den Geistes- und Kulturwissenschaften einsetzen lässt. Der Fokus des Projekts soll auf der Textgattung Roman liegen und neben einer allgemeinen linguistischen Analyse insbesondere eine Untersuchung der Romanfiguren, ihrer Eigenschaften und Konstellationen ermöglichen. Das System soll sowohl einen schnellen Überblick über die Charaktere eine Romans geben als auch Detailanalysen zu spezifischen Fragestellungen unterstützen. Beispiele für konkrete Funktionalitäten des Systems wären:

  • Extraktion und visuell aufbereitete Darstellung der Romanfiguren samt ihrer Eigenschaften
  • Visualisierung der Chronologie des Auftretens von Charakteren im Roman
  • Soziales Netzwerk der Romanfiguren und ihrer Beziehungskonstellationen
  • Kategorisierung der Romanfiguren auf Basis verschiedener Erzählebenen

Auch wenn sich das System in erster Linie an Geistes- und Kulturwissenschaftler richten soll, ist die Nutzung durch andere Zielgruppen nicht auszuschließen. Da die Kernzielgruppe jedoch keine Informatiker sind, muss bei der Umsetzung auf eine leichte Erlernbarkeit und hohe Bedienfreundlichkeit geachtet werden.

 

Vorgehen

Nachdem im Rahmen des Seminars das notwendige Grundlagenwissen in den Bereichen Informationsvisualisierung, Visual Analytics, Digital Humanities und Computerlinguistik sowie die dazugehörigen Methoden, Technologien und Werkzeuge erarbeitet worden ist, sollen im Vorprojekt zwei bis drei Gruppen gebildet werden, die konkurrierende Angebote entwickeln. Der Kunde wählt das vielversprechendste Angebot aus, das dann von allen Teilnehmern im Hauptprojekt umgesetzt wird.

Ziel des Hauptprojektes ist es, das oben beschriebene System zur Textanalyse als Produkt zu entwickeln. Der Projektablauf soll dem im Angebot vorgeschlagenen Modell folgen, wobei erfahrungsgemäß ein iteratives Vorgehen zu empfehlen ist. Dabei soll in jedem Fall eine Anforderungsspezifikation entstehen, die im Rahmen eines Reviews mit dem Kunden geprüft wird. Die Abnahme des Produkts erfolgt durch den Kunden. Gegebenenfalls sind danach noch notwendige Nachbesserungen durchzuführen.

 

Zeitplan

Vorbesprechung

April 2014

Seminar

Mai 2014 (Blockveranstaltung)

Vorprojekt

Juni 2014

Hauptprojekt

Juli 2014 – Februar 2015

Abschlussvortrag

Februar 2015

Mündliche Prüfung

Februar/März 2015


Lehrveranstaltungen und Seminar

Begleitend zum Projekt wird die Vorlesung „Digital Humanities“ (2 SWS) im Sommersemester und die Vorlesung „Information Visualization and Visual Analytics“ (3+1 SWS, die Teilnehmer des Studienprojekts hören einen reduzierten Umfang von 2 SWS) im Wintersemester angeboten.

Das begleitende Seminar findet als Blockveranstaltung am 7. und 8. 5., jeweils von 11:00-12:30 Uhr und von 13:30-16:00 Uhr statt. Die Themen liegen in den Bereichen Informationsvisualisierung, Visual Analytics, Digital Humanities und Computerlinguistik.

Seminarthemen

  1. Visual Text Analytics
    Bearbeiter: Felix Do
    Betreuer: Steffen Koch                                                                                                     Zusammenfassung
    Vortragsfolien
  2. Digitale Bibliotheken
    Bearbeiterin: Christian Richter
    Betreuer: Markus John                                                                                             Dieser Seminarvortrag soll als Einführung in das große Themengebiet der digitalen Bibliotheken dienen. Zusammen wollen wir erfahren was eine digitale Bibliothek ausmacht, wie sie arbeitet und warum sie überhaupt das tut, was sie tut. Weiterhin werden die drei bekanntesten Vertreter von digitalen Bibliotheken miteinander vergleichen und die Frage beantwortet ob ViTA nicht vielleicht selber eine digitale Bibliothek ist.
    Vortragsfolien
  3. eBook-Formate
    Bearbeiter: Paul Kuznecov
    Betreuer: Michael Wörner
    Die große Anzahl an existierenden eBook-Formaten kann sehr verwirrend sein. Dieser Vortrag gibt einen Überblick über die wichtigsten eBook-Formate und beleuchtet die verschiedene Ansätze für Formate, ihre Struktur und Funktionsweise. Gleichzeitig werden ihre Vor- und Nachteile, unter anderem im Bezug zur Verwendung im Studienprojekt, kritisch diskutiert und die wichtigsten eBook-Formate verglichen.
    Vortragsfolien
  4. Stanford Core NLP / OpenNLP
    Bearbeiter: Jan Melcher
    Betreuer: Markus John                                                                                          OpenNLP und Stanford NLP sind Frameworks zur Analyse von natürlichsprachigen Texten mit dem Ziel der maschinellen Weiterverarbeitung. Sie enthalten u.a. Werkzeuge zur Erkennung von Sätzen, Wörtern und Entitäten wie Personen oder Orten. Dieser Vortrag stellt die Tools vor und evaluiert ihren Nutzen für das Studienprojekt.
    Vortragsfolien
  5. GATE
    Bearbeiter: Eduard Marbach
    Betreuer: Markus John                                                                                               GATE ist ein Framework, was es ermöglicht Dokumente mit den Informationsextraktions-Methoden, wie z.B. OpenNLP oder ANNIE zu verbinden. Dadurch bietet GATE viele unterschiedliche Möglichkeiten natürlich-sprachliche Texte zu verarbeiten, Information zu extrahieren und Annotation hinzuzufügen. Durch verschiedene Regeln, die auch manuell erstellt werden können, kann man die Erkennung zu jedem Text individuell verbessern und anpassen.
    Vortragsfolien
  6. Visualisierung zeitabhängiger Daten
    Bearbeiter: Marvin Wyrich
    Betreuer: Steffen Koch
    Die Visualisierung zeitabhängiger Daten ist ein umfangreiches Themenfeld, das sowohl in der Forschung als auch in der Praxis großes Interesse weckt. Die Zeit muss zunächst passend zur gewünschten Analyse modelliert, eine Visualisierungsmethode gefunden und verschiedene Interaktionsmöglichkeiten auf der präsentierten Darstellung angeboten werden. Mögliche Methoden sind zum Beispiel ThemeRiver zur Visualisierung von Themenänderungen über die Zeit und Fingerprint zur Visualisierung von sozialen Netzwerken. Eine beliebte Interaktionsmöglichkeit ist das Ändern der Granularität, das sogenannte „temporal zooming“.
    Vortragsfolien
  7. Graphbasierte Visualisierung
    Bearbeiter: Vincent Link
    Betreuer: Steffen Lohmann
    Graphen, die schlecht strukturiert sind oder einfach nur zu viele Informationen fassen, können erhebliche Probleme in der Bedienung oder beim Erfassen des Inhalts mit sich bringen. Ich möchte zeigen worauf man beim Zeichnen des Graphen achten sollte um u. A. die Bedienbarkeit hoch zu halten und wie man selbst größere Graphen gestalten kann um noch gut mit ihnen interagieren zu können.
    Vortragsfolien
  8. Visualisierungstoolkits für Java
    Bearbeiter: Sebastian Frank
    Betreuer: Steffen Lohmann
    Die Präsentation beleuchtet die Visualisierungs-Toolkits Prefuse, Jung und Processing im Speziellen. Es wird dabei auf die verschiedenen Charakteristika der Toolkits eingegangen und ihre Funktionsweise beispielhaft an Code und Bildern dargestellt. Insbesondere soll eine kritische Evaluation der Toolkits statt finden, um den Teilnehmern des Studienprojekts eine Entscheidung für ein Toolkit zu erleichtern. 
    Vortragsfolien
  9. Visualisierungstoolkits für das Web
    Bearbeiter: Marc Weise
    Betreuer: Steffen Lohmann                                                                                               In Zeiten einer immer größer werdenden Informationsflut spielt die graphische Darstellung großer Mengen von Daten eine immer wichtigere Rolle. Will man diese Visualisierungen leicht einer breiten Öffentlichkeit zugänglich machen, eignen sich hierfür besonders webbasierte Toolkits. Anhand der bekanntesten Vertreter "D3" und "Flare" werden zwei verschiedene Ansätze der Visualisierung für das Web vorgestellt und miteinander verglichen. Dabei wird auch deren jeweilige Eignung für die Umsetzung des Studienprojekts "ViTA" untersucht.
    Vortragsfolien
  10. Vorgehensmodelle für die Softwareentwicklung
    Bearbeiter: Sanjeev Balakrishnan
    Betreuer: Michael Wörner
    Ein Vorgehensmodell spielt bei der Umsetzung  eines Softwareprojekts eine wichtige Rolle. In diesem Seminarvortrag werden die wichtigsten Vorgehensmodelle zur Softwareentwicklung vorgestellt. Ebenso werden zu jedem Vorgehensmodell die Vor-und Nachteile betrachtet. Anhand der wichtigsten Vor-und Nachteile soll die Auswahl eines geeigneten Vorgehensmodells für das Studienprojekt Vita erleichtert werden.
    Vortragsfolien

Downloads

Optionale PowerPoint-Vorlage für den Vortrag

Verbindliche LaTeX-Vorlage für die Ausarbeitung

Infrastruktur

Während der gesamten Projektlaufzeit steht den Studierenden der VIS-Pool zur Arbeit am Projekt zur Verfügung. Eine Nutzung der allgemeinen Pools und eigener Räumlichkeiten und Ressourcen ist alternativ ebenfalls möglich. Software und Besprechungsraum werden bei Bedarf zur Verfügung gestellt.

Dateien

 

Internet-Seite:
Termine:
Studenten:

« Zurück