DFG: Visual Analytics of Online Streaming Text (VAOST)

DFG-NSFC Joint Sino-German Research Project

Wiss. Leitung:
Prof. Dr. Thomas Ertl

Wiss. Mitarbeiter:
Johannes Knittel

Gefördert durch:
Deutsche Forschungsgemeinschaft (DFG)

Laufzeit:
2019 - 2021

Beschreibung

Mit dem Aufkommen von sozialen Netzwerken, Online-Nachrichtenmedien und automatisierten Texterzeugungssystemen hat der Konsum und das Veröffentlichen von unstrukturierten und halbstrukturierten Textdaten in den letzten Jahren erheblich zugenommen. Die Analyse der Entwicklung und des Zusammenspiels von Themen und Ideen in den veröffentlichten Texten kann Sozialwissenschaftlern und politischen Entscheidungsträgern helfen, die Entstehung sozialer Bewegungen zu verstehen. Marketingexperten können die Auswirkungen von viralen Nachrichten messen oder die Verbreitung negativer Meinungen zu einem Produkt erkennen. Die Entdeckung anomaler Inhalte in Microblogs oder Nachrichtendaten kann es Journalisten ermöglichen, relevante und situationsbezogene Informationen bei kritischen Ereignissen zu extrahieren. Gleichzeitig sind wir jedoch beispiellosen Bedrohungen ausgesetzt, die durch die schnelle und unkontrollierte weltweite Verbreitung von Fehlinformationen und Gerüchten entstehen.

Um die Entwicklung von Inhaltsmustern zu verstehen sowie anomale Informationen erkennen und koordinierte Aktivitäten in großem Maßstab entdecken zu können, müssen wir die inhärenten Herausforderungen bewältigen, die sich bei der Verarbeitung von kontinuierlich eintreffenden Textdaten in Echtzeit stellen. Aufgrund der unstrukturierten Natur von Text, des hohen Signal-Rausch-Verhältnisses und der semantischen Komplexität war die Textanalyse immer eines der herausforderndsten wissenschaftlichen Themen. Während der größte Teil der bisherigen Forschung auf die  Verarbeitung von Batch-Daten gerichtet war, wurde die Herausforderung der Analyse von Live-Streaming-Textdaten nur begrenzt berücksichtigt. Ziel dieses Projekts ist es, Visual Analytics (VA)-Ansätze für die Analyse von Streaming-Daten zu entwickeln anhand einer engen Integration zwischen der maschinellen Verarbeitung natürlicher Sprache (NLP), dem maschinellen Lernen ("künstliche Intelligenz") und den visuellen Schnittstellen. Insbesondere sollte die Analysepipeline die spezifischen Herausforderungen von sich ständig aktualisierenden Daten bewältigten. Dazu gehören beispielsweise die visuelle Skalierbarkeit, die Interaktionsskalierbarkeit und die ständige Änderung der Baselines und statistischen Grundverteilungen.

Dieses Forschungsprojekt ist eine Kooperation zwischen den Partnern Zhejiang University und Universität Stuttgart.

Zum Seitenanfang