Text Mining

Themen in Texten aufspüren

Ein wesentliches Merkmal eines Textes sind die Themen, um die es in dem Text geht. Verschiedene Verfahren können Texte, die ähnliche Themen beinhalten, gruppieren. Da sich die Themen im Vorkommen und der Häufigkeit bestimmter Wörter widerspiegeln, können beispielsweise Clusterverfahren zu guten Lösungen kommen. Häufig werden Methoden eingesetzt, die auf einer Hauptkomponenten-Analyse beruhen (Latent Sementic Analysis). Die Idee ist, dass die gefundenen Hautkomponenten als Themen identifiziert werden können. Eine Weiterentwicklung ist die Latent Dirichlet Allocation. Sie verwendet statt der geometrischen Dimensionsreduzierung einen wahrscheinlichkeitsbasierten Ansatz. Grundlage ist auch hier die Bag-Of-Words-Repräsentation. Auf zwei Ebenen werden Wahrscheinlichkeiten geschätzt: Sowohl die Texte als auch die einzelnen Wörter werden mit bestimmten Wahrscheinlichkeiten einem Thema zugeordnet, wobei die Wahrscheinlichkeiten der Texte auch als Anteile der Themen interpretiert werden können.

LOB ODER KRITIK?

Neben dem Thema kann auch die Stimmung der Texte ein interessantes Merkmal sein. Bei der Analyse von Kommentaren ist es beispielsweise relevant, ob einzelne Themen eher positiv oder eher negativ kommentiert werden. Die Themen selbst können noch anhand von Ähnlichkeiten und Unterschieden gefunden werden, ohne dass der Inhalt „verstanden“ werden muss. Bei der Sentiment-Analyse ist das nicht mehr möglich. Üblicherweise wird mit Wortlisten gearbeitet, die positiv und negativ konnotierte Wörter kennzeichnen. Werden nun alle positiven und alle negativen Wörter in einem Text gezählt, kann das als Anhaltspunkt dienen, ob die Aussage des gesamten Textes eher positiv oder negativ ist.

Ansprechpartner Data Mining

Johannes Lüken
+49 40 25 17 13 22
jlueken@ifad.de