Themen identifizieren

Themen in Texten aufspüren

Ein wesentliches Merkmal eines Textes sind die Themen, um die es in dem Text geht. Verschiedene Verfahren können Texte, die ähnliche Themen beinhalten, gruppieren. Da sich die Themen im Vorkommen und der Häufigkeit bestimmter Wörter widerspiegeln, können beispielsweise Clusterverfahren zu guten Lösungen kommen. Häufig werden Methoden eingesetzt, die auf einer Hauptkomponenten-Analyse beruhen (Latent Sementic Analysis). Die Idee ist, dass die gefundenen Hautkomponenten als Themen identifiziert werden können. Eine Weiterentwicklung ist die Latent Dirichlet Allocation. Sie verwendet statt der geometrischen Dimensionsreduzierung einen wahrscheinlichkeitsbasierten Ansatz. Grundlage ist auch hier die Bag-Of-Words-Repräsentation. Auf zwei Ebenen werden Wahrscheinlichkeiten geschätzt: Sowohl die Texte als auch die einzelnen Wörter werden mit bestimmten Wahrscheinlichkeiten einem Thema zugeordnet, wobei die Wahrscheinlichkeiten der Texte auch als Anteile der Themen interpretiert werden können.