KLASSIFIKATION UND REGRESSION

Klassifikations- und Regressionsverfahren

Klassifikations- und Regressionsverfahren sind Vorhersagemethoden aus dem Bereich des überwachten Lernens. Das Ziel ist ein Modell, das fallweise die Ausprägung einer zu beschreibenden Größe anhand von mehreren beschreibenden Variablen vorhersagt. Im maschinellen Lernen wird das Modell mit Daten trainiert, in denen die Zusammenhänge bekannt sind, das heißt Werte für die zu beschreibende Größe vorliegen. Anschließend können die Modelle auf Fälle angewandt werden, in denen die Werte der zu beschreibenden Variable unbekannt sind. Von einer Klassifikation spricht man, wenn die zu beschreibende Variable kategorial ist, eine Regression sagt die Werte einer kontinuierlichen Variablen vorher.

Nicht-lineare Zusammenhänge

Die klassischen linearen Entsprechungen sind Diskriminanzanalyse und lineare Regression. Im Data Mining werden Methoden eingesetzt, die auch nicht-lineare Zusammenhänge und Interaktionen zwischen den erklärenden Variablen für die Vorhersage nutzen können. Der Vorteil der linearen Methoden ist allerdings, dass die Modelle an sich leichter interpretierbar sind. Bei den meisten Data Mining-Verfahren spricht man von dem Modell als „Black Box“: Bei guter Datengrundlage kann es sehr gute Vorhersagen machen, das Modell selbst trägt aber kaum zum Verständnis der Zusammenhänge bei. Eine Ausnahme ist hier der einfache Entscheidungsbaum.

Gemeinsam ist den im Folgenden vorgestellten Verfahren, dass es sinnvoll ist, den Trainingsdatensatz zufällig aufzuteilen. Der größere Teil der Daten wird benutzt, um den Algorithmus zu trainieren, der kleinere Teil, um das Modell an statistisch unabhängigen Daten zu testen.

Idee der decision trees

Entscheidungsbäume (engl.: decision trees) gliedern den Datensatz in einer baumartigen hierarchischen Struktur auf. An jeder Verzweigung wird eine der erklärenden Variablen benutzt, um die Fälle aufzuteilen. Dabei werden jeweils die optimale Variable und das optimale Teilungskriterium gesucht. Optimal bedeutet, dass die beiden Teilgruppen hinsichtlich der zu erklärenden Variable möglichst homogen sind. Die Homogenität der Teilgruppen steigt somit von Verzweigung zu Verzweigung. Den Endknoten wird schließlich eine Ausprägung der zu erklärenden Variable zugeordnet. Dies kann der Mittelwert der Trainingsfälle in diesem Knoten oder deren Mehrheitsausprägung sein. Die Endknoten stellen Quader im multidimensionalen Variablenraum dar. Für jeden Fall gibt es nun einen eindeutigen Weg durch den Baum, der durch die Ausprägung der erklärenden Variablen festgelegt ist. Die Vorhersage ergibt sich durch den Endknoten, in dem der Fall schließlich endet.

Intuitiv interpretierbares Ergebnis

Ein entscheidender Vorteil dieses Verfahrens ist, dass sich der Baum grafisch darstellen und direkt interpretieren lässt. Zusätzlich lässt sich der Baum relativ einfach erweitern, indem nicht nur das optimale Entscheidungskriterium je Verzweigung gespeichert wird, sondern auch das zweitbeste, drittbeste usw. Somit lassen sich auch Vorhersagen machen, wenn für einen Fall die Werte einzelner erklärender Variablen fehlen. Ein Problem des Entscheidungsbaums liegt in der Gefahr des Übertrainierens: Werden die Verästelungen zu fein, passt sich der Baum zu stark an die Trainingsdaten an und lässt sich schlechter auf unbekannte Daten generalisieren.

Erweiterungen

Ein Entscheidungsbaum kann nicht nur an sich als Modell verwendet werden, er dient auch als Bestandteil komplexerer Verfahren. Ein sogenannter Random Forest besteht aus vielen Entscheidungsbäumen, die auf zufällig ausgewählten Variablen basieren. Zusätzlich kann auch nur eine zufällige Teilmenge der Trainingsdaten pro Baum verwendet werden. Für eine konkrete Prognose wird über die Ergebnisse all dieser Bäume gemittelt (Regression) oder die Mehrheitsentscheidung der Bäume verwendet (Klassifikation). Eine andere Erweiterung eines einfachen Baummodells ist das Boosting: Hier wird eine Sequenz relativ einfacher Bäume gebaut, wobei ein Baum jeweils die Fehler des vorherigen Baumes versucht zu korrigieren. Die Einfachheit der Bäume mindert die Gefahr des Übertrainierens. Anhand von Kontrolldaten kann der Punkt in der Baumsequenz gefunden werden, an dem das Modell seine Generalisierbarkeit verliert und sich zu stark an die spezifischen Fluktuationen der Trainingsdaten anpasst.

Idee der neuronalen Netze

Künstliche neuronale Netze imitieren auf vereinfachte Weise den Lernvorgang des Gehirns. Für Klassifikation und Regression wird vor allem das vorwärtsgerichtete Perzeptron (engl.: feedforward perceptron) benutzt. In Anlehnung an das biologische Vorbild wird von Neuronen gesprochen. Ein solches Perzeptron besteht aus mehreren Neuronenschichten. Die erste Schicht ist die Eingabe. Jede erklärende Variable wird einem Eingabeneuron zugeordnet. Die letzte Schicht ist die Ausgabe, sie repräsentiert die zu erklärende Variable. Zwischen diesen Schichten kann es je nach Design des neuronalen Netzes weitere verborgene Neuronenlagen (engl.: hidden layers) geben. Jedes Neuron ist mit den Neuronen der nächsten Schicht verbunden. Wird ein Neuron aktiviert, gibt es den Reiz über diese Verbindungen an die Folgeneuronen weiter. Anhand einer Aktivierungsfunktion wird nun entschieden, ob die Folgeneuronen ihrerseits den Reiz weitergeben. Das Ziel des Trainings ist es, die Stärke, mit denen die Reize weitergegeben werden, so anzupassen, dass jeder Eingabereiz (die Werte der erklärenden Variablen) zur bestmöglichen Ausgabe (Vorhersage für die zu erklärende Variable) führt.

In Abhängigkeit von der Datengrundlage und den Zusammenhängen zwischen den Variablen können unterschiedliche Netzdesigns zu den besten Ergebnissen führen. Sowohl die Anzahl der verborgenen Schichten (die „Tiefe“ des Netzes) als auch die Anzahl der Neuronen in diesen Schichten können variiert werden. Man versucht die Gesamtzahl der Neuronen möglichst klein zu halten. Ein zu komplexes Netz neigt dazu, nicht nur die zugrundeliegenden Zusammenhänge zu lernen, sondern auch die zufälligen Fluktuationen in den Trainingsdaten.

Idee der Support-Vector-Machines

Stützvektormethoden (engl.: Support Vector Machines, SVM) versuchen, die optimale Trennfläche im Variablenraum zu finden, um die Daten klassenrein aufzuteilen. In ihrer Grundstruktur sind SVMs geeignet, eine dichotome kategoriale Variable zu prognostizieren. Der Fokus des Verfahrens liegt auf den Fällen, die am schwierigsten zu klassifizieren sind, die also am nächsten zu den Fällen der jeweils anderen Klasse liegen. Die Positionen dieser Fälle dienen als Stützvektoren, die optimale Trennfläche ergibt sich durch die Maximierung der Abstände zu den Stützvektoren. Alle anderen Fälle werden nicht berücksichtigt. Wie sich zeigt, gehen weder die Koordinaten der Stützvektoren noch der Trennfläche explizit in die Optimierung ein, sondern lediglich einfache Zahlen (die Skalarprodukte zwischen den Stützvektoren und der Flächennormalen, was sich wiederum auf Skalarprodukte zwischen den einzelnen Stützvektoren reduzieren lässt).

Nicht-linear dank Kernel-Trick

Diese Vereinfachung macht sich der sogenannte Kernel-Trick zunutze: Eine Transformation des Skalarprodukts transformiert implizit den Variablenraum. Insbesondere können die Fälle nach einer nicht-linearen Vorschrift in einem höherdimensionalen Raum positioniert werden. Alle Nicht-Linearitäten werden in der Transformation berücksichtigt, sodass die Trennfläche wiederum linear sein kann. Die Stärke des Kernel-Tricks ist nun, dass mit der simplen Transformation von einfachen Zahlen implizit eine hochkomplexe Vektortransformation durchgeführt wird. Da lediglich das Skalarprodukt in die Optimierung einfließt, müssen die transformierten Koordinaten der Stützvektoren und der Trennfläche nie berechnet werden.

Durch Kombination mehrerer SVM können auch kategoriale Variablen mit mehr als zwei Klassen beschrieben werden. Sollen die SVM für eine Regression benutzt werden, wird nicht die optimale Trennfläche gesucht, sondern die Ebene, die die Ausprägungen der Zielvariablen am besten beschreibt.

Idee des Naiven Bayes-Klassifikators

Der Naive Bayes-Klassifikator versucht, anhand bedingter Wahrscheinlichkeiten Vorhersagen zu machen. Die Methode wird „naiv“ genannt, da die erklärenden Variablen als unabhängig angenommen werden. In den Trainingsdaten werden die Wahrscheinlichkeiten geschätzt, mit denen die zu beschreibende Variable einen bestimmten Wert annimmt in Abhängigkeit vom Wert einer beschreibenden Variablen. Eine Vorhersage ergibt sich dann über das Produkt der Wahrscheinlichkeiten aller beschreibenden Variablen.