Einleitung Klassifikation und Regression

Klassifikations- und Regressionsverfahren

Klassifikations- und Regressionsverfahren sind Vorhersagemethoden aus dem Bereich des überwachten Lernens. Das Ziel ist ein Modell, das fallweise die Ausprägung einer zu beschreibenden Größe anhand von mehreren beschreibenden Variablen vorhersagt. Im maschinellen Lernen wird das Modell mit Daten trainiert, in denen die Zusammenhänge bekannt sind, das heißt Werte für die zu beschreibende Größe vorliegen. Anschließend können die Modelle auf Fälle angewandt werden, in denen die Werte der zu beschreibenden Variable unbekannt sind. Von einer Klassifikation spricht man, wenn die zu beschreibende Variable kategorial ist, eine Regression sagt die Werte einer kontinuierlichen Variablen vorher.

Nicht-lineare Zusammenhänge

Die klassischen linearen Entsprechungen sind Diskriminanzanalyse und lineare Regression. Im Data Mining werden Methoden eingesetzt, die auch nicht-lineare Zusammenhänge und Interaktionen zwischen den erklärenden Variablen für die Vorhersage nutzen können. Der Vorteil der linearen Methoden ist allerdings, dass die Modelle an sich leichter interpretierbar sind. Bei den meisten Data Mining-Verfahren spricht man von dem Modell als „Black Box“: Bei guter Datengrundlage kann es sehr gute Vorhersagen machen, das Modell selbst trägt aber kaum zum Verständnis der Zusammenhänge bei. Eine Ausnahme ist hier der einfache Entscheidungsbaum.

Gemeinsam ist den im Folgenden vorgestellten Verfahren, dass es sinnvoll ist, den Trainingsdatensatz zufällig aufzuteilen. Der größere Teil der Daten wird benutzt, um den Algorithmus zu trainieren, der kleinere Teil, um das Modell an statistisch unabhängigen Daten zu testen.