Zurück....

Korrelations- und Regressionsanalyse

Einleitung

Die Abhängigkeit zwischen zwei Merkmalen eines Objektes (Material, Prozess, ...) werden mit der Korrelations- und Regressionsanalyse untersucht (multivariate Analysenmethode).
Auch wenn aufgrund theoretischer Überlegungen sicher ist, dass zwei Merkmale eines Objektes miteinander zusammenhängen, gibt die Korrelations- und Regressionsanalyse Auskunft über Art und Grad des Zusammenhanges. Zur Einführung in das Thema wird das Video Regressionsanalyse mit R oder Regressionsanalyse mit Excel empfohlen!
Liegt ein funktionaler Zusammenhang zwischen x und y vor, so lässt sich ein Stichproben- korrelationskoeffizient r angeben, der eine Schätzung des “wahren” Parameters ρ (Rho) ist.

Video Regressionsanalyse mit R

Korrelationsanalyse

Die Korrelationsanalyse untersucht Zusammenhänge zwischen Zufallsvariablen anhand einer Stichprobe. Eine Maßzahl für die Stärke und Richtung eines linearen Zusammenhanges ist der Korrelationskoeffizient r.
Für den Korrelationskoeffizient r der Merkmale (Zufallsvariablen) x und y gilt:

K_R_Bild_2
K_R_Bild_3

r = 0 bedeutet, dass kein Zusammenhang besteht. x und y sind voneinander unabhängig. Nähert sich r -1 oder 1 an, wird die lineare Abhängigkeit immer wahrscheinlicher. Ist r = -1 oder 1 liegt ein funktionaler linearer Zusammenhang vor (siehe auch Allgemeines zu Funktionen).

Oft wird anstelle des Korrelationskoeffizienten r das Bestimmtheitsmaß r2 angegeben. Hier gilt, je näher das Bestimmtheitsmaß r2 an 1 liegt, desto höher ist die Wahrscheinlichkeit des linearen Zusammenhangs. Ist r2 = 0 liegt kein Zusammenhang vor. Das Bestimmtheitsmaß stellt also eine Maßzahl für die Güte der Anpassung dar und liegt im Bereich 0 =< r2 <= 1.

Neben der Beurteilung des Bestimmtheitsmaßes über die Annäherung an 1, bietet sich der t-Test zur Prüfung der statistischen Signifikanz des vermuteten Zusammenhanges zwischen den Merkmalen x und y an. Nähres dazu finden Sie unter Test des Korrelationskoeffizienten.

Regressionsanalyse

Durch die Regressionsanalyse wird die Abhängigkeit zwischen zwei Merkmalen (siehe auch multiple lienare Regression) eines Objektes einer Regressionsgleichung angepaßt:

K_R_Bild_4

Besteht ein linearer Zusammenhang zwischen y und x - y ist das abhängige (Zufalls-) Merkmal und wird als Zielgröße bezeichnet, das Merkmal x ist die unabhängige Variable (Einflussgröße) -  wird von linearer Regression gesprochen:

y = a + bx

Die Parameter a und b werden aus den Merkmalsdaten x und y nach der Methode der kleinsten Quadrate (auch Kleinst-Quadrate-Schätzung oder kurz KQ-Schätzung genannt) berechnet (geschätzt).

Hinweis:

      Die Merkmalsausprägungen (die Daten) zur Einflussgröße x sind i. d. R. Zufallsgrößen und unterliegen demnach auch bestimmten Schwankungen e. Die obige lineare Funktion y = a + bx muss genau genommen um diese Abweichung (Zufallskomponente) e ergänzt werden (siehe auch Residuen):

      y° = a + bx + e


                y°: geschätzter y-Wert
                e: Abweichungen der unabhängigen Variablen

      Näheres zu diesem Thema: Kovarianz und Standardabweichungen für a, b und r und siehe auch die Hinweise zu BLUE!

Berechnung des Korrelationskoeffizienten r

Wie in der Einleitung schon erwähnt, ist die im Folgenden aufgeführte Berechnung eine Schätzung des “wahren” Korrelationskoeffizienten r. Je größer der Stichproben- (Merkmals-) Umfang n ist, desto besser ist möglicherweise die Schätzung von r (wie oben schon angedeutet, siehe BLUE). Sind die Beobachtungen, die Merkmale, vom metrischen Skalenniveau, wird Korrelationskoeffizient nach Pearson geschätzt:

K_R_Bild_5

Die x- und y-Daten in der rechten Tabelle dienen als Beispiel.
Von den 5 Wertepaaren wurden die Produkte und Quadrate berechnet und in der Zeile mit dem Summensymbol die Summen angegeben.

K_R_Bild_6

Die Summen aus der Tabelle wurden in obiger Formel eingesetzt und die Auflösung in der rechten Darstellung in 3 Schritte aufgeführt.

Das lineare Bestimmtheitsmaß r2 für dieses Beispiel beträgt 0,993272 = 0,9866. Wie weiter oben erwähnt, ist das Bestimmtheitsmaß r2 ein Gütemerkmal für die Anpassung. Es beinhaltet eine Varianzinformation, nämlich das Verhältnis zwischen unerklärter Varianz und Gesamtvarianz:

K_R_Bild_7b

In diesem Beispiel mit r2 = 0,9866 kann 98,66 % der Varianz durch die Anpassung der Y-Werte an die Regressionsgerade erklärt werden und 1,34 % nicht. 1,34 % repräsentiert also die unerklärte Varianz..

Berechnung der Parameter a und b

Die Parameter a und b sind Ihnen sicher geläufig unter den Begriffen für a gleich Schnittpunkt mit der y-Achse und b gleich der Steigung der Geraden

K_R_Bild_8K_R_Bild_9
K_R_Bild_10

Ergebnis der Korrelations- und Regressionsanlayse

y = a + bx       y = -0,2 + 2,1x

mit

r = 0,99327 oder r2 = 0,9866

Mit obiger linearer Funktion können nun bei gegebenem x-Wert (Merkmalswert) Voraussagen über y gemacht werden. Oder einfach ausgedrückt: y kann berechnet werden!
Um nicht den Eindruck zu erwecken, es handelt sich um einen funktionalen Zusammenhang (r = 1, siehe Hinweis), geben Sie immer r oder r2 mit an!
 

Ist das Skalenniveau der Variablen binär oder auch mehrkategorial, dann siehe auch hier!
Für ordinalskalierte Merkmale lässt sich der Zusammenhang über den Spearmanschen Rangkorrelationskoeffizient schätzen.

Das Thema Modellanpassungen über Splines (flexible Modellierung) wird hier behandelt und die Modellsuche über Regressions- und Klassifizierungsbäume (Entscheidungsbaum) hier!

Seitenanfang

Hat der Inhalt Ihnen weitergeholfen und Sie möchten diese Seiten unterstützen?