Zurück...

Multiple lineare Regression

Auf der Seite Korrelations- und Regressionsanalyse wurde nur der Zusammenhang zwischen dem abhängigen Merkmal (y, Zielgröße) und einem unabhängigen Merkmal (x, Einflussgröße) betrachtet. Auf dieser Seite wird die lineare Einfachregession derart erweitert, dass auf das abhängige Merkmal mehrere (multiple) unabhängige Merkmale einwirken.

Das abhängige Merkmal (Zielgröße) ist vom Skalenniveau her metrisch und die unabhängigen Merkmale (Einflussgrößen) können metrisch (siehe auch Transformation), binär oder auch mehrkategorial sein. In der Regel müssen die binäre oder mehrkategoriale Merkmale zur Dummyvariablen kodiert werden. Die binäre Kodierung für ein Merkmal, das nur z. B. die Ausprägung trifft nicht zu / trifft zu aufnehmen kann, ist recht übersichtlich:

      xbinär = (0 für trifft nicht zu und 1 für trifft zu)

Liegt z. B. ein mehrkategoriales Merkmal mit 3 Ausprägungen (k = 3) vor, wird dieses Merkmal in m = k -1 Dummyvariablen kodiert:

  • x(m=1) = (1 wenn Kategorie1 beobachtet wird und sonst 0)
  • x(m=2) = (1 wenn Kategorie2 beobachtet wird und sonst 0)
  • wenn Kategorie3 beobachtet wird ist
    x(m=1) = 0 und x(m=2) = 0

(Zu dieser methodischen Variante der Regressionsanalyse siehe auch logistische Regression!)

Die multiple lineare Funktion wird durch

y = a + b1x1 + b2x2 + ... bnxn + e

            y: beobachtetes abhängiges Merkmal
            xn: beobachtete unabhängige Merkmale
            bn: Regressionskoeffizient
            a: konstante Glied

beschrieben. Obige Funktion ist ein additiv-lineares System mit e als Fehlervariable.

Die Schätzung der Regressionskoeffizienten für eine multiple lineare Funktion ist deutlich aufwändiger als die gezeigte Schätzung für ein einfaches lineares Beispiel. Deswegen werden die Regressionskoeffizienten hier mit dem Statistikprogramm R geschätzt. Sollte R Ihnen unbekannt sein, empfehle ich Ihnen zum Einstieg das Buch Einführung in R.

Die multiple lineare Regression wird auf Basis des folgenden Beispiels (Abb. 1) unter Anwendung von R gezeigt. Voraussetzung ist, dass die Anzahl der Merkmalsausprägungen die Anzahl der unabhängigen Merkmale (deutlich) überschreitet. Diese Merkmalsausprägungen müssen auch unabhängig voneinander sein, d. h., sie dürfen nicht durch Rechenoperationen aus einer z. B. beobachteten Ausprägung hervorgegangen sein!

ML Regressionsbeispiel

Abb. 1: R-Objekt Beispiel

y: abhängiges Merkmal

x1 und x2: unabhängige Merkmale

Zur Schätzung der multiplen linearen Regressionskoeffizienten wird die R -Funktion lm() verwendet und die Funktionsrückgabe, das Model,  in dem Objekt Funktion abgelegt:

      > Funktion <- lm(Beispiel$y ~ Beispiel$x1 + Beispiel$x2)
       

Dieser “Umweg” ist notwendig, um weitere Schätzungen zum Model durchführen zu können. Schauen wir uns die Koeffizienten an:

      > Funktion

      Call:
      lm(formula = Beispiel$y ~ Beispiel$x1 + Beispiel$x2)

      Coefficients:
      (Intercept)  Beispiel$x1  Beispiel$x2 
         -0.06189      2.06400     -0.03702

Intercept ist das konstante Glied, Beispiel$x1 und Beispiel$x2 die Regressionskoeffizienten für x1 bzw x2. Die Funktion sieht also wie folgt aus:

y = -0,06189 + 2,064x1 - 0,03702x2

Um die oben angedeuteten weitere Schätzungen zum Model durchzuführen, wird Funktion der Funktion summary() übergeben:

      > summary(Funktion)

      Call:
      lm(formula = Beispiel$y ~ Beispiel$x1 + Beispiel$x2)

      Residuals:
             1        2        3        4        5        6
      -0.06887  0.05163  0.01561  0.02223  0.03609 -0.05669

      Coefficients:
                  Estimate Std. Error t value Pr(>|t|) 
      (Intercept) -0.06189    0.18074  -0.342   0.7546 
      Beispiel$x1  2.06400    0.57043   3.618   0.0363 *
      Beispiel$x2 -0.03702    1.27509  -0.029   0.9787 
      ---
      Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

      Residual standard error: 0.06497 on 3 degrees of freedom
      Multiple R-Squared: 0.9993,     Adjusted R-squared: 0.9989
      F-statistic:  2220 on 2 and 3 DF,  p-value: 1.755e-05

Da der Beispieldatensatz recht überschaulich ist, wird unter Residuals der Abstand zwischen beobachtetem y und geschätztem y ausgegeben. In der Spalte Estimate werden die Koeffizienten und in der Spalte Std. Error der Standardfehler der Kleinste-Quadrate-Schätzer ausgegeben. In der Spalten t value und Pr(>|t|) werden Angaben zur Güte des Zusammenhanges gemacht. Das Bestimmtheitsmaß r2 finden Sie hinter Multiple R-Squared.
Das Adjusted R-squared ist das angepasste Bestimmtheitsmaß ra2 und trägt dem Rechnung, dass r2 mit der Anzahl der unabhängigen Variablen steigt. Um dann ein Modell über diese Gütemaß beurteilen zu können, muss r2 entsprechend angepasst werden:

Bestimmtheitsm_angepasst

R bietet noch weitere Möglichkeiten, insbesondere sei hier die plot()-Funktion erwähnt. Sie liefert ein recht guten Überblick z. B. über die Güte des geschätzten Models.

Seitenanfang

Hat der Inhalt Ihnen weitergeholfen und Sie möchten diese Seiten unterstützen?