Zur├╝ck...

Splines - Regression ├╝ber flexible Modellierung

Bei praktischen Anwendungen kann eine lineare Anpassung (Modellierung) nicht ausreichend sein. Die Ursachen daf├╝r k├Ânnen inhaltliche Gr├╝nde (keine Transformation m├Âglich) oder Einfl├╝sse durch Kovariablen sein.

Spline-Beispiel

Eine Anpassung an die links dargestellte Funktion ist durch eine einfache Transformation oder einem Polynom schwierig.

Hier kann ├╝ber die flexible Modellierung eine Sch├Ątzung des Modells m├Âglich sein.

Eine Regressionsanalyse ├╝ber die flexible Modellierung geht in der Regel von einer gro├čen Zahl von Parametern aus, die einzelnd nicht mehr (sinnvoll) interpretierbar sind. F├╝r diese Art der Regressionsanalyse wird die gleiche Annahme bez├╝glich des Fehlers gemacht, wie bei der linearen Regression:

        Die Fehlerannahme ist von Bedeutung bei der Sch├Ątzung des Konfidenzintervalles.

Eine Modellierungsm├Âglichkeit zur Regressionsanalyse sind Polynome mit folgendem Modell (F1):

F1

Der Einfluss von x auf y wird durch ein Polynom vom Grad n modelliert. Darauf basierend, k├Ânnen die Regressionskoefizienten an des Polynoms ├╝ber KQ-Sch├Ątzung bestimmt werden. Mit einem Polynom ist eine Modellierung der Anpassung oft nicht ausreichend, um lokale Auspr├Ągungen (Minima / Maxima) des Funktionsverlaufes zu erfassen. Deswegen wird der Wertebereich x in Intervalle separiert und f├╝r diese Bereiche werden jeweilige Polynome gesch├Ątzt. D. h., anstelle des Modells F1 f├╝r den gesamten Wertebereich werden also mehrere lokale Polynome gesch├Ątzt. Zur Sch├Ątzung werden i. d. R. Polynome 3. Grades verwendet. Polynome h├Âheren Grades neigen besonders in den Endbereichen zu oszillieren. Durch die Separierung des Wertebereiches x (Definitionsbereich) und der anschlie├čenden Sch├Ątzung der lokalen Polynome wird, wie in der n├Ąchsten Abbildung zeigt, der Nachteil dieser Vorgehensweise deutlich:

Polynom und Knoten

Die einzelnen Polynome ergeben keinen glatten Funktionsverlauf mehr, da sie verschiedene Funktionswerte aufweisen. Die linke Abbildung soll diesen Sachverhalt verdeutlichen (ist sicher nicht perfekt)!

Die Gesamtfunktion ist somit unstetig! Damit das Modell nutzbar ist, m├╝ssen sog. Gl├Ąttungsanforderungen gestellt werden. Diese Anforderungen f├╝hren zu den Polynom-Splines.

Die Separierung des Definitionsbereiches in Intervalle f├╝hrt zu dem Begriff der Knoten.

Das bedeutet, das z. B. 10 Intervalle = 10 Konten entsprechen. Je mehr Konten k verwendet werden, desto gr├Â├čer ist die Zahl der lokalen Polynome, aus denen das Polynom-Spline zusammengesetzt ist. F├╝r das Polynom-Spline wird (n-1)-mal Stetigkeit verlangt (Differenzierbarkeitsanforderung). Das Polynom-Modell F1 wird nun ├╝ber die Glattheitsanforderung f├╝r das Knoten-Konzept erweitert (F2):

F2

In F2 finden also die Polynome der einzelnen Segemente (lokale Polynome) und die globale Glattheitsanforderung ├╝ber das Knotenkonzept (k-Term) Anwendung. Ein Polynom-Spline ist eine Linearkombination der n+m-1 (Polynomgrad + Knotenzahl - 1) Funktionen. Die einzelnen Koeffizienten an zeigen jeweils die ├änderung der Steigung und durch Einf├╝hrung von (x - kj) wird sichergestellt, dass die Steigungs├Ąnderung so glatt erfolgt, das die “Glattheitsanforderung” erf├╝llt ist. Verk├╝rzt ausgedr├╝ckt, ein Polynom-Spline l├Ąsst sich als lineares Regressionsmodell mit gro├čer Parameterzahl auffassen (siehe hier Fahrmeier, Kneib, Lang, Regression).
Im Gegensatz zum linearen Modell ist allerdings eine Interpretation der gesch├Ątzten Koeffizienten an nicht sinnvoll. Hier interessiert ehr die Form der gesch├Ątzten Funktion. Die G├╝te der Modellanpassung l├Ąsst sich durch Vergleich der Beobachtungen und der darauf basierenden Spline-Sch├Ątzung beurteilen.
Zu bemerken ist noch, dass die G├╝te der Sch├Ątzung auch von der Zahl und Position der Knoten k abh├Ąngt. Zahl und Knotenposition h├Ąngen wiederum von der Verteilung der Beobachtungen ab. Von Vorteil ist die Knotenzahl auf Basis der Quantile. Damit werden entsprechend viele Knoten in Bereiche gelegt, in denen die Zahl der Beobachtungen hoch ist.
Als praktikable Gr├Â├če des Polynomgrades n hat sich n = 3 (kubisch) bew├Ąhrt.

Zur Sch├Ątzung (Modellierung) einer Spline-Funktion kann z. B. das R-Paket splines und die entsprechenden R-Funktionen verwendet werden:

      > x <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15)
      > y <- c(1, 3, 4, 3, 2, 4, 8, 9, 9.5, 8, 10, 13, 16, 18, 20)
      > interpSpline(x,y)

      > plot(sp, main = "Spline-Funktion")
      > points(x,y)

Spline-Funktion

      Die Spline-Funktion wurde ├╝ber die Funktion interpSpline() gesch├Ątzt (modelliert) und in dem Objekt sp abgelegt. F├╝r neue x-Daten (Beobachtungen) k├Ânnen die y-Werte ├╝ber die Funktion predict() gesch├Ątzt werden:

      > x_neu <- c(4.5, 7.5, 11.5)
      > predict(sp, x_neu)
      $x
      [1] 4.5 7.5 11.5

      $y
      [1] 2.285222 8.742508 11.485926
       

      Interpretation: F├╝r die neuen Beobachtungen 4,5, 7,5 und 11,5 abgelegt in x_neu  werden die y-Werte 2,285, 8,743 und 11,486 gesch├Ątzt.

 

Seitenanfang

Hat der Inhalt Ihnen weitergeholfen und Sie m├Âchten diese Seiten unterst├╝tzen?