Zurück...

Zeitreihenanalyse

Was ist eine Zeitreihe? Eine Zeitreihe entsteht, wenn zu einem Merkmal Y an aufeinander folgenden Zeitpunkten t (Zeitperiode t = 1,..., n) Beobachtungen yt durchgeführt werden. Diese zeitlich geordneten Beobachtungen yt des Merkmals Y bilden die Zeitreihe:

Eine Zeitreihe ist eine zeitlich geordnete Folge von Beobachtungen.

Das Ziel der Zeitreihenanalyse ist, Strukturen und Regelmäßigkeiten in Zeitreihen aufzudecken und zur Beschreibung oder Modellierung zu nutzen.

Bekannte Beispiele für Zeitreihen sind Aktienkurse (nur wenn online: OnVista.de ), Statistiken der Bundesanstalt für Arbeit (Arbeitslosenstatistik), der Preisindex bezüglich der Lebenshaltungskosten, Wetterdaten usw.. Sie führen sicher Ihre eigene Zeitreihe, wenn Sie an “Ihrer” Tankstelle vorbeifahren und die Preisentwicklung des benötigten Treibstofftypes beobachten.
Hier wird der Versuch unternommen, in die Zeitreihenanalyse einzuführen. Die Zeitreihenanalyse ist ein recht weites Gebiet und kann sich mathematisch aufwendig gestalten. Wenn Sie tiefer in die Thematik eindringen möchten, helfen die Literaturstellen Storm und Kreiß weiter. An dieser Stelle möchte ich die Verweise zur Stationarität und weißes Rauschen hervorheben.

Die Ausprägung des beobachteten Merkmals ist metrisch. Die Ausprägung kann aber durchaus ein Index sein, wie z. B. ein gewichteter Mittelwert oder eine qualitative Aussage wie”gut”, “befriedigend” oder “schlecht”, welche in einen Index transformiert wurde.

Betrachten wir als Zeitreihenbeispiel die Rohölpreisentwicklung (Abb.1):

Abbildung 1: Rohölpreis
Quelle:
Statistisches Bundesamt

In der Zeitreihenanalyse interessiert immer die Fragestellung, ob

      • ein Trend als Funktion der Zeit, oder
      • Saisoneffekte, z. B. jahreszeitliche Einflüsse, vorliegen.

Darüber hinaus wird der Versuch unternommen, auf Basis der vorliegenden Zeitreihe

      • Prognosen über den zukünftigen Verlauf

zu erstellen. Auch die Frage der

      • Korrelation, der Abhängigkeit zeitlich unterschiedlicher Beobachtungen,

ist von Bedeutung.

Eine Zeitreihe besteht aus Komponenten (Komponentenmodell), der systematischen und irregulären (Rest-)Komponente. Die systematischen Komponenten sind Trend, Saison und weitere erklärbare Effekte.
Zu der Restkomponente werden nicht erklärbare oder erfassbare Einflüsse zusammengefasst (siehe Regressionsanalyse Residuen). Um die Komponenten zu zerlegen (sie werden ja gemeinsam beobachtet) werden Modelle angenommen, die nachfolgend behandelt werden.

Das additive Komponentenmodell

Für dieses Modell wird angenommen, dass sich die Komponenten k additiv verhalten:

yt = k1t + k2t + ... + et        t = 1, ..., n

            k1: Trendkomponente
            k2: Saisonkomponente
            et: Restkomponente
            ...: weitere einflussnehmende Komponenten, z. B. aus dem wirtschaftlichen Bereich die Konjunkturkomponente

Die Trendkomponente k1 (oder auch m) steht für systematische Veränderungen, etwa ein lineares oder exponentielles Wachstum. Die Saisonkomponente k2 (oder s) beinhaltet saisonal wiederkehrende Veränderungen. Als Beispiel sei hier die jahreszeitlichen Veränderungen in der Arbeitslosenstatistik für das Baugewerbe in den Wintermonaten genannt. Wenn wir nun schon bei der Arbeitslosenstatistik sind, kann die ...-Komponente durchaus die Konjunkturkomponente sein.

Lassen sich Komponenten im Modell nicht exakt trennen (also getrennt beschreiben), werden diese zur glatten Komponente g zusammengefasst. Dadurch wird das additive Modell vereinfacht zum Trend-Saison-Modell:

yt = gt + st + et        t = 1, ..., n

Neben dem additiven Modell findet das multiplikative Modell Anwendung:

yt = gt * st * et        t = 1, ..., n

Bei diesen Modellen besteht eine Ähnlichkeit zu Regressionsmodellen. Es ist aber zu beachten, das Trend und Saison unbeobachtbare Funktionen sind, die über die Zeitreihenanalyse geschätzt werden. Zur Schätzung dieser Komponenten wird von einem globalen oder lokalem Ansatz ausgegangen.

Globaler Ansatz

Globale Trendmodelle sind (sollen) über den gesamten beobachteten Zeitbereich gültig (sein). Globale Modelle sind dadurch starrer als die später dargelegten lokale Modelle.

Der einfachere Fall des globalen Ansatz ist das reine Trendmodell

yt = gt +  et

da es sich auf das Schätzen der Trendkomponente gt reduziert. Diese Schätzung erfolgt über die Regressionsanalyse und die lineare Trendfunktion

gt = a0 + a1t + et

ist Ihnen sicher geläufig. Wie auch im Bereich der Regressionsanalyse beschrieben, kommen auch Funktionen, wie quadratische, exponentielle usw. als Trendfunktion in Frage. Bei polynomialen Modellen höherer Ordnung ist zu berücksichtigen, dass sie außerhalb des Datenbereiches instabil sind und deswegen für Prognosezwecke ungeeignet sein können.

In Abbildung 2 wird, trotz des spekulativen Anteils, von einem linearen Trend ausgegangen und die Regressionsgerade eingezeichnet:

Abbildung 2: Rohölpreis mit linearen Trend

Die lineare Trendfunktion gt aus Abbildung 2 nimmt folgende Parameter an:

gt = a0 + a1t + et

gt = 62.871 + 1.174t + et

Das Bestimmtheitsmaß als Gütemaß für Trendschätzung ist mit r2 = 0.6731 nicht wirklich gut. Die Restkomponente et zeigt an den Stellen kleinster Wert (Min), 1 Quantil (1Q), Median, 3 Quantil (3Q) und größter Wert (Max) folgende Abstände:

          Residuals:
              Min      1Q  Median      3Q     Max
          -39.473 -17.981  -3.375  19.016  44.362

Hinweis: Die Abbildungen 2, 4 ,5, 6 und die Schätzung der Regression (Trendfunktion) wurde mit dem Statistikprogramm R durchgeführt. Wenn Ihnen R nicht geläufig ist und Sie es kennen lernen möchten, bietet Ihnen das Buch Einführung in R einen einfachen Einstieg.

Die Ursache des geschätzten Bestimmtheitsmaß von r2 = 0.6731 kann in dem Vorhandensein einer Saisonkomponente s begründet sein. Um das besser beurteilen zu können, glätten wir die Zeitreihe.

Zeitreihenglättung

Als Glättungsmethode wird hier das Ersetzen der Werte xi der Zeitreihe durch ein Mittelwert t aus einer bestimmten Anzahl Nachbarwerten angewendet. Es wird der einfache gleitende Durchschnitt t gebildet

t = m + 1, ..., n - m

Das bedeutet, wenn m = 1 beträgt, wird eine 3-Punkte-Glättung durchgeführt:

t = 1/3(xt-1 + xt + xt+1)

Beträgt m = 2, wird eine 5-Punkte-Glättung durchgeführt:

t = 1/5(xt-2 + xt-1 + xt + xt+1 + xt+2)

        :                         :                               :

Abbildung 3: Zeitreihenglättung

Die geglättete Zeitreihe besitzt demzufolge nur noch n - 2m Werte! Abbildung 3 zeigt beispielhaft eine 3-Punkte- und eine 5-Punkte-Glättung. Die Farben und Pfeile sollen andeuten, wie die geglätteten Mittelwerte zustande gekommen sind. Durch Glättungen können große unregelmäßige Schwankungen aus Zeitreihen ausgeglichen und die glatte Komponente g (oder im reinen Trendmodell der Trend gt) besser geschätzt werden. Abbildung 4 zeigt den grafischen Verlauf der 3-Punkte- und 5-Punkte-Glättung:

Abbildung 4: 3-Punkte- und 5-Punkte-Glättung

Wie zu erwarten, mit zunehmender Glättung werden größere Schwankungen im Vergleich zur Abbildung 2 entfernt. Die Schätzung der Trendfunktion gt erfährt allerdings keine wesentliche Verbesserung.
Nach einer Glättung ist das Vorhandensein einer Saisonkomponente s leichter zu erkennen. In diesem Rohölbeispiel fällt es mir allerdings schwer, diese zu erkennen. Die erdölverarbeitende Industrie ist sicher bemüht, eine Saisonkomponente (Ferien, bestimmte Feiertage) zu verhindern.

Für weiter Glättungsverfahren (Filter) sei auf die oben genannten Literaturstellen verwiesen.

Im Trend-Saison-Modell...

yt = gt + st + et        t = 1, ..., n

kann eine Saisonkomponente st nach Eliminierung der Trendkomponete gt sichtbar werden. Hier spielt die Schätzungsgüte der Trendkomponete gt natürlich eine wesentliche Rolle. Je besser die Schätzung ist, desto besser kann die Saisonkomponente st geschätzt werden.

Die Trendeliminierung wird über die geschätzten Werte der Zeitreihe durchgeführt. Idealisiert nimmt die Trendfunktion den Wert 0 an, wenn die Differenz zwischen dem beobachteten Wert und dem geschätzten Wert gebildet wird.

Die Trendeliminierung auf die Daten aus Abbildung 2 angewandt, zeigt folgendes Bild (Abbildung 5):

Abbildung 5: Trendeliminierte Zeitreihe

Liegt eine Saisonkomponete st in obiger Zeitreihe (Abb. 5) vor, kann sie erkannt und geschätzt werden. Eine jahreszeitlich bedingte Saisonkomponete kann eine Periode p = 12 Monate besitzen. Z. B. könnte in obiger trendbereinigter Zeitreihe in den Sommermonaten der Rohölpreis besonders hoch sein. Um die Saisonkomponete st schätzen zu können, müssen Annahmen über das Funktionsmodell gemacht werden. Hierzu sei auch auf die oben erwähnten Literaturstellen verwiesen!

Lokaler Ansatz

Für längere Zeitreihen sind globale Ansätze oft zu starr. Für sich zeitlich ändernde Strukturen sind lokale Ansätze besser geeignet.
Die Idee hinter dem lokalen Ansatz ist, die Zeitreihe in Fenster geeigneter Größe aufzuteilen. Die oben beschriebene Zeitreihenglättung ist im Grunde auch ein lokaler Ansatz, da hier über m der Mittelwert berechnet wird. Zur Schätzung der Trendfunktion gt über die Regressionsanalyse wurde die vorliegende Zeitreihe in 2 Bereiche (Fenster) geteilt (Abbildung 6):

Abbildung 6: Lokale Regression

Die lineare Trendfunktion gt Datensatz 1 bis 49 aus Abb. 6:

    gt = a0 + a1t + et
    gt = 99.340 + -0.359t + et
    r2 = 0.2046

Die lineare Trendfunktion gt Datensatz 50 bis 98 aus Abb. 6:

    gt = a0 + a1t + et
    gt = 95.302 + 2.252t + et
    r2 = 0.7949

Vergleichen Sie die Daten mit dem globalen Ansatz und machen Sie sich Ihr eigenes Bild. Die Herausforderungen zur Schätzung der Trend- oder Saisonkomponente sind die gleichen, wobei bei den Aussagen zur Zeitreihe natürlich der betrachtete Zeitraum (Fenster) eine wesentliche Rolle spielt.

Hier geht es zu Zeitreihenanalyse-Beispiele mit R!

Seitenanfang

Hat der Inhalt Ihnen weitergeholfen und Sie möchten diese Seiten unterstützen?