Tidsserie

Tidsrekke. Måling og registrering av en variabel ved bestemte like tidsintervaller. Tidsintervallene kan være sekunder, timer, døgn, måned eller år, avhengig av type variabel som måles. Analyse av tidsrekker (tidsserier) anvendes innen meteorologi (nedbør, temperatur, sjøtemperatur ved værfenomenet El nino som påvirker klima og fiskerier), hydrologi (vannføring i elver), samfunnsvitenskap (demografi, arbeidsledighetstall), økonomi (priser, børs- og valutakurs) og biologi (bestandsutvikling  av hjortedyr, rype, skogsfugl, sjøfugl, sangfugler, smågnagere, samt bestander av fisk, eller hval). Tidsserier kan brukes til å fremtidsbeskrive (prediktere) tilknyttet forskjellig grad av usikkerhet. 

Periodisk variasjon i biologiske,- fysiske- og omgivelses-faktorer. Innen epidemilogi målinga av antall influensatilfeller observert over et tidsrom. Antall fødsler og dødsfall fordelt på dager, uker, måneder og år. Blodtrykk målt over tid og gjennom døgnet. CO2-konsentrasjon i atmosfæren. Innen funksjonell magnetisk resonans  med bilder av hjernebølger over tid. 

I tidsserieanalyse foretas det dekomponering av de underliggende variasjonene trender, sykliske svingninger (sesongvariasjon) og uregelmessig støy. Tidsserieanalyse er studier av hvordan en variabel X utvikler seg over tid. Trenden viser utviklingen, mens sesongvariasjonen er typiske svingningsmønstre. I tillegg er det tilfeldig variasjon som ikke følger noe mønster. Autokorrelasjon er korrelasjon mellom nærstående måleverdier i tidsserien. Tidsseriemodellen kan brukes til å lage prognoser om fremtidig utvikling.

Tidsseriedata er ikke uavhengige av hverandre, e.g. været idag er påvirket av været i går, og representerer derved pseudoreplikerte data. For multiple tidsserier, her vannføring og nedbør, så kan man undersøke om de to tidsseriene er korrelert, slik at endring i den ene variabel gir endring i den andre, men som vanlig må man være oppmerksom på at korrelasjon ikke nødvendigvis betyr årsakssammenheng.

Autokorrelasjon i tidsrekker

Ofte er det spørsmål om det er trender i utviklingen og seriell avhengighet. Det vil være autokorrelasjon mellom temperaturen i en måned og den foregående måneden, autokorrelasjon lag 1. Autokorrelasjon lag 2 sier noe om korrelasjonen mellom temperaturen i en måned sammenlignet med måneden før forrige måned osv. Graden av autokorrelasjon minsker etter som lag øker. Hvis det er en syklisk trend vil korrelasjonen gå mot 0 for deretter å bli negativ, og så tilbake igjen og bli positiv. 

Forventningsverdien E(X) er gjennomsnitt for populasjonen (µ).

Vi kan fra vår prøve lage et estimat \(\overline x\)av av populasjonsgjennomsnittet:

\(\overline x= \displaystyle\frac{\sum_{i=1}^n x_i}{n}\)

Vi bruker greske bokstaver for å angi populasjonsverdiene, de vi aldri finner, men som vi estimerer ut fra prøven vi har. Varians for populasjonen, angitt som sigma opphøyd i andre ( σ2) for populasjonen og s2 for prøven.

Gjennomsnittet av de kvadrerte avvik blir:

\(Var\left(X\right)= E\left(x-\mu\right)^2\)

som er lik varians for populasjonen, Var(X), angitt som σ2

Varians for prøven:

\(s^2 = \displaystyle\frac{\sum_{i= 1}^n \left(x_i - \overline x \right)^2}{n-1}\)

Vi har n-1 frihetsgrader siden vi har brukt tallene i prøven en gang for å regne ut gjennomsnittet. Standardavviket (sd) er lik kvadratroten av variansen, lik σ for populasjonen og s for prøven. 

Hvis vi har variable i par (x,y) så er kovariansen γ(x,y)for populasjoen lik:

\(\gamma\left(x,y\right)= E\left[\left(x-\mu_x\right)\left(y-\mu_y\right)\right]\)

Kovariansen er en lineær assosiasjon mellom variablene x og y.Ut fra vår prøve får vi et estimat av kovariansen:

\(Cov\left(x,y\right)= \displaystyle\frac{\sum_{i= 1}^n \left(x_i - \overline x \right) \left(y_i -\overline y\right)}{n-1}\)

hvor \(\left(\overline x, \overline y\right)\)er gjennomsnittsverdiene for prøven.

Korrelasjonen for populasjonen er ρ (rho), og for prøven blir korrelasjonen Cor(x,y).

Korrealsjonen for et variabelpar ρ(x,y) i populasjonen blir

\(\rho\left(x,y\right)=\displaystyle\frac{\left[\left(x-\mu_x\right)\left(y-\mu_y\right)\right]}{\sigma_x \sigma_y}= \frac{\gamma(x,y)}{\sigma_x\sigma_y}\)

For prøven blir korrelasjonen

\(Cor\left(x,y\right)= \displaystyle\frac{Cov \left (x,y \right)}{sd(x) sd(y)}\)

hvor sd(x) og sd(y) er standardavviket for henholdsvis x og y.

Autokorrelasjon (seriell korrelasjon) er korrelasjon for en variabel med seg selv ved forskjellig tid. Autokorrelasjon kan variere fra -1 med perfekt negativ korrelasjon via 0, ingen korrealsjon, til +1 med perfekt positiv korrelasjon. Verdien for autokorrealsjon kan beregnes med en autokorrelasjonsfunksjon.

I vanlig regresjon forutsetter man at restleddet (feilleddet)εt er normalfordelt og gjensidig uavhengig, hvit støy med lite informasjonsinnhold:

\(Y_t= \beta _0+\beta_1X_t + \epsilon_t\)

I en tidsserie (tidsrekke) er ikke verdiene uavhengig av hverandre, de er seriekorrelerte eller autokorrelerte, og man kan ikke bruke vanlig regresjonsmodell. Vi kan beskrive korrelasjonen mellom den opprinnelige tidsrekken og en tidsforskjøvet rekke.

x1

x2

x3

x4

x5

x6

x7

x8

 

 

x1

x2

x3

x4

x5

X6

x7

x8

Den øverste rekken fra x1 til xt er den opprinnelig, og den under er forskjøvet med en tidsenhet, og man ser på korrelasjonskoeffisientene mellom disse to rekkene, kalt autokorrelasjon lag 1. Vi kan bruke et ledd i rekken xt til å prediktere (forutsi) hva det neste leddet i rekken xt+1  vil bli. Hvis vi lager en tidsforskyvning på to ledd, autokorrelasjon lag 2, så sier dette noe om hvor god prediksjonen to tidsledd fram. Øverst en opprinnelige observasjonsrekken, nederst er rekken forflyttet to tidstrinn frem, og på nytt ser vi på korrelasjonen mellom de leddene som står overfor hverandre

x1

x2

x3

x4

x5

x6

x7

 

 

x1

x2

x3

x4

x5

x6

x7

Slik kan man fortsette å forskyve og se på korrelasjonen mellom opprinnelig tidsrekke og forskjøvet tidsrekke, lag 3, lag4, …, hvor måleenheten for lag nummer er måleenheten i tidsrekken.

Hvis korrelasjonskoeffisienten mellom xt og xt+1 er lik r og man antar at korrelasjonskoeffisienten mellom xt+2 og xt+2 også er lik r så vil korrelasjonen to trinn fram være r2. Imidlertid, hvis det er avvik mellom de to r i de to tidstrinnene så blir dette beskrevet av partiell autkorrelasjon, som angir avviket fra r2, og gir utfyllende informasjon om strukturen i rekken.

I en rekke med hvit støy kan man ikke fra et ledd i rekken prediktere hva neste ledd vil bli, autokorrelasjonen blir lik 0 for alle lag nummer.

Additive eller multiplikative modeller

Innen tidsserieanalyse for interaksjon mellom trend og sesongvariasjon kan det anvendes additive eller multiplikative modeller. Trenden er hvordan ting endrer seg, sesongvariasjonen er forandringen i en tidsperiode, dag, uke, måned, eller år. I tillegg er det uforklart irregulær variasjon. Hvordan disse virker sammen bestemmer valg av tidsseriemodell, og for å undersøke disse må tidsserien dekomposeres og visualiseres. Trenden kan angis som et bevegelig gjennomsnitt eller medianverdi som er mindre følsom for utliggere. Sesongvariasjonen har et syklisk mønster og kan analyseres ved detrending.   I additive modeller blir hver faktor integrert og summert. Additive modeller egner seg der hvor sesongvariasjonen er relativt konstant over tid.

I multiplikative modeller antar man at dataverdiene og sesongverdiene er stigende, og blir påvirket av en rekke faktorer hvor hvit støy gir effekter i differens- eller differensialligninger. Multiplikative modeller er vanligst, hvor trend og sesongvariasjon øker over tid, blir summert og deretter lagt til modellens feilkomponent.

Tilstands-rom modeller bruker Kalman-filtere og glattingsfunksjoner.

Litteratur:

Cowpertwait, P.S.P & Metcalfe, A.W. Introductory Time series with R. Springer 2009.

Tilbake til hovedside

Publisert 13. jan. 2020 09:11 - Sist endret 3. mai 2021 15:12