Modeller

Med matematisk og statistisk modellering ønsker man å gi en tilnærmet beskrivelse av virkeligheten. Modellen behøver nødvendigvis ikke være helt nøyaktig, men den tar for seg de viktigste underliggende årsakene til fenomenet den beskriver. Vitenskapelige modeller brukes for å vurdere hypoteser, forklare data og prediktere (fremtidsbeskrive). Modeller benyttes bla. innen meteorologi og de fleste samfunnsdisipliner. Standardmodellen innen partikkelfysikk gir en forklaring på hvordan materien er bygget opp og samvirker i Universet. Vær- og klimamodeller angir vær og klima ove ren tidsskala, og med varierende sannsynlighet. 

Modellbeskrivelse av naturen.

En vitenskapelig modell gir en beskrivelse av hvordan naturen fungerer og predikterer oppførselen til uavhengige og avhengige variable. En dynamisk modell viser hvordan responsen endrer seg over tid. Naturen følger ofte ikke normalfordelingen (Gaussfordelingen), og man trenger derfor andre sannsynlighetsfordelinger.  En kvantitativ modell gir en numerisk prediksjon av responsen. Kvalitative modeller gir en generell beskrivelse av responsen, for eksempel respons/ikke respons på en variabel. Nestede modeller øker kompleksiteten slik at den mer komplekse modellen inneholder den foregående modellen som et spesialtilfelle med faste parameterverdier.Modeller som motstår utfordringer i møte med nye data beholdes, men modellen må ikke bli forvekslet med virkeligheten. 

En modell gir en matematisk og sentral beskrivelse av en økologisk prosess eller problemstilling, hjelper til med å identifisere parametre som må måles, og bestemmer hvilke av parametrene som er viktigst. Modellen er et vitenskapelig verktøy, og man må validere forutsetningene for modellen og validere selve modellen.  Modellen er ikke en hypotese, og man må skille mellom hypotese og modell.  Bruk av forskjellige modeller til å beskrive samme fenomen er nyttig, og gir økt forståelse av det naturlige systemet. Jo flere faktorer eller variable modellen inneholder desto bedre tilpasning gir den til data, men modellen skal ikke bli like kompleks som naturen selv. En for enkel modell utelater viktige variable. En for kompleks modell er uoversiktlig og det er som regel ikke nok informasjon i datasettet til å bestemme parameterverdiene βn med tilstrekkelig nøyaktighet. Modellen kan brukes til planlegging av eksperiment og kan være hjelp til å identifisere konfunderte variable. En god modell gir et riktig bilde av virkeligheten. To variable er konfundert hvis effekten på responsvariabel ikke kan atskilles.  

En økologisk modell beskriver en prosess. For eksempel i et studium av populasjoner er det usikkerhet tilknyttet hver av prosessene fødselsrate, dødsrate og migrasjonsrate. Thomas Kuhn innførte i 1962 begrepet paradigmeskifte, hvor en eksisterende hypotese beholdes inntil det blir så mye motsetninger mot den at den til slutt erstattes med en ny. Eksempler på paradigmeskifter innen naturvitenskap er Einsteins generelle og spesielle relativitetsteori, Darwin og Wallace biologiske evolusjonsteori eller Wegeners teori om platetektonikk. Det vitenskapelig samfunn består av uavhengige tenkere med forskjellige meninger. Samme type tanker gir lite innovasjon og få vitenskapelige gjennombrudd. ”Der hvor alle tenker likt tenkes det ikke mye nytt”.

Deterministiske modeller

Deterministiske modeller har ingen innebygd usikkerhetsfaktor, og ingen av parametrene følger en sannsynlighetsfordeling. Modellen kan ofte bare beskrive gjennomsnitts- eller modalverdi til parametrene. Deterministiske modeller tar ikke hensyn til at det tilfeldighet og variasjon i tidsavhengige prosesser.

Stokastiske modeller

I stokastiske modeller er noen av parametrene beheftet med usikkerhet som kan beskrives med en sannsynlighetsfordeling. I en deterministisk modell vil samme startverdi gi samme resultat. En stokastisk modell vil gi forskjellig resultat avhengig av verdien til den tilfeldige stokastiske variabel. Man trenger derfor å vite noe om stokastisiteten til data. Stokastisiteten kan skyldes målefeil, det er vanskelig å gjøre perfekte observasjoner. Målefeil følger ofte normalfordeling, tellinger følger Poissonfordeling, men ofte kan det være bruk for andre fordelinger som negativ binomial fordeling, lognormalfordeling og gammafordeling.

En stokastisk prosess består av en samling av tilfeldige variable. Følgende er eksempler på stokastiske prosesser: Markovkjeder, virrevanddring (”random-walk”),  Poissonprosesser, Gaussprosesser, Wiener(Brownske)- prosesser og Itô-prosesser.

   Omgivelsesfaktorer som klima, årstid og topografi bidrar til stokastisitet. Det samme gjør demografisk stokastisitet, hvor de forskjellige alderstrinn i populasjonen påvirkes forskjellig.

Den deterministiske modellen for geometrisk vekst er, hvor xt er antall ved tid t:

\(\displaystyle x_ {t+1}= rx_t\)

Her forutsetter vi at vekstraten r er konstant, hvilket under naturlige forhold den svært sjelden er. Vi kan la vekstraten være en stokastisk prosess bestående av en deterministisk r0 og en tilfeldig stokastisk støyvariasjon St. Vi kan nå skrive en stokastisk differensligning for vekst:

\(\displaystyle x_{t+1}= (r_0 + S_t)x_t= r_0 x_t+ s_tx_t\)

En annen strategi er å tilføre et ledd for støy (St) direkte i den deterministiske modellen:

\(\displaystyle x_ {t+1}= rx_t + S_t\)

Legg merke til at det er en prinsippiell forskjell mellom disse to måtene å innføre stokastisitet i den opprinnelige deterministiske modellen. Omgivelsesstokastisitet er variasjon hvor alle individene påvirkes av ytre faktorer. Demografisk stokastisitet er variasjon i vekst, atferd, vitalitet og genetikk, ofte beskrevet av normalfordeling, men også andre statistiske modeller kan bli brukt.

Statistiske modeller: generaliserte lineære modeller (GLM)

En statistisk modell beskriver relasjoner mellom prediktor og responsvariabel, og er ofte en regresjonsmodell. En statistisk modell predikterer responsen som en forklaringsvariabel gir.

I tolkningen av en observasjon trenger man en modell. Modellen er en abstrakt beskrivelse av sammenhengen mellom variable, responsvariabel og forklaringsvariable.

En lineær modell beskrevet som lm(y~x) betyr tilpass en lineær modell (lm) av y som funksjon av x.(krøllen ~ betyr modellert av)

En multippel regresjonsmodell er av følgende type hvor xi er forklaringsvariable (prediktorer, uavhengige variable) , y er responsvariabel (avhengig variabel), βi er parameterverdier i modellen som vi ønsker å bestemme og få en tallmessig beskrivelse av med tilhørende stanardfeil,  β0  er "intercept", og (epsilon (ε) er feil (støy) i modellen :

\(y \sim \beta_0 + \beta_1 x_1 + \beta_2 x_2 + b_3 x_3+ \dots + \beta_n x_ n + \epsilon \)

En Poisson-modell er av følgende type:

\(\ln y \sim \beta_0 + \beta_1 x_1 + \beta_2 x_2 + b_3 x_3+ \dots + \beta_n x_ n \)

En logistisk modell brukes for binære utkomme, hvor logit p er lik logaritmen til odds:

\(logit \;p= \displaystyle \ln \left(\frac{p}{1-p}\right) \sim \beta_0 + \beta_1 x_1 + \beta_2 x_2 + b_3 x_3+ \dots + \beta_n x_ n \)

For å bestemme sannsynligheten p må vi bruke eksponentialfunksjonen på begge siter av likhetstegnet.

På samme måte som man bruker minste kvadraters metode kan man bruke metoden for maksimum likelihood for å finne parameterverdiene. Vi har en likelihoodfunksjon L(β) og devianse er forskjellen mellom -2∙logL og den maksimale modellen.

Data møter modell og modell møter data

Vitenskap er basert på målinger. Målingene er beheftet med usikkerhet og prøvetakingsfeil. I klassisk statistikk beregnes sannsynlighet for et utkomme etter en sekvens av gjentatte eksperimenter for eksempel myntkast. Man beregner en p-verdi for et utkomme gitt en nullhypotese (H0). Hvis hale-sannsynligheten er liten dvs. p<0.05 forkastes nullhypotesen. Imidlertid, hvis p>0.05 kan nullhypotesen fremdeles være usann, men vi kan ha for få data til å trekke en sikker konklusjon. Det er mange motforestillinger mot bruk av p-verdier i hypotesetesting

Det finnes tre hovedtyper metoder for statistisk tilnærming til en problemstilling: frekventisme basert på standard Fisher og Pearson, Bayesiansk metodikk og likelihoodestimering.

Pr{data|modell} betyr gitt modellen, og hvordan passer data til modellen.

Pr{modell|data} betyr gitt data, hvordan passer modellen til data.  Vi må finne et mål på sannsynligheten av de observerte data gitt at modellen er sann. Likelihood-estimering brukes til å finne parametre i en gitt modell som passer best til data, dvs. bestemme parametre som gjør dataene mest sannsynlig.  Ved likelihood-estimering er data kjent, men hypotesen ukjent. Ved sannsynlighets-estimering er sannsynlighet kjent, men data ukjent. Likelihood er er sannsynligheten for et observert utkomme. Likelihood er  proporsjonal med sannsynligheten p. Vi må finne parametre slik at likelihood blir størst mulig, et maksimum likelihoodestimat (MLE). I stedet for likelihood brukes -2ln(likelihood),som må minimaliseres og som følger kjikvadratfordeling. Vi bruker 95 persentilen i kjikvadratfordelingen for å finne grenser som gir gode parametre som gjør data mest sannsynlig, og vi kan bestemme konfidensintervallet for likelihood. Siden vi bruker

-2ln(likelihood) brukes grensen e-2  som gjør data ca. 14% sannsynlig som maksimum likelihood.

   Bayesiansk metodikk bruker likelihood for å beregne forhånds sannsynlighetsfordeling (prior), som angir troen om sannsynlighet for de forskjellige hypotesene.

Den x-te persentilen til en fordeling er den verdien under hvilken x% av individene befinner seg, tilsvarende x/100 kvartil, 50 persentil=0.5 kvartil, 10 persentil=0.1 kvartil. Kumulativ frekvensfordeling viser alle kvartilene til en numerisk variabel og y-aksen blir [0,1].

Standardmodellen innen partikkelfysikk

Omhandler de teoretiske og eksperimentellebeskrivelser av elementærpartikler (bølger) og deres vekselvirkninger, elektromagnetisme, fargekraft (binder sammen kvarker), og svake kjernekrefter. Forklarer oppbygging av atomer og molekyler som danner materie, stoff og ,ca. 5% av den verden vi kan observere. Resten er ukjent i form av svart materie og svart energi, som ut fra virkningen må finnes, men som vi fremdeles ikke vet hva er. Standardmodellen bygger på kvantefeltteori 

Vær- og klimamodeller

Numeriske værmodeller deler Jorden i et tredimensjonalt rutenett med innsamlete data om temperatur (Kelvin) i luft, hav, bakke, vind (konveksjonsstrømmer, passatvinder, vestavindbelte, Hadleyceller), solinnstråling,  nedbør, skydekke og vanndamp i atmosfæren, varmeflukser og langbølget varmestråling, refleksjon, lufttrykk. I modellene inngår en lang rekke med differensialligninger

Klimamodeller forsøker å beskrive endringer i vær som skjer over lange tidsperioder (epoker) og større skala. Klimamodeller bygger på naturlovene, Jordens bevegelse rundt Sola, helning av Jordaksen, partikkelstråling fra Sola (Solvind), faseoverganger mellom vann, is og vanndamp, inneholdet av aerosoler og gasser i atmosfæren som absorberer varmestråling (CO2, metan, vanndamp, lystgass, troposfæreozon osv. ), Corioliseffekten, Jetstrømmer, topografi og de samme klimaparmeterene (Jordens varmebalanse) som i værmodellene. Vilhelm Bjerknes var en av pionerene i utvikling av ligninger som beskriver vær og klima. Bygger på hav- og atmosfæremodeller (væskedynamikk), hvor vegetasjonen spiller en stor rolle i vannsyklus på Jorden. Kaosteori og Lorenzligningene. 

Tilbake til hovedside

Publisert 5. des. 2019 13:08 - Sist endret 4. mai 2020 14:03