Bootstrap

Bootstrap er en moderne datamaskinkrevende teknikk innen statistikk for å beregne standardfeil og konfidensintervall for et datasett ved gjentatt trekning av data fra det opprinnelige datasettet (resampling) Navnet «Bootstrap» henspiller på den lærhempen man hadde på gamle beksømstøvler slik at man kunne henge dem opp til tørk, det vil si løfte seg selv opp.

Parametrisk bootstrap baserer seg på at data følger vanlige parametriske statistiske fordelinger som for eksempel normalfordeling eller Poissonfordeling. Ikke-parametrisk bootstrap bygger ikke på noen grunnleggende statistisk modell. Bootstrap har fått stor anvendelse innen bioinformatikk (fylogeni, evolusjonært slektskap, mikromatrise-data).

Ved ikke-parametrisk bootstrap tas det prøver fra den empiriske kumulative tetthetsfunksjonen (ecdf) til datasettet.

Bootstraping brukes til å lage replikater av et datasett. Vi resampler data med tilbakeføring, og starter med det originale datasettet som et enkelt eksempel {100,80,99,120,70}

Se nå hva som skjer med dette datasettet når vi lager replikater ved tilfeldig å plukke ut data fra det opprinnelige datasettet, og deretter legge dem tilbake igjen:

100 80 99 120 70 Opprinnelig datasatt

120 80 99 80 99 Resamplet

100 80 100 80 100 Resamplet

99 120 80 120 100 Resamplet

99 120 80 100 99 Resamplet

Med en datamaskin kan man gjøre dette e.g.n=100000 ganger, og man har derved laget seg et nytt omfattende datasett fra det lille utgangsdatasettet.

Gjennomsnittsverdien for det opprinnelige datasettet er 93.8

Vi finner et estimat for gjennomsnitt (forventet verdi E(X)), og 95% konfidensintervall hvor SE er standardfeilen, t er den kritiske tabellverdien for t-fordelingen

\(\text{95% konfidensintervall}= \mu\; \pm\; t\cdot SE\) :

Bootstrap gjennomsnitt 94 og 95% konfidensintervall (95% KI): 85-103.

Det vil si at vi er konfident om at 95% av tilfellene vil havne innenfor intervallet [85-103]

Bootstrap konfidensintervall

Figuren viser histogram og fordeling av gjennomsnittsverdier for n= 100000 resamplede data fra det originale datasettet.

Bootstrap av en regresjonslinje

Vi kan simulere en linje med normalfordelt variasjon, plotter datapunktene og en regresjonslinje. Deretter kan vi resample data fra både x- og y-verdiene og lage lineære modeller av disse som plottes. Vi ser at variasjonen er minst ved gjennomsnitt av[x,y], vippepunktet som linjen kan dreie omkring.

Bootstrap regresjonslinje

Figur viser simulert datasett med normalfordelt variasjon (blå punkter). Plotter regresjonslinjen (rød). Resmpler datasettet n=30 og lager en lineær modell av hver av dem (prikkete grønne linjer).

R Core Team (2019). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.
URL https://www.R-project.org/

Tilbake til hovedside

Publisert 4. mai 2020 12:23 - Sist endret 24. okt. 2022 14:21