Overlevelsesanalyse

Overlevelelsesanalyse er en statistisk metode som  går ut på å finne tiden før en hendelse skjer. Det kan være overlevelsetid før død, men også være tid før en lyspære eller utstyr går i stykker, eller tid for en kvinne å bli gravid. I en medisinsk undersøkelse kan det dreie som om et sammenlignende randomisert studium av hvordan strålebehandling, kjemoterapi (cellegift), kirurgisk fjerning av svulst, en type medisiner, eller det å gjøre ingenting (kontrollgruppe) påvirker overlevelsestiden (dødstidspunkt) for kreftrammede.

Overlevelsedata angir tiden før en hendelse skjer. Dette kan være tiden før det oppstår feil på komponenter eller utstyr, tiden det tar før en organisme dør, eller tiden det tar før et frø spirer. Hendelsene blir da feil, død eller spiring. Det kan dreie seg om å overleve vinter eller tørketid. Evnen til å overleve avhenger av alder og mengde opplagsnæring.  Ved overlevelseanalyse hender det at individer overlever slik at man får ikke noe tidsangivelse for hendelsen død innen undersøkelsen er avsluttet, og man sier at overlevelsestiden er sensorert (”censored”). Hadde man ventet lenge nok ville alle ha dødd.  Det er flere måter å analysere slike data bl.a. Kaplan-Meier-kurver. Etter analysen får man et mål på tiden til hendelsen skjer, eller om det er en sensorert tid.

Error-fordelingen for data som angir tiden for en hendelse er ikke normalfordelt, og ofte kjenner man ikke til error-fordelingen, men den kan være av typen Weibull, Gamma, eksponensiell eller log normal eller lignende.

I overlevelseskurver plotter man den naturlige logaritmen til andelen av en kohort med individer fra starttid 0 og som ennå lever ved tiden t.  Dødsraten er vanligvis ikke lineær med alderen, oftest er dødsraten størst blant de yngste og de eldste. Eksempler på slike aldersspesifikke hasardmodeller er Rayleigh, Makeham, Gomperts, Weibull og eksponensiell.  

Et overlevelsesstudium kan også inneholde andre parametre som smertesymptomer, livskvalitet (må defineres) etc. Andre undersøkelser, feilanalyse, kan være å undersøke levetiden for teknisk utstyr eller elektroniske komponenter. Overlevelsesdata er ikke normalfordelte, ofte er det positiv skjevhet (skew) med lang flat kurve til høyre. Noen ganger vet man ikke den eksakte levetiden. Noen ganger avsluttes forsøket før død, eller utstyret er gått i stykker, og i dette siste tilfellet sier vi at individene er sensorert. Sensoring benyttes hvis hendelsen skjer utenom tidsrommet for undersøkelsen. Høyresensorerte data er vanligst, hvor tiden for hendelse er lenger enn siste tidspunktet objektet ble undersøkt. Venstresensorert betyr at hendelsen skjer før første undersøkelse. Intervallsensorert betyr at hendelsen skjer mellom to observasjonstidpunkt.

Overlevelsesfunksjonen S(t) viser andelen av individer fra den opprinnelige kohorten som ennå lever ved tiden t. Alle i kohorten lever ved tid=0 slik at overlevelsesfunksjonen har en skjæring  ved 1.

Tetthetsfunksjonen f(t) angir sannsynligheten for å dø i tidsintervallet t og t+dt. Hasardfunksjonen h(t) er forholdet mellom tetthetsfunksjonen og overlevelsesfunksjonen.

\(\displaystyle S(t)= e^\frac{-t}{\mu}\)

\(\displaystyle f(t)= \frac{e^{\frac{-t}{\mu}}}{\mu}\)

\(\displaystyle h(t)= \frac{S(t)}{f(t)}= \frac{1}{\mu}\)

Overlevelsesfunksjonen S(t) angir sannsynligheten (P) for at overlevelsestiden T er større eller lik en gitt tid t, og viser sannsynligheten for å være i live ved et gitt tidspunkt:

\(\displaystyle S(t)=P(T\geq t)\)

Ofte studerer man en gruppe individer med samme alder, en kohort (l. cohors- kve, innhegning, en gruppe romerske soldater). Hvis det ikke er noen sensorerte individer kan man lage et esimat av sannsynligheten, hvor n er antall observasjoner:

\(\displaystyle \hat S= \frac{\text{antall individer med overlevelsestid}\; \geq t }{n}\)

Hvis man har sensorerte data kan man bruke en Kaplan-Meier estimator (produktgrenseestimator) hvor overlevelsestiden rangeres fra den minste til den lengste. Estimatoren er en trappefunksjon som blir redusert med en faktor. Ved starten hvor alle lever er overlevelsen 1. Når tiden er kommet til første dødsfall/feil synker overlevelsen med et trinn 1-1/rt, hvor rt er andelen av populasjonen som fremdeles lever. I ethvert tidspunkt har man antall døde ved tidspunkt ti (d(ti)) og antall overlevende som er utsatt for å dø er r(ti).

Kaplan-Meyer (KM) overlevelsesfunksjonen er:

\(\displaystyle \hat S_{KM}(t)= \displaystyle\prod_ {t_i < t}\frac{r(t_i)-d(t_i)}{r(t_i)}\)

Kaplan-Meier overlevelsefordeling er en trappetrinnskurve som angir når død skjer.Et estimat av varians til Kaplan-Meyer estimat av overlevelsesfunksjonen er:

\(\displaystyle Var(\hat S(t))=\left(\hat S(t)\right)^2 \displaystyle\sum \frac{d(t_i)}{r(t_i)\left(r(t_i)-d(t_i)\right)}\)

Tetthetsfunksjonen f(t) angir sannsynligheten for å dø/feil i tidsintervallet t+Δt.

Hasardfunksjonen h(t) angir risikoen for å dø/feil i korte tidsintervall av t. I deler av tidsperioden er det høy risiko for død/feil, i andre er det mindre, for de som har overlevd til det angitte tidspunkt. For mennesker er det større sannsynlighet for å dø i barne-ungdomsalder, det er forskjell på jenter og gutter, så minsker sannsynligheten, for deretter å øke igjen. Sannsynligheten nå for at man dør når man blir 100 år er meget liten, men sannsynligheten for å dø når man er blitt 100 år er særdeles stor.

Mors certa, hora incerta – døden er sikker, timen er usikker.

\(\displaystyle h(t)= \frac{f(t)}{S(t)}\)

Hasardfunksjonen angir sannsynligheten for at en individ opplever en hendelse i et lite tidsintervall Δt, gitt at individet har overlevet til begynnelsen av tidsintervallet. Når vi lar dette tidsintervallet gå mot 0, og T er overlevelsestiden for individet har vi:

\(\displaystyle h(t)= \lim\limits_{\Delta t \to 0 }P(t \leq T\leq t+\Delta t|T\geq t)\)

Vi lar H(t) være kumulativ hasard, det vil si integralet av hasardfunksjonen:

\(\displaystyle H(t)=\displaystyle\int_0^t h(v)dv\)

Kumulativ hasard H(t) er relatert til overlevelsesfunksjonen S(t):

\(\displaystyle S(t)= e^{-H(t)}\)

Et estimat av hasardfunksjonen, h hatt,forholdet mellom antall individer d som har opplevd hendelsen (død/feil) i tidsintervallet per tidsenhet, forutsatt at de har overlevd til begynnelsen av tidsintervallet:

\(\displaystyle \hat h(t)= \frac{d_i}{n_i\left(t_{i+1}-t_i\right)}\)

Et estimat av kumulativ hasard er:

\(\displaystyle \hat H(t)= \displaystyle\sum_i \frac{d_i}{n_i}\)

Cox proporsjonal hasardmodell er en mye brukt regresjonsmodell for overlevelsesdata, hvor sensorert overlevelsestid er responsvariabel.

Hvis hasardfunksjonen er konstant, hvilken den riktignok sjelden er, kan man lage en enkel modell:

\(\displaystyle \ln (h(t))= \beta_0++ \beta_1x_1+ \beta_2x_2 + \beta_3x_3 + \dots\beta_nx_n\)

For å kunne løse problemet med en varierende hasardfunksjon  utviklet Cox i 1972 en regresjonsmodell som inneholder en baselinje hasardfunksjon h0(t), en hasardfunksjon hvor alle forklaringsvariablene til individene er lik null

\(\displaystyle \ln (h(t))= \ln \left(h_0(t)+ \beta_1x_1+ \beta_2x_2 + \beta_3x_3 + \dots\beta_nx_n\right)\)

Cox,D.R.:Regression models and life-tables. J Royal Stat.Soc.,ser B,34 (1972)187-202

Vi bruker eksponentialfunksjonen på begge sider av likhetstegnet og får:

\(\displaystyle h(t)= h_0(t)e^{\beta_1x_1+ \beta_2x_2+\beta_3x_3 + \dots \beta_nx_n }\)

Hvor kommer uttrykket proporsjonal fra ? Jo, man kan se på hasard-ratio mellom to individer som blir konstant over tid.

Hvis vi har to individer med datavektorer X1 og X2 med kovariable data fra to individer så vil hasard-ratio være konstant over tid:

\(\displaystyle \frac{h(t|X_1)}{h(t|X_2)}= \frac{e^{\beta^TX_1}}{e^{\beta^TX_2}}\)

eβTX er relativ riskfunksjon og angir hasard for hvert individ. Hva betyr eβi ? Jo, den sier noe om endringen i relativ risiko hvis kovariabel xi øker med en enhet, mens alle de andre kovariable holdes konstante. Parameterestimering i en Cox-modell utføres ved delvis likelihood.

Weibullfunksjonen, Gompertzfunksjonen og Makehamfunksjonen benyttes innen demografi og overlevelsesanalyse for å beskrive risikoen for død i forskjellige alderstadier.

Tilbake til hovedside

Publisert 27. des. 2019 16:26 - Sist endret 19. des. 2020 11:13