Sannsynlighetsregning

Lengde, areal, volum eller masse er eksempler på mål av fysiske eller geometriske objekter, og enhver måling er beheftet med usikkerhet. Sannsynlighetsregning gjør det mulig å forutsi sannsynligheten for at hendelse skal skje, basert på empiri og en sannsynlighetstetthetsfordeling som kan beskrive hendelsen. Målteori er koblet til egenskaper som at et volum består av addisjon av delvolumer av et objekt, additive mengdefunksjoner. Det er en nær sammenheng mellom målteori, sannsynlighetsregning, mengdelære og integrasjon.

Den franske matematikeren Hènri Lèon Lebesgue (1875-1941) var den som innførte moderne mål- og integrasjonsteori. En type mål er sannsynlighet for at en hendelse skal skje, for eksempel observasjon av en fugleart eller pattedyrart. Teorier om sannsynlighet har sin opprinnelse fra 1654 og de to franske matematikere Blaise Pascal og Pierre de Fermat.

Pascal

Pascal bygget den første regnemaskin, pascaline drevet av tannhjul, som kunne addere og subtrahere. Den franske adelsmannen Chevalier de Méré var interessert i gambling og terningspill. Et av spillene bestod i å vedde penger på å få minst en dobbel sekser ved å kaste to terninger 24 ganger. Méré mente at det var gunstig å satse på et slikt veddemål, men hans egne beregninger viste det motsatte, og han startet derved å brevveksle med Pascal og Fermat om problemet. Dette var starten på teorien bak sannsynlighetsregning. På basis av disse brevene skrev nederlenderen Christiaan Huygens (1629-1695) en lærebok om sannsynlighet ved gambling, De ratiociniis in ludo aleae (1657). Jakob Bernoulli (1654-1705) og Abraham de Moivre (1667-1754) videreutviklet teoriene om sannsynlighet. Pierre de Laplace (1749-1827) skrev i 1812 Theorie analytique des probabilies.

Laplace

Sannsynlighetsregningen ble ikke bare brukt i forbindelse med spill og gambling, men også innen forsikring, økonomi, finans og statistisk mekanikk. Andre bidragsytere var Andrej Andrejevitsj Markov (1856-1922), Pavnutij Lvovitsj Tsjebysjev (1821-1894), Richard von Mises (1883-1953) og Andrej Kolmogorov (1903-1987).

Vi treffer også stadig på de matematiske konstantene pi (π), det naturlige tallet e og gamma (Г) i sannsynlighetsregning.

Florence Nightinggale laget statistikk og grafisk presentasjon av statistikk over døde og sårede under krimkrigen i form av et rosediagram, og fikk på grunnlag av dette britiske myndigheter til å bedre sanitærforholdene og behandlingen av de skadete.

Nightinggale

I dag produseres enorme mengder data innen molekylærbiologi (sekvensering av nukleinsyrer og proteiner, evolusjon, biokjemiske omsetningsveier og enzymer, bestandsdata og demografi), astronomi (bildebehandling, signaloverføring), økologi (miljødata og miljøovervåkning), medisin (epidemiologi) og språk (oversettelse og gramatikk), som behandles med statistiske algoritmer. Det er skapt en ny måte å drive forskning basert på numeriske beregningsmetoder.

I Sloan Digital Sky Survey brukes vidvinkel optisk teleskop (30 CCD hver med 2048∙2048 piksler=125 megapiksler) til å avfotografere hele himmelen og enorme datamengder legges ut på internett. Disse bildene sammen med bilder fra Hubble-teleskopet brukes i Google Sky. Epidemiologen Sir William Richard Shaboe Doll (1912-2005) brukte statistikk for å finne koblingen mellom røyking, lungekreft og økt risiko for hjertesykdom. Doll studerte også sammenheng mellom stråling fra radioaktive isotoper og leukemi, samt industrirelaterte skader av nikkel, tjære og asbest.

Via Google, Facebook, Youtube, Twitter og andre medier lastes det opp enorme datamengder, mange zettabyte (ZB), trilliarder byte (1 yottabyte (YB)=10²⁴ byte, 1 ZB=10²¹ byte,1 Exabyte(EB)=10¹⁸ bytes, 1byte=8bits, 1 bits er et binært siffer 0 eller 1), som kan brukes i statistiske undersøkelser, for dem som har adgang til dem.

Pionérene var utviklingen av datamaskiner var Charles Babbage (1792-1871) som laget utkastet til hvordan en regnemaskin, ”Analytical engine”, burde konstrueres.

Babbage

Alan Mathison Turing (1912-1954) var med å lage en Turingmaskin, deltok i løsningen av Enigma-koden og utviklingen av kryptografi. Jfr. Turingtest, datamaskin og imitering av et mennneske, og filmen The Imitation game (2014)

Turing

Samt ungareren Janos von Neumann (1903-1957), som ga viktige bidrag til kvantemekanikk, økonomi og spillteori bl.a. med boka Theory of games and economic behaviour (1944) skrevet sammen med O. Morgenstern, var opptatt av utvikling av datamaskiner i sine siste leveår.

Neumann

Ole-Johan Dahl og Kristen Nygaard ved Norsk Regnesentral ga viktige bidrag i utviklingen av objektorienterte programeringsspråk.

Larry Page Sergey Brin ved Standford universitetet utviklet PageRang algoritmen som søkemotoren Google bruker til å rangere nettsider på verdensveven www. Nettsidene får tildelt numerisk vekting på logskala avhengig av hvor mange lenker det er til sidene, et indeksert rangordnet hierarki basert på lenkepopularitet og siteringsanalyse. Søkemotorene leter igjennom alt som publiseres på internet, og sorterer, indekserer og lagrer innholdet. Det kan gjøres teoretiske beregninger vedrørende sannsynligheten for å havne på en nettside ved å klikke på en lenke. Søkeord bringer deg sannsynligvis til den mest aktuelle nettsiden. Web-sidene betraktes som noder koblet i et nettverk,graf-teori, hvor man ser på sannsynligheten for å forflytte seg tilfeldig fra en side lenket til en annen, en form for Markov-kjede. PageRang-verdiene kan man også finne igjen som en egenvektor til en stokastisk matrise. PageRang algoritmen kan brukes til å beregne siteringsindekser for forskning (ISI), eller til å rangere gater for å prediktere hvor mange fotgjengere og biler som vil befinne seg i disse.

Eulers studium av de syv bruene i Königsberg var introduksjonen til Graf-teori. Graf-teori og nettverksanalyse brukes også innen ligvistikk, sosiologi, biologi, kjemi og fysikk. En graf tegnes som punkter eller sirkler som er forbundet med hverandre med rette eller buete streker, eventuell retning kan angis med piler. En graf er et abstrakt topologisk objekt slik at avstander og størrelser har ingen betydning, bare koblingen mellom dem. En graf blir enklest representert via en matrise, e.g. en nxn naboskapsmatrise hvor n er antall nodier. Andre problemstillinger tilknyttet grafteori er bl.a. : firefarge-, reisende selger (TSP)-, korteste vei-, og Hamiltonvei-problemet.

Statistikkmaskin-translasjon (e.g. Google translate) brukes i oversettelse av språk basert på statistikk fra flerspråkelige tekst corpora (ent. corpus). Oversettelsen er basert på statistikk, Shannons informasjonsteori. Man kan bruke flere metoder for oversettelse: gramatikk og ordliste, fraser, syntaks. Rekkefølgen på subjekt, verb og objekt varierer også mellom språk. Oversettelse basert på statistikk og ordrekkefølge har også utfordringer bl.a. skille mellom hans og hennes. Claude Edward Shannon publiserte i 1948 en artikkel A mathematical theory of communication, hvor han innførte et mål på informasjon i form av bit. Entropi er et mål på usikkerhet tilknyttet en tilfeldig variabel. Et myntkast, Bernoulli-eksperiment, har entropi 1 bit. Entropi-raten er 1 bit per myntkast. Entropi innen informasjonsteori er et mål på uforutsigbarhet. En mynt har maksimal entropi, det er umulig å forutsi sikkert om hva utfallet vil bli, mynt eller kron.

Innen termodynamikk er entropi et mål på uorden, introdusert av Ludwig Bolzmann (1844-1906), og Josiah Willard Gibbs (1893-1903). Den tyske fysikeren Rudolph Julius Emmanuel Clausius (1822—1888) brukte ordet entropi (gr. evolusjon) for å indikere tilknytning til energi. Kolmogorov brukte begrepet entropi om dynamiske systemer, Kolmogorov-Sinai entropi, med måleenhet invers tid. KS-entropi angir et mål på hastigheten på tap av forutsigbarhet, og er lik summen av positive Lyapunov-eksponenter (Kaplan-Yorke-konjektur). Et fullstendig tilfeldig system har uendelig KS-entropi og et periodisk system har null entropi.

Innen statistisk oversettelse og talegjenkjenning har man den betingete sannsynligheten p(e|f), gitt tekststrengen f på et språk som skal oversettes til tekststreng e på et annet språk. I oversettelsen blir det et kompromis mellom søketid og nøyaktighet i oversettelsen.

Sannsynlighetsregning er en viktig del av behandling av store datamenger (stordata), kunstig intelligens, maskinlæring, dyplæring, og nevrale nettverk som etteraper hjerneprinsippet, synapsekoblinger mellom 80 -100 milliarder hjerneceller .

Forventning og varians

Sannsynlighetstetten kan betraktes som som totalmassen=1, summen av sannsynlighetene er lik 1, som vi fordeler kontinuerlig eller diskontinuerlig langs x-aksen. For en endimensjonal stokastisk (tilfeldig)variabel X tilsvarer forventningen E(X) sentrum av massen, og varians Var(X) tilsvarer treghetsmomentet. Varians er et mål på spredningstendensen rundt forventet verdi. Mens forventingen kan være positiv eller negativ vil alltid varians ha en positiv verdi. Forventningen skrives også som den greske bokstaven mu µ, og variansen som som sigma opphøyd i andre, σ². Vi bruker greske bokstaver når vi snakker om de sanne verdiene, som vi aldri finner, men kan laget et estimat av Kvadratroten av varians kalles standardavvik σ (sigma). Standardavviket, kvadratroten av avstanden fra hvert objekt i x_i fra E(X), er et mål på hvordan alle objektene i x_i spres rundt E(X).

Forventning og varianse har forskjellige definisjoner for diskrete og kontinuerlige variable.

Forventning og varians til en diskret variabel

En diskret (diskontinuerlig) tilfeldig stokastisk (tilfeldig) variabel med massepunktene x₁,x₂,x₃,… har forventning E(X):

\(E(X)=\displaystyle\sum_{k=1}^\infty x_kP\left(X=x_k\right)\)

P er sannsynligheten for at X er lik x_k.

Varians Var(X) er:

\(Var(X)=\displaystyle\sum_{k=1}^\infty\left [x_k-E(X)\right]^2\cdot P(X=x_k)\)

Kan også skrives som:

\(Var(X)=E(X-\mu)^2= E(X^2)-\mu^2= E(X^2)-E(X)^2\)

hvor µ erden sanne gjennomsnittsverdien, som vi ikke kan finne, men kan laget et estimat av (estimeres). Forventning og varians eksisterer bare hvis rekkene konvergerer.

Svært mange fordelinger, inkludert den diskontinuerlige binomialfordelingen, kan beskrives av en normalfordeling. Normalfordelingen er kontinuerlig.

Forventning og varians til en kontinuerlig variabel

Forventningen E(X) til en kontinuerlig tilfeldig stokastisk (tilfeldig) variabel X er:

\(E(X)=\displaystyle\int_{-\infty}^ {+\infty}x f(x)dx\)

hvor f(x) er sannsynlighetstetthetfunksjon.

Varians for en kontinuerlig tilfeldig variabel X er:

\(Var(X)= \displaystyle\int_{-\infty}^{+\infty}\left[x-E(X)\right]^2\cdot f(x) dx\)

Hvis man har n uavhengige observasjoner av den tilfeldige variabelen X: X₁,X₂,X₃,…,X_n så har vi følgende:

\(E(x_1 + x_2+x_3 + \dots+x_n)=nE(X)\)

\(Var(x_1 + x_2+x_3 + \dots+x_n)=nVar(X)\)

Følgende regneregler for forventning og varians gjelder for både diskrete og kontinuerlige funksjoner, hvor X og Y er to uavhengige tilfeldige variable. Hvis X og Y er avhengige variable legg merke til at det blir et korrelasjonsledd i summen av variansene

E(aX)=aE(X) a =konstant

Var(aX)=a²Var(X)

E(aX+bY)=aE(X)+bE(Y) a og b=konstanter

Var(aX+bY)=a²Var(X)+b²Var(Y)

E(aX-bY)=aE(X)-bE(Y) a og b=konstanter

Var(aX-bY)=a²Var(X)+b²Var(Y) NB!+

E(X+Y)= E(X)+E(Y)

E(X-Y)= E(X)-E(Y)

VAR(X+Y)=Var(X)+Var(Y) hvis X og Y er uavhengige variable

VAR(X-Y)=Var(X)+Var(Y) hvis X og Y er uavhengige variable

E(aX+b)=aE(X)+b

Var(aX+b)=a²Var(X)

VAR(X)=E(X²)-[E(X)]²

VAR(X+Y)=Var(X)+Var(Y)+2E[(X-E(X)(Y-E(Y))],X & Y avhengige

Legg merke til at når man trekker to forventninger fra hverandre, for to uavhengige variable, så øker den tilsvarende variansen. Hvis vi lager en lineære transformasjon av variablene, aX og bY, må man huske på å kvadrere konstantene i variansen. Beregning av varianse er alltid en kvadrering.

For eksempel ved en lineær transformasjon y=a+bx så blir

E(y)=a+bE(x), mens Var(y)=b²Var(x).

Trekker man to forventninger fra hverandre blir det allikevel en sum av varianser.

Variansene kan summeres, men det kan ikke standardavvikene.

Sentralgrenseteoremet og de store talls lov

Hvis et stort antall uavhengige variable summeres så vil summene følge normalfordeling, selv om fordelingene av de enkelte variablene ikke er normalfordelte. Dette er sentralgrenseteoremet i sannsynlighetsregning. Det viser den store betydningen normalfordelingen har i både teori og praksis. De Moivre fant at tilfellet binomialfordeling tilsvarer tilnærmet en normalfordeling, men det var Laplace videreutviklet beskrivelse av sentralgrenseteoremet, bevist av Lyapunov. J.W. Lindeberg viste at uavhengighet alene ikke var nok til å gi normalfordeling, men Lindeberg-betingelsene måtte også være oppfylt.

Sannsynligheten for å få kron hvis man kaster en perfekt balansert mynt er ½. Det betyr ikke at om man kaster en mynt 1000 ganger så vil man få nøyaktig 500 kron, men at når antall kast n øker mot uendelig (∞) så vil sannsynligheten nærme seg ½.

Store verdier av σ gjør at normalfordelingskurven flater av. Små verdier av σ gjør kurven mer spiss.

Mange tilfeldige variable i naturen oppfører seg som en normalfordeling. Hvis vi tar ut en prøve n fra en populasjon X, og beregner gjennomsnittet og gjentar dette mange ganger så får vi mange gjennomsnittsverdier. Disse gjennomsnittsverdiene m_x vil også være normalfordelte og fordele seg rundt den sanne verdi µ som vi aldri finner, men som vi lager et estimat av:

\(E(\overline X)=\mu \)

\(Var(\overline X)=\displaystyle\frac{\sigma^2}{n}\)

At gjennomsnittene også blir normalfordelte er et resultat av sentralgrenseteoremet. Vi kan skrive n i stedet for n-1 hvis n er stor. Vi bruker de greske bokstavene når vi snakker om de sanne verdiene, og kan for eksempel bruk m (eller ) og s² for å bekskrive tilsvarende verdier fra en prøve tatt ut fra populasjonen.

Standardfeilen (SE) er lik standardavviket til gjennomsnittsverdiene, som sprer seg rundt den sanne verdi µ:

\(SE=\displaystyle\sqrt{Var(\overline X)}=\sqrt{\frac{\sigma^2}{n}}=\frac{\sigma}{\sqrt{n}}\)

Derfor blir standardfeilen alltid mindre enn standardavviket. Standardavviket angir spredning av enkeltobservasjoner rundt gjennomsnittet i en prøve, mens standardfeilen angir spredning av gjennomsnittsverdier rundt den sanne forventede verdi i populasjonen X.

Vi har altså normalfordelingene for en prøve og gjennomsnittene

\(X\sim N(\mu, \sigma^2)\)

\(X\sim N\left(\mu, \frac{\sigma^2}{n}\right)\)

Det viser seg at tar man ut tilstrekkelig store nok prøver (stor n) fra en variabel X, som i utgangspunktet ikke er normalfordelt, så vil fordelingen av gjennomsnittsverdiene bli normalfordelte, dette er sentralgrenseteoremet.

Hvis vi for eksempel har den binomiale fordelingen X~Binom(n,p) med E(X)=µ=np og Var(X)=σ²=npq så vil ifølge sentralgrenseteoremet gjennomsnittene bli normalfordelt:

\(\overline X\sim N(np, npq)\)

For Poisson-fordelingen X~Pois(λ) hvor µ=σ²=λ så vil fordelingen av gjennomsnitt bli normalfordelte:

\(\overline X \sim N(\lambda,\frac{\lambda}{n} )\)

Konfidensintervall

Med gjennomsnittsverdien eller forventet verdi har vi laget et punktestimat av den sanne verdien i populasjonen som vi har tatt ut representative prøver fra, men vi vet ikke hvor presist dette estimatet er. Vi kan imidlertid si litt om usikkerheten og spredningen rundt punktestimatet ved å angi et 95% konfidensintervall som angir grenseverdier rundt gjennomsnittsverdien. Det er stor sannsynlighet for at gjennomsnittsverdien havner innenfor dette intervallet.

Vi bruker sentralgrenseteoremet hvor vi ser på fordelingen av gjennomsnitt

og lar intervallet omfatte 95% av arealet under tetthetskurven for normalfordeling (p=0.95) og de to halene (-0.025. +0.025) på hver side som ikke er med i arealet utgjør 0.05 % av arealet p=0.05.

Vi regner først om til standard normalfordeling hvor µ=0 og σ=1, (N(0,1)), ved å finne Z-skår, som er lik antall standardavvik fra gjennomsnittet:

\(Z=\displaystyle\frac{x-\mu}{\sigma}\)

\(Z \sim N(0,1)\)

Z-skår er en standardisering som gjør at man kan sammenligne datasett som har forskjellig gjennomsnitt og standardavvik. Normalfordelingskurven flyttes slik at gjennomsnittet µ=0, og standardavviket skaleres med σ.

For en standard normalfordeling med stor n er grenseverdiene for 95% av arealet under tetthetskurven lik ±1.96. Tilsvarende verdier for 90% av arealet er ±1.64 og for 99% av arealet er grensene ±2.58.

95% konfidensintervall (95% CI) for en normalfordeling med stor n blir

\(95\%CI=\overline x \pm 1.96 \displaystyle\frac{\sigma}{\sqrt{n}}\)

Hvis du tar ut mange prøver fra populasjonen og beregner konfidens for alle, så vil 95% av konfidensintervallene inneholde den sanne µ.

For en binomial fordeling med stor n, hvor p er sannsynlighet (uttrykt som ratio eller forhold) for suksess og q=1-p sannsynlighet (ratio) for ikke-suksess blir 95% konfidensintervall:

\(95\%CI=p \pm 1.96 \displaystyle\sqrt{\frac{pq}{n}}\)

For en poisson-fordeling er µ=σ²=λ

\(95\%CI\lambda\pm 1.96 \displaystyle\sqrt{\frac{\lambda}{n}}\)

Estimatet vårt av variansen er beheftet med usikkerhet, og ofte vet vi ikke σ². Hvis n er stor kan vi bruke normalfordeling, men er n liten må vi benytte t-fordeling.

Noen ganger oppgis variasjonskoeffisienten CV, her for henholdsvis prøve (sample) og populasjon:

\(CV=\displaystyle\frac{s}{\overline x}\cdot 100\%\)

\(CV=\displaystyle\frac{\sigma}{\mu}\cdot 100\%\)

Geostatistikk

Meningsmålinger og partibarometre

Den amerikanske statistikeren Nate Silver skrev boka The signal and the noise. Why so many predictions fail –but some don’t (2012). Med bruk av all forhåndskunnskap som var tilgjengelig, stadige nye oppdateringer (prior sannsynlighet) om posterior sannsynlighet med bruk av Bayesiansk statistikk predikterte Silver riktig utfall i 49 av 50 stater i presidentvalget 2008. Med et slikt rykte etablerte Silver sannsynlighetsnettstedet FiveThirtyEight, men i presidentvalget 2016 antok Silver & Co at det bare var ca. 30% sannsynlighet for at en som ble omtalt som vulgærianer kunne vinne valget i verdens mest imponerende nasjon. Hvorfor ? Jo, det er meget vanskelig å plukke ut et representativ utvalg med respondenter som representerer hele populasjonen, det blir lett utvalgsskjevhet. Hvis internett eller telefon brukes for å finne respondenter har man allerede en utvalgsskjevhet. Velutdannete, høytlønnete i sikre yrker har ofte andre politiske preferanser enn dårlige lønnete med lite utdannelse i serviceyrker, eller tidligere industriarbeidere som ser at arbeidsplassen er flyttet til Asia, Et samfunn med stor økonomiske og sosial ulikhet kan lett bli ustabilt. Demokratiet bestod prøven også denne gang, men demokrati, ytringsfrihet, kunnskap og klokskap er spinkle konstruksjoner som man må forsvare mot angrep. Man savner flere lesere av redaktørstyrte papirbaserte abonnementsaviser. Stol aldri på en som bare har lest en bok.

Tilbake til hovedside

Publisert 8. nov. 2019 11:49 - Sist endret 30. apr. 2021 17:21