Kullback-Leibler divergens

Kullback-Leibler divergens er et ikke-symmetrisk statistisk og ikke-metrisk mål fra informasjonsteori og relativ entropi angir hvor mye en sannsynlighetsfordeling er forskjellig og avviker fra en referansesannsynlighetsfordeling, den ikke-metriske distansen mellom dem. KL divergens blir mye brukt i datalingvistikk, tekstanalyse og språkmodeller.  Fngir frskjellen mellom to sannsynlighetsfordelinger p(x) og q(x) hvor p(x) som er referanse og den «sanne» sannsynlighetsfordelingen. mens q(x) er sannsynllighetsfordelingen av prøven. Viser hvor mye informasjon som går tapt når prøven q(x) blir brukt til å approksimere den sanne p(x), hvor x er et element i X . Sannynlighetsfordelingene p(x) og q(x) kommer fra observasjoner.

 

Navn etter de amerikanske matematikerne og kryptoanalytikerne Solomonn Kullback (1907-1994) og Richard Leibler (1914-2003) som også innførte begrepet relativ entropi.

Kullback-Leibler divergens (DKL(p(x)||q(x) for kontinuerlige sannsynlighetsfordelinger integralet fra minus uendelig til pluss uendelig av referansesannsynlighetsfordelingen p(x) ganger den naturlige logaritmen (ln) av forholdet mellom sannsynligshetsfordelingen for referanse og prøve

\(\displaystyle D_{KL}(p(x)||q(x))= \int\limits_{- \infty}^{+\infty} p(x)\ln{\frac{p(x)}{q(x)}} dx \)

For diskrete (kategoriske variable

\(\displaystyle D_{JKL} (p(x)||q(x))= \sum_{x \in X}p(x) \ln{\frac{p(x)}{q(x)}}\)

Litteratur

Kullback S &Leibler R.A: On information and sufficiency. Annals of Mathematical Statistics. 22 (1) (1951)  79–86 doi:10.1214/aoms/1177729694.

Wikipedia

Tilbake til hovedside

Publisert 24. juli 2023 12:52 - Sist endret 28. aug. 2023 10:45