Dywergencja Kullbacka-Leiblera

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania

Dywergencja Kullbacka-Leiblera (zwana też entropią względną lub relatywną entropią)[1] jest miarą stosowaną w statystyce i teorii informacji do określenia rozbieżności między dwoma rozkładami prawdopodobieństwa p i q. Czasem zwana jest też odległością Kullbacka-Leiblera, nie jest to jednak prawdziwa metryka, gdyż nie jest symetryczna (dKL(p,q)dKL(q,p)) ani nie spełnia nierówności trójkąta[2][3].

Definicja

Dywergencja Kullbacka-Leiblera dana jest wzorem[2][3]:

dKL(p,q)=ip(i)log2p(i)q(i),

dla rozkładów dyskretnych, oraz

dKL(p,q)=p(x)log2p(x)q(x)dx,

dla rozkładów ciągłych. Dla przykładu, w typowym zastosowaniu p reprezentuje dane rzeczywiste, zaś q teoretyczny model.

Entropia względna przyjmuje zawsze wartości nieujemne, przy czym 0 wtedy i tylko wtedy, gdy porównywane rozkłady są identyczne. dKL jest jedyną wartością tego typu charakteryzującą się pewnymi użytecznymi właściwościami charakteryzującymi miary entropii (m.in. jest ciągła i addytywna)[4][5].

Oryginalna propozycja

Dywergencja K-L została przedstawiona przez S. Kullbacka i R.A. Leiblera w pracy z 1951[6], i w podręczniku z 1959; skupiali się oni na poniższej symetrycznej postaci[7]:

dKL(p,q)+dKL(q,p).

Jak zwraca uwagę Kullback, podobną wartość wykorzystywało wcześniej m.in. małżeństwo Jeffreys[8]. W 1987 zadeklarował, że spośród dziewięciu stosowanych wówczas dla tego wskaźnika nazw osobiście preferuje termin Szablon:W języku[9].

Uogólnienia i związki

Dywergencja Kullbacka-Leiblera jest przypadkiem dywergencji Bregmana i f-dywergencji[10]. Informacja wzajemna to dywergencja ze wspólnego rozkładu do produktu rozkładów[11][12]:

I(X;Y)=dKL(P(X,Y)P(X)P(Y))=EX{dKL(P(YX)P(Y))}=EY{dKL(P(XY)P(X))}.

Interpretacja i zastosowania

Dywergencja K-L może być rozumiana jako generalizacja entropii Shannona[4], oraz negatywna postać uogólnionej entropii Boltzmanna[13]. Może reprezentować na przykład zmianę (przyrost lub stratę) lub różnicę (niedobór lub nadmiar) informacji pomiędzy dwoma rozkładami.

Jej minimalizacja jest stosowana na przykład przy wyborze optymalnych modeli statystycznych oraz systemów kodowania.

Choć dkl nie jest pseudoodległością, jej hesjan wyznacza tensor metryczny określany jako miara informacji Fishera.

Kryteria informacyjne

Wybór modeli statystycznych na podstawie dKL pozwalają zrealizować tzw. kryteria informacyjne. Akaike zauważył, że pomimo iż w praktyce hipotetyczny prawdziwy model jest nieznany i niedostępny jako odniesienie, to wyraża się jako nieokreślona stała, co nadal pozwala na dokonanie optymalizacji[13][14]:

dKL(p?,q)=constEf[log(q|x)].

Po przekształceniach i uwzględnieniu poprawki na obciążenie oszacowania, wartością asymptotycznie minimalizującą oczekiwane dKL (maksymalizującą relatywną entropię) i pozwalającą na porównywanie alternatywnych modeli jest tzw. kryterium informacyjne Akaikego:

AIC=2ln(L(θ|x)+2K,

gdzie L to funkcja wiarygodności, a K to liczba estymowanych parametrów modelu. W intuicji oferowanej przez Bozdogana, pierwszy wyraz wzoru odpowiada oczekiwanemu niedopasowaniu modelu badawczego do danych spoza próby, i do prawdziwego modelu, a drugi złożoności, przekładającej się na nadmierne dopasowanie do próby[13]. Wybór modelu wiąże się bowiem w praktyce z balansowaniem między tymi problemami (z kompromisem między obciążeniem a wariancją)[15].

W późniejszej literaturze przedstawiono kolejne propozycje kryteriów informacyjnych, opartych na tej samej zasadzie, z dodatkowymi doprecyzowaniami, na przykład kryterium Schwarza lub Watanabe-Akaikego[13][16].

Zobacz też

Przypisy

Szablon:Przypisy

Szablon:Kontrola autorytatywna