Test Kołmogorowa-Smirnowa

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania
Wykres przedstawiający przykład testu Kołmogorowa-Smirnowa

Test Kołmogorowa-Smirnowatest nieparametryczny używany do porównywania rozkładów jednowymiarowych cech statystycznych. Istnieją dwie główne wersje tego testu – dla jednej próby i dla dwóch prób.

Test dla jednej próby (zwany też testem zgodności λ Kołmogorowa) sprawdza, czy rozkład w populacji dla pewnej zmiennej losowej różni się od założonego rozkładu teoretycznego, gdy znana jest jedynie pewna skończona liczba obserwacji tej zmiennej (próba statystyczna). Często wykorzystywany jest on w celu sprawdzenia, czy zmienna ma rozkład normalny. Dla celów testowania normalności zostały dokonane w teście drobne usprawnienia, znane jako test Lillieforsa.

Istnieje też wersja testu dla dwóch prób, pozwalająca na porównanie rozkładów dwóch zmiennych losowych. Jego zaletą jest wrażliwość zarówno na różnice w położeniu, jak i w kształcie dystrybuanty empirycznej porównywanych próbek.

Statystyka Kołmogorowa-Smirnowa

Dystrybuanta empiryczna Fn dla n-elementowej próby jest zdefiniowana jako funkcja:

Fn(x)=1ni=1nIXix,

gdzie:

  • Xi to wartość zmiennej X dla i-tej obserwacji.
  • IXix to funkcja charakterystyczna (tu: przyjmująca wartość jeden gdy Xix i zero w przeciwnym wypadku).

Statystyka Kołmogorowa-Smirnowa dla danej dystrybuanty teoretycznej F(x) jest dana wzorem:

Dn=supx|Fn(x)F(x)|.

Na mocy twierdzenia Gliwienki-Cantellego, jeśli próba pochodzi z rozkładu o dystrybuancie F(x), to Dn dąży prawie wszędzie do zera. Kołmogorow wzmocnił ten wynik stwarzając efektywną metodę oceny tej zbieżności (zobacz niżej). Twierdzenie Donskera dostarcza jednak jeszcze silniejszego wyniku.

Rozkład Kołmogorowa

Rozkład Kołmogorowa to rozkład zmiennej losowej

K=supt[0,1]|B(t)|,

gdzie B(t) jest mostem Browna. Dystrybuanta K jest dana przez

Pr(Kx)=12i=1(1)i1e2i2x2=2πxi=1e(2i1)2π2/(8x2).

Test dla jednej próby

W warunkach hipotezy zerowej, gdy próba pochodzi z rozkładu teoretycznego F(x), wówczas:

nDnnsupt|B(F(t))|

(zbieżność według rozkładu), gdzie B(t) jest mostem Browna.

Jeśli F jest ciągła, wówczas w warunkach hipotezy zerowej nDn dąży do rozkładu Kołmogorowa, niezależnie od F. Ten wynik znany jest też jako twierdzenie Kołmogorowa.

Test Kołmogorowa-Smirnowa jest konstruowany z użyciem obszaru krytycznego rozkładu Kołmogorowa.

Hipoteza zerowa jest odrzucana na poziomie α, jeśli

nDn>Kα,

gdzie Kα jest dane przez:

Pr(KKα)=1α.

Asymptotyczna moc tego testu wynosi 1. Jeśli forma lub parametry F(x) są wyznaczane z Xi, nierówność może nie być prawdziwa. W tym przypadku konieczne jest zastosowanie metody Monte Carlo lub innych algorytmów.

Bardziej znaną formą tego testu jest:

Dn>Kαn.

Test dla dwóch prób

Test Kołmogorowa-Smirnowa może być także użyty do sprawdzenia, czy dwa jednowymiarowe rozkłady prawdopodobieństwa różnią się od siebie. W takim przypadku statystyką Kołmogorowa-Smirnowa jest:

Dn,n=supx|Fn(x)Fn(x)|,

a hipoteza zerowa jest odrzucana na poziomie α, gdy

nnn+nDn,n>Kα.

Przedział ufności dla kształtu dystrybuanty

Chociaż test Kołmogorowa-Smirnowa jest zwykle używany do sprawdzania, czy dana dystrybuanta teoretyczna F(x) opisuje rozkład populacji, z której wylosowano próbę o dystrybuancie empirycznej Fn(x), jednak procedura może być odwrócona w celu uzyskania przedziału ufności dla samej funkcji F(x). Wybierając wartość krytyczną dla statystyki testowej Dα taką, że P(Dn>Dα)=α, uzyskujemy pas o promieniu Dα wokół Fn(x), który całkowicie zawiera F(x) z prawdopodobieństwem 1α.

Zobacz też

Bibliografia

Linki zewnętrzne

Szablon:Kontrola autorytatywna