Lemat Neymana-Pearsona

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania

Lemat Neymana-Pearsona – twierdzenie z obszaru statystyki opublikowane przez Jerzego Neymana i Egona Pearsona w 1933. Stanowi – w amalgamacie z wcześniejszą propozycją Ronalda Fishera – jedną z podstaw procedury weryfikacji hipotez w podejściu częstościowym[1][2][3].

Kontekst i motywacja

Szablon:Główny artykuł Procedura testowa zaproponowana przez Fishera w 1925 miała następującą postać[1]:

  1. Wybierz hipotezę zerową H0. Nie musi ona zakładać zerowego efektu, tylko taki jaki chcesz sfalsyfikować.
  2. Wykonaj obserwację i przedstaw jej surową wartość p. Oceń na tej podstawie wartość dowodową danych według własnych kryteriów.
  3. Korzystaj z tej procedury tylko jeśli badasz słabo znany obszar i nie masz lepszych narzędzi.

Neyman i Pearson uznali tę propozycję za niesatysfakcjonującą z szeregu powodów, i pracowali nad przedstawionym poniżej alternatywnym podejściem:

  1. Wybierz dwie hipotezy, które chcesz porównać: H1 i H2, oraz dostosowane do konkretnego problemu dopuszczalne ryzyko błędów pierwszego rodzaju α i drugiego rodzaju β. Wykonaj na ich podstawie analizę kosztów w celu wybrania optymalnego testu i wielkości próby dla rozstrzygania pomiędzy hipotezami na wybranym poziomie błędów.
  2. Jeśli zaobserwowane dane spełniają kryterium odrzucenia H1, postępuj tak jakby H2 była prawdziwa; w przeciwnym razie postępuj tak, jakby prawdziwa była H1.
  3. Procedura ta nie rozstrzyga o prawdziwości hipotez, ale pozwala w długim horyzoncie czasowym utrzymywać ryzyko błędów w założonych granicach. Jest odpowiednia tylko do zastosowań, w których można jasno określić α i β, a H1 i H2 dają rozbieżne przewidywania.

Lemat Neymana-Pearsona jest matematyczną formalizacją i dookreśleniem pierwszego punktu, opisując metodę konstrukcji optymalnego warunku krytycznego dla przyjętych α i β.

Autorzy obu procedur dopracowywali je z biegiem lat i pozostawali w sporze o ich filozoficzne i praktyczne aspekty do końca życia. Po 1940 r. oba podejścia zaczęły być, wbrew wypowiedziom ich twórców, łączone w podręcznikach w coraz bardziej hybrydową i uproszczoną postać, i przedstawiane przy pomocy języka sugerującego, że pojedyncze wyniki mogą być używane do wyciągania wniosków o subiektywnym prawdopodobieństwie hipotez[1][3][4][5]. Ma ona następującą formę – w krytycznym omówieniu Gigerenzera[1]:

  1. Przyjmij hipotezę zerową H0, która zakłada zerowy efekt (brak różnic lub korelacji). Nie potrzebujesz określać żadnych szczegółów własnej hipotezy badawczej.
  2. Przyjmij ryzyko błędów pierwszego rodzaju α na poziomie istotności 5% i wykonaj test H0. Jeśli wartość p przekroczy α, uznaj swoją hipotezę badawczą za potwierdzoną. Zależnie od wartości p, możesz przedstawić wyniki jako „istotne” na poziomie p<0,05, p<0,01 lub p<0,001.
  3. Stosuj tę procedurę do wszystkich zastosowań.

Ta ostatnia metoda stała się w drugiej połowie XX wieku stosowaną powszechnie, i jest w ocenie m.in. Gigerenzera czy Cohena, „bezmyślnym rytuałem”, używanym zbyt często do celów, do których nie została nigdy przeznaczona ani uprawomocniona[1][6][7][8].

Intuicja

Przy mocy ok. 70% rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej w znacznej części nie pokrywają się
Rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej, w teście t dla dwóch grup niezależnych, przy N=100, d=0,5 i dwustronnym α=0,05, co oznacza poziom β≈0,3 (moc statystyczną ok. 70%).

Neyman i Pearson jasno odcięli się od kwestii bezpośredniej oceny hipotez, stwierdzając że „żaden test oparty na teorii prawdopodobieństwa nie może sam w sobie stanowić wartościowego dowodu prawdziwości lub fałszywości hipotez”. Uznali, że są natomiast w stanie formalnie opisać reguły decyzyjne, które pozwalają przynajmniej na długoterminowe unikanie błędów[2].

Ich propozycja opiera się na założeniu, że H1 i H2 prognozują różne rozkłady badanego parametru w populacji, oraz że próby mogą być z niej pobierane wielokrotnie. Reguły prawdopodobieństwa uzasadniają wówczas oczekiwanie, że w długim okresie próby odzwierciedlą leżący u ich podłoża prawdziwy rozkład. Definiują następnie test statystyczny jako regułę rozstrzygającą pomiędzy hipotezami na podstawie tego, czy próba leży w krytycznym regionie rozkładu który jest zdecydowanie bardziej prawdopodobny dla jednej z nich. To, co badacz uzna za krytyczny region, zależy w ujęciu Neymana i Pearsona od konieczności balansowania ryzyka błędów α i β[2].

Ujęcie to wyznacza cztery podstawowe możliwości – dwa trafne rozpoznania i dwa błędy – odpowiadające przyjęciu[2]:

  • prawdziwej hipotezy H1,
  • fałszywej hipotezy H1 (błąd pierwszego rodzaju, którego ryzyko to α),
  • prawdziwej hipotezy H2,
  • fałszywej hipotezy H2 (błąd drugiego rodzaju, którego ryzyko to β).

W tym zakresie w jakim rozkłady pokrywają się, istnieje niebezpieczeństwo że próba pochodząca z jednego z nich może zostać omyłkowo przypisana drugiemu. Lemat dowodzi, że sensowny („najlepszy”) region krytyczny leży na tym zakresie, „na skraju” rozkładów. Ceteris paribus, α i β wykluczają się – zmiana regionu krytycznego która zwiększa jedno z nich, musi zmniejszać drugie. Najlepszy obszar krytyczny można więc określić jako α szerokości o minimalnym prawdopodobieństwie z jednego rozkładu, który wyznacza jednocześnie analogiczne β szerokości drugiego – niezależnie od tego jakie konkretnie α zostało wybrane[2].

Powyższa konstrukcja regionu krytycznego stanowi podstawę testu statystycznego o najwyższej mocy. Można go zrealizować ilorazem funkcji wiarygodności danych przy założeniu obu rozkładów, rozstrzygającym na korzyść jednego z nich zależnie od tego, czy plasuje próbę w obszarze krytycznym. Jeśli przyjęto trafny model statystyczny do określania wiarygodności, a próby są losowe, to decyzje oparte na rezultatach takiego testu asymptotycznie (w liczbie prób zmierzającej do nieskończoności) prowadzą do błędów jedynie z przyjętymi nominalnymi poziomami ryzyka[2].

W uproszczeniu, lemat sprowadza się do tego, że region krytyczny testu powinien leżeć „na skraju” rozkładów. Jego historyczne znaczenie polega też na ogólnym przedstawieniu podejścia Neymana i Pearsona do testów, oraz opracowaniu zagadnienia mocy testu we wnioskowaniu statystycznym[2][3].

Lemat

Poniższa ekspozycja lematu Neymana-Pearsona oparta jest na jego prezentacji w podręczniku Mooda, Graybilla i Boesa[9].

Niech X będzie próbą losową z funkcji f(x;θ) na mierze prawdopodobieństwa μ, gdzie hipotetyczny parametr θ przyjmuje jedną z dwóch znanych wartości θ0 lub θ1, a α stałą z przedziału 0<α<1. Niech k* będzie dodatnią stałą, a region krytyczny C* podzbiorem całej przestrzeni probabilistycznej χ, które spełniają warunki:

  1. Pθ0[XC*]=α,
  2. λ=L(θ0;X)L(θ1;X)=L0L1k* jeśli XC* oraz λk* jeśli XC*.

Wówczas test T* odpowiadający regionowi krytycznemu C* jest testem hipotez H0:θ=θ0 i H1:θ=θ1 o największej mocy (1β) przy danym α.

Dla przypomnienia, wiarygodność to w tym przypadku całkowite prawdopodobieństwo danych obserwacji przy prawdziwości konkretnego parametru: Lj=L(θj;X)=i=1nf(xi;θj) dla j(0,1), a C* to dopełnienie zbioru: C*=χC*.

Dowód

Przyjmijmy, że k* i C* spełniające warunki 1 i 2 istnieją. Jeśli nie ma żadnego innego testu o istotności α lub niższej, T* jest automatycznie testem o najwyższej mocy. Załóżmy, że istnieje alternatywny test T o takiej istotności istnieje, z regionem krytycznym C: Pθ0[XC]α. Dowód wymaga wykazania, że nie ma wyższej mocy, πT*πT.

Kroki dowodu wykorzystują wiele wzajemnych relacji zbiorów C* i C, w związku z czym w podążaniu za nim może być pomocne odwoływanie się do ich prostego diagramu Venna.

Przyjmijmy, że dla każdego podzbioru Rχ oraz j(0,1) będziemy zapisywać następujące całki wielokrotne dla skrótu w następujący sposób:

R[i=1nf(xi;θj)]=RLj.

Udowodnienie że πT*πT jest równoważne wykazaniu, że C*L1CL1. Następnie:

C*L1CL1=C*CL1CC*L11k*C*CL01k*CC*L0,

ponieważ dla regionu krytycznego C*, i stąd także dla C*C:

L1L0k*,

a dla dopełnienia regionu, C*, czyli także dla CC*:

L1L0k* oraz L1L0k*.

Jednakże:

1k*(C*CL0CC*L0)=1k*(C*CL0+C*CL0C*CL0CC*L0)=1k*(C*L0CL0)=1k*(ααT*)0

co pozwala na konkludowanie dowodu:

C*L1CL10.

Przypisy

Szablon:Przypisy