Test dla proporcji

Z testwiki
Wersja z dnia 18:47, 9 gru 2023 autorstwa imported>Lunakilkane (growthexperiments-addlink-summary-summary:1|1|0)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacji Przejdź do wyszukiwania

Testy dla proporcjitesty parametryczne służące do weryfikacji hipotez dotyczących wartości proporcji w populacji generalnej lub też do porównania wartości proporcji w kilku populacjach – na podstawie znajomości wartości tej proporcji w losowej próbie (czy też dwóch lub kilku próbach) pobranych z populacji.

Proporcją w statystyce nazywamy liczbę (ułamek, procent) wyrażający, jaka część elementów pewnego zbioru spełnia określony warunek. Inne równoważnie stosowane określenia to: frakcja, wskaźnik struktury. Na przykład jeśli w grupie n osób jest m palących, to proporcja osób palących w tej grupie jest równa

p=mn.

Struktura i podział testów

Hipotezy dotyczące proporcji testuje się zgodnie z ogólnymi zasadami testowania hipotez statystycznych: formułujemy hipotezy, zakładamy poziom istotności α – dopuszczalną wartość błędu pierwszego rodzaju, następnie na podstawie danych z próby wyznaczamy wartość statystyki testowej, po czym porównujemy ją z wartościami krytycznymi odczytanymi z tablic odpowiedniego rozkładu teoretycznego.

Postać stosowanej statystyki testowej zależy od następujących czynników:

  • czy badamy hipotezę dotyczącą jednej, dwóch, czy wielu proporcji,
  • jaka jest liczebność próby (prób) występujących w danym zagadnieniu,
  • w przypadku dwu lub więcej prób – czy próby są niezależne, czy zależne (powiązane).

Poniżej przedstawiono w skrócie kilka testów najczęściej wykorzystywanych w poszczególnych sytuacjach.

Testy dla jednej proporcji (test dla prób dużych)

W próbie losowej o liczebności n jest m elementów spełniających pewien warunek. Wówczas proporcja w próbie p=mn. Chcemy sprawdzić, czy taki wynik losowania pozwala przyjąć, że w całej populacji proporcja ta ma zadaną z góry wartość po. Hipotezy mają postać:

H0:p=p0,
H1: postać hipotezy alternatywnej zależy od sformułowania zagadnienia:
Szablon:Wzór
Szablon:Wzór
Szablon:Wzór

Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek n>50, a otrzymana wartość proporcji z próby powinna spełniać warunek: 0,2<p<0,8. Można wtedy zastosować statystykę o rozkładzie normalnym.

Obliczamy:

z=ppopoqon,

gdzie qo=1po. Jeśli hipoteza zerowa H0 jest prawdziwa, to statystyka z ma w przybliżeniu standardowy rozkład normalny – wynika to z Centralnego Twierdzenia Granicznego.

Wartość tak obliczonej statystyki porównujemy z wartością krytyczną (lub dwiema wartościami krytycznymi) wyznaczonymi na podstawie poziomu istotności α dla zmiennej losowej o rozkładzie normalnym.

Wartości krytyczne znajdujemy z tablic dystrybuanty rozkładu normalnego. Jeżeli U jest dystrybuantą standardowego rozkładu normalnego, a U1 – funkcją odwrotną do dystrybuanty, natomiast α – założonym poziomem istotności – to odczytujemy:

zkryt=U1(1α)
zkryt=U1(α)=U1(1α)
zkryt1=U1(1α2)
zkryt2=zkryt1.

Przedział krytyczny:

  • w przypadku Szablon:LinkWzór jest prawostronny, czyli gdy z>zkryt – odrzucamy H0, w przypadku przeciwnym – nie ma podstaw do jej odrzucenia,
  • w przypadku Szablon:LinkWzór przedział krytyczny jest lewostronny (dla z<zkryt odrzucamy H0),
  • w przypadku Szablon:LinkWzór przedział krytyczny jest obustronny (dla z>zkryt1 i dla z<zkryt2 odrzucamy H0).

Testy dla dwóch proporcji

Dwie próby niezależne

Poniżej omówiono dwa testy – jeden dla dużych liczebności prób, oparty na statystyce z o rozkładzie normalnym, analogiczny do omówionego powyżej dla jednej próby, drugi, możliwy do zastosowania przy nieco mniejszych liczebnościach prób, oparty na statystyce o rozkładzie chi-kwadrat.

Test dla dwóch prób dużych

Liczebności prób powinny spełniać relacje: n1>50 i n2>50. Jeżeli spośród n1 elementów pierwszej próby m1 spełnia określony warunek, to proporcja z próby jest równa

p1=m1n1.

Analogicznie dla drugiej próby:

p2=m2n2.

Wyznaczamy proporcję dla „próby połączonej”:

p¯=m1+m2n1+n2

oraz q¯=1p¯, a następnie wyznaczamy wartość statystyki z:

z=p1p2p¯q¯(1n1+1n2).

Statystyka ta ma rozkład normalny i wartości krytyczne oraz obszary krytyczne wyznaczamy dla tego testu tak samo, jak to opisano wcześniej w teście dla jednej proporcji.

Test dla dwóch prób o mniejszych liczebnościach (oparty na statystyce chi-kwadrat)

Tutaj liczebności muszą spełniać warunek n=n1+n2>20.

Liczby elementów spełniających lub nie spełniających zadanego warunku w poszczególnych populacjach można zapisać w tabeli 2×2:

Liczba elementów Próba 1 Próba 2 Suma
spełniających warunek (TAK) a b a + b
nie spełniających warunku (NIE) c d c + d
Suma n1=a+c n2=b+d n=a+b+c+d

Na podstawie tabeli obliczamy wartość statystyki z poprawką Yatesa[1]:

χ2=(|adbc|ns2)2n(a+b)(c+d)(a+c)(b+d),

gdzie:

ns=n1n2n1+n2.

Jeżeli liczebności prób są na tyle duże, że n1+n2>40 – można wówczas pominąć w liczniku składnik ns2 w nawiasie. Wartości krytyczne wyznacza się z tablic rozkładu chi-kwadrat o 1 stopniu swobody.

Dwie próby zależne

Ten przypadek występuje na przykład wtedy, gdy te same obiekty czy osoby stanowiące próbę są badane dwukrotnie w różnych warunkach. Wtedy zwykle liczebności obu prób są jednakowe: n1=n2=n.

Wynikiem takiego eksperymentu są 4 liczby, stwierdzające, ile obiektów w każdej z prób spełnia lub nie spełnia warunku. Wyniki takie można zestawić w tabelce 2×2:

Liczebności Próba 2: TAK Próba 2: NIE
Próba 1:TAK a b
Próba 1: NIE c d

Te same wyniki można też zaprezentować w postaci tabelki proporcji zamiast liczebności (gdzie np. p11=an,p10=bn itd.)

Proporcje: Próba 2: TAK Próba 2: NIE
Próba 1:TAK p11 p10
Próba 1: NIE p01 p00

W zależności od liczebności prób możliwe są różne odmiany testu.

Liczebność duża

Jeżeli n20, to wyznaczamy statystykę z o rozkładzie normalnym z jednego ze wzorów:

z=bcb+c,
z=p10p01p10+p01n,
z=ada+d,
z=p11p00p11+p00n.

(Stosujemy dowolny z powyższych wzorów, zależnie od dostępnych danych).

Wartość statystyki z porównujemy z wartością zkryt wyznaczoną z tablic rozkładu normalnego, przy czym postępowanie jest takie samo, jak opisane powyżej dla testu dla jednej proporcji.

Liczebność mała (test McNemara)

W tym przypadku hipotezy mają postać:

H0:p11=p10 (proporcje w obu doświadczeniach są równe),
H1:p11p10 (proporcje w obu przypadkach różnią się istotnie).

Jeżeli b+c>10 oraz zarówno b>5, jak i c>5 to można wykorzystać statystykę

χ2=(bc)2b+c.

Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że b+c>10, ale b<5 lub c<5, należy wykorzystać nieco zmodyfikowany wzór:

χ2=(|bc|1)2b+c.

Wartość krytyczną odczytujemy z tablic rozkładu chi-kwadrat dla danego poziomu istotności α i ν=1 stopnia swobody. Obszar krytyczny testu jest prawostronny (odrzucamy H0, gdy χ2>χkryt2).

Testy dla wielu proporcji

Mamy tu k prób o liczebnościach n1,n2,nk. W i-tej próbie mi elementów spełnia zadany warunek, zatem proporcja w i-tej próbie jest równa pi=mini.

Testujemy hipotezy:

H0:p1==pk (wszystkie proporcje w populacjach są jednakowe),
H1:𝐧𝐢𝐞 H0 (proporcje w poszczególnych populacjach różnią się).

Próby niezależne

Test Fishera-Snedecora

Jeżeli wszystkie liczebności ni20 to można wyznaczyć statystykę o rozkładzie Fishera-Snedecora. Obliczamy najpierw „średnią proporcję”

p¯=i=1knipii=1kni

oraz

F=i=1kni(pip¯)2i=1kpi(1pi)kk1.

Otrzymaną wartość statystyki F porównujemy z wartością krytyczną odczytaną z tablic rozkładu Fishera-Snedecora dla założonego poziomu istotności α oraz liczby stopni swobody ν1=k1 i ν2=. Obszar krytyczny jest prawostronny, czyli gdy F>Fkryt – odrzucamy hipotezę H0.

Próby zależne

Jeżeli mamy do czynienia z k zależnymi próbami (seriami wyników) o jednakowej liczebności n każda (np. n osób jest poddawanych k razy badaniu, którego wynik klasyfikujemy w kategoriach: tak, nie), przy czym liczebności są n20, możemy wykorzystać test Cochrana do stwierdzenia, czy wyniki w poszczególnych doświadczeniach różnią się istotnie:

H0: wyniki poszczególnych serii nie różnią się istotnie,
H1: wyniki różnią się (zmiana warunków eksperymentu wpływa na wyniki).

Niech:

  • mi oznacza, jak poprzednio, liczbę obiektów w i-tej próbie, które spełniają warunek (wynik Tak), to znaczy i=1,2,k, zaś 0min,
  • wj oznacza liczbę prób, w których j-ty obiekt uzyskał wynik Tak – to znaczy j=1,2,n oraz 0wjk.

Obliczamy statystykę

χ2=(k1)[ki=1kmi2(i=1kmi)2]kj=1nwjj=1nwj2,

którą porównujemy z wartością krytyczną odczytaną z tablic rozkładu chi-kwadrat dla poziomu istotności α i ν=k1 stopni swobody. Obszar krytyczny testu jest prawostronny.

Przypisy

Szablon:Przypisy

Bibliografia

  • Fisher R.A., Yates F., Statistical tables for biological, agricultural and medical research, Oliver and Boyd, Edinburgh 1963.
  • Zieliński R., Tablice statystyczne, PWN, Warszawa 1972.

Linki zewnętrzne

Szablon:Wikiźródła Szablon:Wikiźródła Szablon:Wikiźródła

  • Distribution Calculator Kalkulator obliczający prawdopodobieństwa i wartości krytyczne dla rozkładów: normalnego, Studenta, chi-kwadrat oraz F (Fishera-Snedeccora)