Twierdzenie de Moivre’a-Laplace’a

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania
Wraz ze wzrostem liczby prób n wykres rozkładu dwumianowego coraz bardziej przypomina wykres krzywej Gaussa.

Twierdzenie de Moivre’a-Laplace’a – dwa twierdzenia rachunku prawdopodobieństwa nazywane lokalnym i całkowym (integralnym) wskazujące związek rozkładu dwumianowego (Bernoulliego) z rozkładem normalnym; można traktować je jako szczególny przypadek centralnego twierdzenia granicznego.

Przypadek symetryczny pochodzi z wydrukowanej w 1730 roku pracy Miscellanea analytica de seriebus et quadraturis („Rozmaite analityka o szeregach i kwadraturach”)[1] od Abrahama de Moivre’a, a niesymetryczny – z opublikowanego w trzy lata później dodatku Miscelaneis analyticis supplementum z 1733 roku; szerszej publiczności twierdzenia zaprezentowane zostały w drugim wydaniu dzieła The Doctrine of Chances: or, a method for calculating the probabilities of events in play („Doktryna szans: lub, metoda obliczania prawdopodobieństw zdarzeń w grze”) z 1738 roku. Twierdzenie w pełnej ogólności udowodnił Pierre Simon de Laplace w pracy Théorie analytique des probabilités („Analityczna teoria prawdopodobieństw”) z 1812 roku, który nie miał w zwyczaju powoływać się na źródła – z tego powodu do XX wieku prace Moivre’a były szerzej nieznane[2].

Twierdzenia de Moivre’a-Laplace’a

Szablon:Zobacz też

Oznaczenia
Niech B(n,p) oznacza rozkład dwumianowy dla procesu Bernoulliego, w którym prawdopodobieństwo osiągnięcia dokładnie k sukcesów o prawdopodobieństwie p w n próbach dane jest wzorem
Bk(n,p)=(Sn=k)=(nk)pkqnk,
gdzie q=1p jest prawdopodobieństwem porażki, a Sn oznacza liczbę sukcesów; ponadto niech μ=np oraz σ=npq oznaczają odpowiednio wartość oczekiwaną i odchylenie standardowe tego rozkładu.
Rozpatrywana będzie unormowana wersja powyższego rozkładu, tzn. jego wartość oczekiwana będzie równa zeru, a jego wariancja (odchylenie standardowe) będzie jednostkowa, czyli zamiast liczby sukcesów Sn rozważana będzie jej unormowana wersja Sn*=Snμσ. W związku z tym niżej stosowane będą również następujące oznaczenia: h=1σ to szerokość przedziału klasowego, k*=kμσ to unormowane odchylenie liczby sukcesów od średniej; wygodnie będzie zakładać, że k nie musi być naturalne – w szczególności k±=k±12, skąd k±*=k±12h.
Funkcja φ(t)=12πexp(t22) będzie oznaczać gęstość unormowanego rozkładu normalnego N(0,1) o dystrybuancie Φ, podczas gdy φ*(t)=hφ(t*)=1σ2πexp((tμ)22σ2) będzie oznaczać gęstość rozkładu normalnego N(μ,σ) o dystrybuancie Φ*(x)=Φ(x*).
Twierdzenie lokalne
Jeżeli h|k*|max(p,q)12, to
Bk(n,p)=hφ(k*)eR(n,k),
gdzie
|R(n,k)|34|k*|h+13|k*|3h+13n.
W szczególności R(n,k)0 dla n,k, czyli
(Sn=k)φ*(k).
Twierdzenie całkowe
Jeżeli hmax(|a*|,|b*|)max(p,q)12, to
(aSnb)=(Φ(b+*)Φ(a*))eD(n,a,b),
gdzie
|D(n,a,b)|maxk{a,b}(54|k*|h+13|k*|3h)+13n+18h2.
W szczególności D(n,a,b)0 dla n oraz a,b zmieniających się tak, by h(a*)3, h(b*)30, jest wtedy
(aSnb)Φ*(b+)Φ*(a);
zachodzi również następujące, mniej dokładne, ale prostsze, a przez to częściej stosowane, przybliżenie:
(aSnb)Φ*(b)Φ*(a).

W zastosowaniach najczęściej spotyka się następujący wniosek z twierdzenia całkowego:

Wniosek
Jeżeli a*,b* są stałe, to
(a*Sn*b*)Φ(b+*)Φ(a*).

Przykłady

Liczebność próby
Twierdzenie de Moivre’a-Laplace’a można wykorzystać do określenia minimalnej liczebności próby losowej z danej populacji w danym badaniu mającym na celu jak najbardziej miarodajne oszacowanie danej obserwacji, która zachodzi z pewnym prawdopodobieństwem, bądź nie (tj. zachodzącej zgodnie z rozkładem zero-jedynkowym). Przykładowo: w badaniu przesiewowym choroby, która jest na tyle rzadka, że nie choruje na nią więcej niż 0,5% populacji, przy czym błąd ma być mniejszy niż 0,001 z prawdopodobieństwem 0,95, w celu wskazania chorych z ustaloną pewnością należałoby wybrać próbę co najmniej 19112-osobową[3].
Reguła 3σ
Opierając się na twierdzeniu całkowym można się spodziewać, że reguła trzech sigm sformułowana dla rozkładu normalnego zachodzi również dla procesu Bernoulliego. Jedną z jej wersji jest
(Sn(μ3σ,μ+3σ))0,997,
o ile μ3σ>0 oraz μ+3σ<n, co można krótko zapisać n>9max(pq,qp)[4].

Przypisy

Szablon:Przypisy

Szablon:Kontrola autorytatywna

  1. W pracy, którą autor przekazał jedynie kilku znajomym, pojawia się wzór postaci n!Cnnnen, gdzie lnC=1112+136011260+11680, który posłużył do wyprowadzenia opisanych w tym artykule twierdzeń, znany obecnie jako wzór Stirlinga, przy czym James Stirling zauważył jedynie, że C=2π, o czym autor wspomina w drugim wydaniu tej pracy 1933 roku z dwoma dodatkami.
  2. Szczegóły można znaleźć w artykułach Raymonda Clare Archibalda i Karla Pearsona z 1926 roku zebranych w tej pracy.
  3. Skoro p oznacza prawdopodobieństwo zapadnięcia jednostki na daną chorobą, a Snn jest oszacowaniem procenta chorych w populacji, to (|Snnp|0,001)0,95, skąd (|Sn*|0,001npq)0,95. W tablicach statystycznych można znaleźć, iż Φ(1,96)=0,975 (gdyż wtedy Φ(1,96)Φ(1,96)=0,95), dlatego n powinno spełniać warunek n1,961000pq, a ponieważ p0,005, to pq przyjmuje największą wartość dla p=0,005, zatem n19112.
  4. Dla przypadku symetrycznego p=q=12 oznacza to, że n10; w przypadku n=10 prawdopodobieństwo wynosi 102210240,99805; liczbę 0,997 wzięto zapewne od popularnego oszacowania dla rozkładu normalnego, dla którego Φ(3)Φ(3)=0,9973 Twierdzenie to można wzmacniać korzystając z wyników w rodzaju nierówności Bernsteina.