Rozkład Poissona

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania

Szablon:Rozkład prawdopodobieństwa infobox Rozkład Poissona (czytaj [[[:Szablon:IPA]]], także prawo Poissona małych liczb[1]) – dyskretny rozkład prawdopodobieństwa, wyrażający prawdopodobieństwo szeregu wydarzeń mających miejsce w określonym czasie, gdy te wydarzenia występują ze znaną średnią częstotliwością i w sposób niezależny od czasu jaki upłynął od ostatniego zajścia takiego zdarzenia. Rozkład Poissona można również stosować w odniesieniu do liczby zdarzeń w innych określonych przedziałach, takich jak odległość, powierzchnia lub objętość.

Rozkład został wprowadzony i opublikowany przez Siméona-Denisa Poissona (1781–1840) wraz z jego teorią prawdopodobieństwa, w 1838 roku w jego pracy Recherches sur la probabilité des jugements en matière criminelle et en matière civile („Badania nad prawdopodobieństwem orzeczeń sądowych w sprawach cywilnych i karnych”). Praca skupiała się na niektórych zmiennych losowych N wyrażających, między innymi, liczbę dyskretnych zdarzeń, które odbywają się w przedziale czasu, o określonej długości.

Jeśli oczekiwaną liczbą zdarzeń w tym przedziale jest λ, to prawdopodobieństwo, że jest dokładnie k wystąpień, gdzie k jest nieujemną liczbą całkowitą, k=0,1,2, jest równe

f(k,λ)=λkeλk!,

gdzie:

e – podstawa logarytmu naturalnego e=2,71828,
k – liczba wystąpień zdarzenia,
k!silnia k,
λdodatnia liczba rzeczywista, równa oczekiwanej liczbie zdarzeń w danym przedziale czasu. Na przykład jeżeli zdarzenia występują średnio 4 razy na minutę, a ktoś jest zainteresowany prawdopodobieństwem zdarzenia k razy występującego w 10 minut, może użyć rozkładu Poissona jako model z λ=104=40.

Jako funkcja k jest to funkcja masy prawdopodobieństwa. Rozkład Poissona można wyprowadzić jako graniczny przypadek rozkładu dwumianowego.

Rozkład Poissona może być stosowany do systemów z dużą liczbą możliwych zdarzeń, z których każde jest bardzo rzadkie. Klasycznym przykładem jest rozpad jąder atomowych.

Rozkład Poissona jest czasami nazywany „poissonianem”.

Charakterystyka szumu Poissona i małych zdarzeń

Parametr λ jest nie tylko średnią liczbą wystąpień E[k], ale także ich wariancją σk2=E[k2]E[k]2 (patrz tabela). Tym samym liczba zaobserwowanych zdarzeń oscyluje wokół średniej λ z odchyleniem standardowym σk=λ. Wahania te są oznaczone jako szum Poissona lub (zwłaszcza w elektronice) jako szum śrutowy.

Korelacja średniej i odchylenie standardowe w liczeniu niezależnych zdarzeń dyskretnych jest przydatna naukowo. Dzięki monitorowaniu jak wahania różnią się od średniej sygnału, można oszacować wkład jednego zdarzenia, nawet jeśli ten wkład jest zbyt mały do wykrycia bezpośrednio. Na przykład ładunek e elektronu może być określony poprzez skorelowanie wielkości prądu elektrycznego z jego szumem śrutowym. Jeżeli przez punkt przechodzi w czasie t średnio N elektronów, średni prąd jest równy I=eN/t, ponieważ wahania prądu powinny być rzędu σI=eN/t (tj. standardowe odchylenie procesu Poissona), ładunek e może być oszacowany ze współczynnika σI2/I. Codziennym przykładem jest ziarnistość, która pojawia się przy powiększeniach fotografii, ziarnistość ta pojawia się w związku z wahaniami Poissona w ograniczonej liczbie ziaren srebra, a nie w związku z pojedynczymi ziarnami. Korelując ziarnistość ze stopniem powiększenia, można oszacować udział indywidualnych ziaren (które są zbyt małe, aby je inaczej postrzegać samodzielnie). Opracowano wiele innych zastosowań molekularnych szumu Poissona, np. szacowanie gęstości liczby cząsteczek receptora w błonie komórkowej

Pr(Nt=k)=f(k;λt)=eλt(λt)kk!.

Rozkłady powiązane

  • Jeśli X1Pois(λ1), i X2Pois(λ2), to różnica Y=X1X2 ma rozkład Skellama.
  • Jeśli X1Pois(λ1) i X2Pois(λ2) są niezależne, a Y=X1+X2, to rozkład X1 pod warunkiem Y=y jest dwumianowy. W szczególności, X1|(Y=y)Binom(y,λ1/(λ1+λ2)). Ogólnie rzecz biorąc, jeśli X1,X2,,Xn są niezależnymi zmiennymi losowymi Poissona z parametrami λ1,λ2,,λn, wtedy
Xi|j=1nXjBinom(j=1nXj,λij=1nλj).
  • Rozkład Poissona może zostać wyprowadzony jako graniczny przypadek rozkładu dwumianowego gdy liczba prób dąży do nieskończoności a oczekiwana liczba sukcesów jest stała – patrz prawo rzadkich zdarzeń poniżej. Może być on zatem stosowany jako przybliżenie rozkład dwumianowego gdy liczba n jest wystarczająco duża i p jest dostatecznie małe. Istnieje praktyczna reguła, stwierdzająca, że rozkład Poissona jest dobrym przybliżeniem rozkładu dwumianowego, jeśli n jest co najmniej 20 i p jest mniejsza lub równa 0,05, oraz bardzo dobrym przybliżeniem, jeśli n100 i np10[2].
  • Dla dostatecznie dużych wartości λ (powiedzmy λ>1000), rozkład normalny ze średnią λ i wariancją λ (odchylenie standardowe λ), jest znakomitym przybliżeniem rozkładu Poissona. Jeśli λ jest większe niż około 10 wtedy rozkład normalny jest dobrym przybliżeniem, jeżeli są wykonywane odpowiednie korekty ciągłości, tj. P(Xx), gdzie (małą literą) x jest liczbą całkowitą nieujemną, otrzymuje P(Xx+0,5).
FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ).
  • Transformacja stabilizująca wariancję: gdy zmienna ma rozkład Poissona, jej pierwiastek kwadratowy ma w przybliżeniu rozkład normalny z wartością oczekiwaną około λ i wariancją około 1/4[3]. W ramach tej transformacji, zbieżność do normalności jest znacznie szybsza niż zmiennej przed transformacją. Są dostępne inne, nieco bardziej skomplikowane transformacje stabilizujące wariancję[4] z których jedna jest transformacja Anscombe'a. Zobacz transformacja danych (statystyka) do bardziej ogólnego zastosowania przekształceń.
  • Jeśli liczba zajść zdarzenia w danym przedziale czasu [0,t] jest zgodna z rozkładem Poissona, ze średnią =λt, wtedy długość okresu oczekiwania pomiędzy zajściami zdarzenia ma rozkład wykładniczy ze średnią 1/λ.

Występowanie

Rozkład Poissona powstaje w związku z procesami Poissona. Ma on zastosowanie do różnych zjawisk dyskretnych właściwości (czyli tych, które mogą się zdarzyć 0,1,2,3, razy w danym przedziale czasu lub w danym obszarze), gdy prawdopodobieństwo wystąpienia zjawiska jest stałe w czasie lub przestrzeni. Przykłady zdarzeń, które mogą być modelowane rozkładem Poissona to:

  • Liczba zabitych przez kopnięcie konia każdego roku w korpusie kawalerii w Prusach. Ten przykład zasłynął z książki Władysława Józefowicza Bortkiewicza (1868–1931).
  • Liczba połączeń telefonów przychodzących do centrali na minutę.
  • Przy założeniu jednorodności, ile razy serwer jest dostępny na minutę.
  • Liczba mutacji w danym odcinku DNA po ekspozycji na pewną dawkę promieniowania.
  • Odsetek komórek, które zostaną zakażone dla danej liczności zakażeń.

Szablon:Anchor

W jaki sposób powstają takie rozkłady? – Prawo rzadkich zdarzeń

Porównanie rozkładu Poissona (czarne słupki) i rozkładu dwumianowego dla n=10 (czerwone kółka), n=20 (niebieskie kółka), n=100 (zielone kółka). Wszystkie rozkłady mają wartość oczekiwaną równą 5. Oś pozioma pokazuje liczbę zdarzeń k. Należy zauważyć, że gdy n rośnie, rozkład Poissona staje się coraz lepszym przybliżeniem rozkładu dwumianowego o tej samej wartości oczekiwanej.

W kilku z powyższych przykładów – takich jak liczba mutacji w danej sekwencji DNA – zdarzenia które są liczone są w wynikami pojedynczych prób, a dokładniej są modelowane przy użyciu rozkładu dwumianowego, to jest

XB(n,p).

W takich przypadkach n jest bardzo duże, a p jest bardzo małe (i tak oczekiwane np jest pośrednich rozmiarów). Rozkład może być wtedy przybliżany przez mniej uciążliwy rachunkowo rozkład Poissona

XPois(np).

To jest znane jako prawo rzadkich zdarzeń, gdyż każde z poszczególnych zdarzeń Bernoulliego n rzadko występuje. Nazwa może być myląca, ponieważ całkowita liczba zajścia sukcesu w procesie Poissona nie musi być mała, jeśli parametr np nie jest mały. Na przykład liczba telefonów do zajętej centrali w ciągu jednej godziny stosuje się do rozkładu Poissona ze zdarzeniami pojawiającymi się często u operatora, ale są one rzadkie z punktu widzenia przeciętnego członka społeczeństwa, u którego jest bardzo mało prawdopodobne, by dzwonił do centrali w tej godzinie.

Dowód

Będziemy dowodzić, że dla stałych λ, jeśli

XnB(n,λ/n);YPois(λ).

to dla każdego ustalonego k

limnP(Xn=k)=P(Y=k).

Aby zobaczyć związek z powyższym uzasadnieniem, dla każdej zmiennej losowej o rozkładzie dwumianowym z dużych n i małych p, ustalmy λ=np. Należy zauważyć, że wartość oczekiwania E(Xn)=λ jest stała względem n.

Po pierwsze, przypomnijmy, że

limn(1λn)n=eλ,

wtedy ponieważ p=λ/n, w tym przypadku mamy

limnP(Xn=k)=limn(nk)pk(1p)nk=limnn!(nk)!k!(λn)k(1λn)nk=limn[n!nk(nk)!]An(λkk!)(1λn)nexp(λ)(1λn)k1=[limnAn](λkk!)exp(λ)

Dalej, należy pamiętać, że

An=n!nk(nk)!=n(n1)(n(k1))nk=1(11n)(1k1n)111=1,

gdzie rozpatrujemy granicę każdego z członów niezależnie, co można zrobić, ponieważ liczba członów zależnych od n jest stała (jest ich k). W związku z tym, musimy wykazać, że

limnP(Xn=k)=λkexp(λ)k!=P(Y=k).

Uogólnienie

Wykazaliśmy, że jeżeli

XnB(n,pn);YPois(λ),

gdzie pn=λ/n, a następnie XnY w rozkładzie. Odnosi się to w bardziej ogólnej sytuacji, że pn jest dowolny ciąg taki, że

limnnpn=λ.

2-wymiarowy proces Poissona

Szablon:Osobny artykuł

P(N(D)=k)=(λ|D|)keλ|D|k!,

gdzie:

epodstawa logarytmu naturalnego e=2,71828,
k – liczba wystąpień zdarzenia – prawdopodobieństwo, dane funkcją,
k!silnia k,
D – 2-wymiarowy obszar,
|D| – pole obszaru,
N(D) – liczba punktów w procesie rozwoju w obszarze.

Własności

  • Wartość oczekiwana rozkładu Poissona zmiennej losowej jest równa λ i jest też ona równa jego wariancji. Wyższe momenty rozkładu Poissona są wielomianami Toucharda z parametrem λ, których współczynniki mają kombinatoryczne znaczenie. W rzeczywistości, gdy wartość oczekiwana rozkładu Poissona jest 1, to wzór Dobińskiego mówi, że n-ty moment jest równy liczbie podziałów zbioru n-elementowego.
  • Dominanta zmiennej losowej o rozkładzie Poissona z niecałkowitą λ jest równa λ, która jest największą liczbę całkowitą mniejszą lub równą λ. To jest również zapisane jako podłoga (λ). Gdy λ jest liczbą całkowitą, mody są równe λ i λ1.
  • Sumy zmiennych losowych o rozkładach Poissona:
Jeśli XiPois(λi) mają rozkład Poissona z parametrem λi i Xiniezależne, to
Y=i=1NXiPois(i=1Nλi)
również ma rozkład Poissona o parametrze będącym sumą parametrów składowych. Odwrotne jest twierdzenie Rajkowa, które mówi, że jeśli suma dwóch niezależnych zmiennych losowych ma rozkład Poissona, to ma go również każda z tych dwóch niezależnych zmiennych losowych.
  • Suma znormalizowanych odchyleń kwadratowych ma w przybliżeniu rozkład chi kwadrat, jeśli średnia jest umiarkowanej wielkości (zalecana jest λ>5)[5]. Jeśli X1,,XN są obserwacjami z niezależnych rozkładów Poissona ze średnimi λ1,,λN wtedy i=1N(Xiλi)2λiχ2.
  • Funkcją generującą momenty rozkładu Poissona z oczekiwaną wartość λ jest
E(etX)=k=0etkf(k;λ)=k=0etkλkeλk!=eλ(et1).
DKL(λλ0)=λ0λ+λlogλλ0.
  • Wartość oczekiwana policzona z definicji:
E(X)=x=0xP(X=x)=x=0xeλλxx!=eλx=0xλxx!=eλx=1λx(x1)!=eλλx=1λx1(x1)!=eλλx=0λxx!=eλλeλ=λeλλ=λ

Ocena rozkładu Poissona

Chociaż rozkład Poissona jest ograniczony przez 0, licznik i mianownik f(k,λ) może osiągnąć skrajne wartości dla dużych wartości k lub λ.

Jeżeli rozkład Poissona jest szacowany na komputerze z ograniczoną dokładnością, najpierw wyliczając jego licznik i mianownik, a następnie dzieląc je, to może wystąpić znaczna utrata precyzji.

Na przykład dla typowej podwójnej precyzji zdarzy się całkowita utrata dokładności jeśli f(150,150) jest obliczana w ten sposób.

Pewniejszą metodą liczenia jest:

f(k,λ)=explnf(k,λ)=explnλkexp(λ)k!=exp(klnλλi=1klni).

Generowanie zmiennych losowych o rozkładzie Poissona

Prosty sposób na generowanie losowych liczb o rozkładzie Poissona, jest podany przez Knutha, zobacz odniesienia poniżej.

algorytm poisson random number (Knuth):
 init:
  Let L ← e^-λ, k ← 0 i p ← 1.
 do:
  k ← k + 1.
  Wygeneruj losową liczbę u z przedziału [0,1] i przypisz p ← p × u.
 while p > L.
 return k – 1.

Podczas gdy jest prosty, złożoność jest liniowa względem λ. Istnieje wiele innych algorytmów na przezwyciężenie tego. Niektóre z nich są podane w Ahrens & Dieter, patrz odniesienia poniżej. Ponadto dla dużych wartości λ, mogą być problemy ze stabilnością numeryczną ze względu na człon exp(λ). Jednym z rozwiązań dla dużych wartości λ jest Pobieranie z odrzuceniem, innym jest wykorzystanie przybliżenia Poissona przez Gaussa.

Metoda odwrotnej transformacji jest prosta i skuteczna dla małych wartości λ i wymaga tylko jednej jednolitej losowej liczby u na próbkę. Skumulowane prawdopodobieństwa badane są z kolei, aż jedno przekracza u.

Estymacja parametrów

Największa wiarygodność

Dana jest próbka n mierzonych wartości ki i chcemy oszacować wartość parametru λ populacji Poissona z której próbka została zaczerpnięta. Aby obliczyć wartość największej wiarygodności, tworzymy funkcję log-prawdopodobieństwo

L(λ)=lni=1nf(kiλ)=i=1nlneλλkiki!=nλ+(i=1nki)lnλi=1nln(ki!).

Weź pochodną L względem λ i przyrównaj ją do zera:

ddλL(λ)=0n+(i=1nki)1λ=0.

Rozwiązanie dla λ daje punkt stacjonarny, który, jeśli druga pochodna jest ujemna, jest oszacowaniem maksymalnego prawdopodobieństwa λ:

λ^MLE=1ni=1nki.

Sprawdzając drugą pochodną, okazuje się, że jest ujemna dla wszystkich λ i ki większych od zera, dlatego ten stacjonarny punkt jest rzeczywiście maksimum początkowej funkcji prawdopodobieństwa:

2Lλ2=λ2i=1nki.

Ponieważ każda obserwacja ma oczekiwane λ więc tak samo średnią tej próbki. Dlatego jest nieobciążonym estymatorem λ. Jest to również efektywny estymator, tj. jego oszacowanie wariancji osiąga dolne ograniczenie nierówności Rao-Craméra. Stąd MVUE – estymator nieobciążony o minimalnej wariancji. Ponadto można udowodnić, że średnia próbki jest kompletna i wystarczająca statystycznie dla λ.

Statystyka bayesowska

W statystyce bayesowskiej, sprzężony rozkład a priori dla parametru skali λ rozkładu Poissona jest rozkładem gamma. Niech

λGamma(α,β)

oznacza, że λ ma rozkład zgodnie z gęstością Gamma g parametryzowaną ze względu na parametr kształtu α i odwrotny parametrem skali: β

g(λα,β)=βαΓ(α)λα1eβλ for λ>0.

Następnie biorąc tę samą próbkę n zmierzonych wartości ki jak poprzednio, i a priori Gamma (α,β), rozkład a posteriori jest

λGamma(α+i=1nki,β+n).

Średnia a posteriori E[λ] zbliża się do oszacowania maksymalnego prawdopodobieństwa λ^MLE w granicy, jako α0, β0.

Przewidujący rozkład a posteriori dodatkowych danych jest rozkładem Gamma-Poissona (tj. ujemnym dwumianowym).

Przedział ufności

Prosta i szybka metoda obliczania przybliżonego przedziału ufności dla oszacowania λ jest zaproponowana w Guerriero et al. (2009). Metoda ta zapewnia dobre przybliżenie granic przedziału ufności dla próbek zawierających co najmniej 15–20 elementów. Oznaczając przez N liczbę próbkowanych punktów lub zdarzeń, a przez L długość linii próbek (lub przedział czasowy), górna i dolna granica 95% przedziału ufności dane są przez:

λlow=N/L(11,96/N1),
λupp=N/L(1+1,96/N1).

Prawo małych liczb

Słowo prawo jest czasami używane jako synonim rozkładu prawdopodobieństwa i konwergencja tu oznacza konwergencję w rozkładzie. W związku z tym rozkład Poissona jest czasami nazywany prawem małych liczb, ponieważ jest to rozkład prawdopodobieństwa ilości wystąpień zdarzenia, które zdarza się rzadko, ale ma bardzo wiele możliwości, aby się zdarzyć. Prawo małych liczb to książka Władysława Bortkiewicza o rozkładzie Poissona opublikowana w 1898 roku. Niektórzy historycy matematyki twierdzili, że rozkład Poissona powinien być nazywany rozkładem Bortkiewicza[6].

Zobacz też

Przypisy

Szablon:Przypisy

Bibliografia

  • Rozkład po raz pierwszy tak nazwany w pracy:
Szablon:Cytuj pismo

Referencje

Linki zewnętrzne

Szablon:Rozkłady statystyczne

Szablon:Kontrola autorytatywna

  1. Szablon:Cytuj książkę
  2. NIST/SEMATECH, '6.3.3.1. Counts Control Charts', e-Handbook of Statistical Methods, accessed 25 October 2006.
  3. Szablon:Cytuj książkę page 196 gives the approximation and the subsequent terms.
  4. N.L. Johnson, S. Kotz, A.W. Kemp, Univariate Discrete distributions (2nd edition), Wiley, 1993, Szablon:ISBN, s. 163.
  5. Szablon:Cytuj książkę
  6. Szablon:Cytuj pismo