Centralne twierdzenie graniczne

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania
Przykładowy rozkład prawdopodobieństwa pewnej zmiennej
Rozkład prawdopodobieństwa średniej dwóch takich niezależnych zmiennych
Rozkład prawdopodobieństwa średniej trzech takich niezależnych zmiennych
Rozkład prawdopodobieństwa średniej czterech takich niezależnych zmiennych. Jest już bardzo zbliżony do rozkładu normalnego.

Centralne twierdzenie graniczne – twierdzenie probabilistyki o zbieżności pewnych ciągów zmiennych losowych do rozkładu normalnego[1]. Wyjaśnia ono powszechność w przyrodzie zbliżonych do niego rozkładów prawdopodobieństwa.

Wersje

Sformułowanie szczególne

Centralne twierdzenie graniczne to twierdzenie matematyczne mówiące, że jeśli Xiniezależnymi zmiennymi losowymi pochodzącymi z tej samej populacji o wartości oczekiwanej μ oraz dodatniej i skończonej wariancji σ2, to ciąg zmiennych losowych, w postaci znormalizowanych wartości oczekiwanych Un

Un=1ni=1nXiμσ/n

zbieżny jest według rozkładu do standardowego rozkładu normalnego, gdy n+.

Tzn.

limnP(Un<u)=12πuex2/2dx

Sformułowanie ogólne

Centralne twierdzenie graniczne znane też pod nazwą twierdzenia Lindeberga-Lévy’ego mówi:

Niech (Xn,k) będzie schematem serii, w którym EXn,k=0 dla kn i dla każdego n mamy k=1nD2Xn,k=1. Jeśli spełniony jest warunek Lindeberga, tj. dla każdego ϵ>0 zachodzi limnk=1nEXn,k2𝟏{|Xn,k|>ϵ}=0, to k=1nXn,kDN(0,1).

Dowód

Dowodów centralnego twierdzenia granicznego w wersji ogólnej jest kilka. Wszystkie są dość skomplikowane i wymagają korzystania z wielu zaawansowanych narzędzi matematycznych. Poniżej znajduje się jeden z prostszych dowodów, nie dający jednak oszacowania wartości błędu.

Pierwszym krokiem dowodu jest sformułowanie i udowodnienie użytecznych lematów.

Lemat 1

Niech f:𝐑𝐑 będzie funkcją trzykrotnie różniczkowalną taką, że x𝐑 zachodzi |f(x)|A oraz |f(x)|B. Wówczas: x,y𝐑

  • a) |f(x+y)f(x)f(x)yf(x)y22!|A|y|33!,
  • b) |f(x+y)f(x)f(y)|By22!.

Dowód

Oznaczmy φx(y)=f(x+y)f(x)f(x)yf(x)y22!. Wówczas φx(0)=0,φx(0)=0,φx(0)=0.

Ustalmy dowolne y>0. Wówczas zgodnie z twierdzeniem Cauchy’ego istnieją takie z,t,w>0, że:

|φx(y)y3|=|φx(y)φx(0)y30|=|φx(z)3z2|=|φx(z)φx(0)3z2302|=|φx(t)6t|=|φx(t)φx(0)6t60|=|φx(w)6|A6.

Na tej samej zasadzie:

|φx(y)y2|=|φx(t)2|B2.

Lemat 2

Jeżeli XN(0,1), to

E|X|3=R|x|312πex22dx=42π.

Dowód

E|X|3=R|x|312πex22dx=22π0+x3ex22dx.

Dokonujemy podstawienia x2=tdx=dt2x:

E|X|3=22π0+txet2dt2x=12π0+tet2dt.

Teraz całkujemy przez części:

E|X|3=2t2πet2|0++22π0+et2dt=42πet2|0+=42π.

Drugi krok polega na oszacowaniu pewnej wartości:

Niech f:𝐑𝐑,fC3(𝐑) będzie funkcją trzykrotnie różniczkowalną taką, że |f(x)|Ax𝐑 oraz |f(x)|Bx𝐑.

Rozważamy niezależne zmienne (Gn,k) o rozkładzie normalnym takie, że n,kEGn,k=0 oraz D2Gn,k=D2Xn,k.

Wówczas:

x𝐑|Ef(x+Xn,k)Ef(x+Gn,k)|
=|Ef(x+Xn,k)f(x)f(x)EXn,kf(x)2!EXn,k2Ef(x+Gn,k)+f(x)+f(x)EGn,k+f(x)2!EGn,k2|
=|E[f(x+Xn,k)f(x)f(x)Xn,kf(x)2!Xn,k2]E[f(x+Gn,k)f(x)f(x)Gn,kf(x)2!Gn,k2]|
E|f(x+Xn,k)f(x)f(x)Xn,kf(x)2!Xn,k2|+E|f(x+Gn,k)f(x)f(x)Gn,kf(x)2!Gn,k2|.

Przy czym ostatnia nierówność to nierówność trójkąta.

Drugi ze składników daje się na podstawie Lematu 1 oszacować w sposób następujący:

E|f(x+Gn,k)f(x)f(x)Gn,kf(x)2!Gn,k2|A6E|Gn,k|3.

Tymczasem Gn,k=D2Xn,kG, gdzie GN(0,1). W związku z tym (korzystając z Lematu 2):

E|Gn,k|3=(D2Xn,k)3/2E|G|312(D2Xn,k)3/2.

Wobec tego

A6E|Gn,k|32A(D2Xn,k)3/22AD2Xn,k(max1knD2Xn,k).

Pierwszy ze składników można natomiast oszacować w sposób następujący:

E|f(x+Xn,k)f(x)f(x)Xn,kf(x)2!Xn,k2|=E|f(x+Xn,k)f(x)f(x)Xn,kf(x)2!Xn,k2|𝟏{|Xn,k|ϵ}+E|f(x+Xn,k)f(x)f(x)Xn,kf(x)2!Xn,k2|𝟏{|Xn,k|>ϵ}.

Z kolei szacujemy:

E|f(x+Xn,k)f(x)f(x)Xn,kf(x)2!Xn,k2|𝟏{|Xn,k|ϵ}A6E|Xn,k|3𝟏{|Xn,k|ϵ}A6D2Xn,kϵ

oraz

E|f(x+Xn,k)f(x)f(x)Xn,kf(x)2!Xn,k2|𝟏{|Xn,k|>ϵ}E|f(x+Xn,k)f(x)f(x)Xn,k|𝟏{|Xn,k|>ϵ}+E|f(x)2!Xn,k2|𝟏{|Xn,k|>ϵ}BEXn,k2𝟏{|Xn,k|>ϵ}.

Ostatnia nierówność wynika z Lematu 1.

Zatem x𝐑 mamy następujące oszacowanie:

|Ef(x+Xn,k)Ef(x+Gn,k)|2AD2Xn,k(max1knD2Xn,k)+A6D2Xn,kϵ+BEXn,k2𝟏{|Xn,k|>ϵ}.

Trzeci krok polega na wielokrotnym zastosowaniu oszacowania uzyskanego powyżej.

|Ef(Xn,1+Xn,2++Xn,n)Ef(Gn,1+Gn,2++Gn,n)||Ef(Xn,1++Xn,n)Ef(Xn,1++Xn,n1+Gn,n)|+|Ef(Xn,1++Xn,n1+Gn,n)Ef(Xn,1++Xn,n2+Gn,n1+Gn,n)|++|Ef(Xn,1+Gn,2++Gn,n)Ef(Gn,1+Gn,2++Gn,n)|.

Rozpatrzmy k-ty z powyższych wyrazów.

Podstawiamy

Y:=Xn,1++Xn,k1+Gn,k+1++Gn,n.

Zmienna Y jest niezależna od Xn,k i Gn,k. Wobec tego:

|Ef(Xn,1++Xn,k+Gn,k+1++Gn,n)Ef(Xn,1++Xn,k1+Gn,k++Gn,n)|=|Ef(Y+Xn,k)Ef(Y+Gn,k)|=|REf(y+Xn,k)dμY(y)REf(y+Gn,k)dμY(y)|R|Ef(y+Xn,k)Ef(y+Gn,k)|dμY(y)2AD2Xn,k(max1knD2Xn,k)+A6D2Xn,kϵ+BEXn,k2𝟏{|Xn,k|>ϵ}.

Zatem:

|Ef(Xn,1+Xn,2++Xn,n)Ef(Gn,1+Gn,2++Gn,n)|

2A(k=1nD2Xn,k)(max1knD2Xn,k)+A6(k=1nD2Xn,k)ϵ+B(k=1nEXn,k2𝟏{|Xn,k|>ϵ})2A(max1knD2Xn,k)+A6ϵ+BLn(ϵ).

Pierwszy i ostatni składnik z warunku Lindeberga zbiegają do zera, gdy n dąży do nieskończoności. W związku z tym:

ϵ>0lim supn|Ef(Xn,1++Xn,n)Ef(Gn,1++Gn,n)|Aϵ.

Oznacza to, że:

Ef(Xn,1++Xn,k)nEf(Gn,1++Gn,n)=Ef(G), gdzie GN(0,1).

Czwarty krok polega na wyliczenie dystrybuanty granicznej na podstawie powyższych oszacowań.

Weźmy funkcję f:𝐑𝐑,f3(R) spełniającą warunek x𝐑𝟏(t+δ,+)(x)f(x)𝟏(t,+)(x) dla pewnych t𝐑,δ>0.

Wówczas:

P(Xn,1++Xn,nt)Ef(Xn,1++Xn,n)P(Xn,1++Xn,nt+δ).

Ale:

Ef(Xn,1++Xn,n)nEf(G)

oraz

P(Gt)Ef(G)P(Gt+δ).

W związku z tym:

lim infnP(Xn,1++Xn,nt)P(Gt+δ)δ0+P(Gt)

oraz podobnie

lim supnP(Xn,1++Xn,nt)P(Gtδ)δ0+P(Gt).

Otrzymujemy więc

P(Xn,1++Xn,nt)nP(Gt)P(Xn,1++Xn,n<t)nP(G<t).

Ale z ciągłości dystrybuanty rozkładu normalnego wnioskujemy, że

P(Xn,1++Xn,nt)nP(Gt).

Ponieważ punktowa zbieżność dystrybuant w punktach ciągłości dystrybuanty granicznej jest równoważna zbieżności według rozkładu, więc ostatecznie:

k=1nXn,knDN(0,1).

Częste nieporozumienia

  • Centralne twierdzenie graniczne nie sprawi, by przy dostatecznie dużej próbie rozkład stał się normalny. Jedynie rozkład średniej z tej próby upodabnia się do normalnego.
  • Centralne twierdzenie graniczne jest prawdziwe tylko dla rozkładów o skończonej wariancji. Zobacz stabilność struktury.

Zobacz też

Przypisy

Szablon:Przypisy

Linki zewnętrzne

Szablon:Kontrola autorytatywna