Wariancja

Z testwiki
Wersja z dnia 09:18, 28 lis 2024 autorstwa imported>Blakocha (Jeżeli usuwamy $\mu$ z wzoru, trzeba by usunąć z opisu. Potrzebny przypis, że rzeczywiście taki wzór nazywamy "ogólnym wzorem dla wariancji". Wycofano ostatnie 3 zmiany treści (wprowadzone przez 2A02:A31C:362:B500:303D:A22D:AF13:B314) i przywrócono wersję 71520689 autorstwa Olaf)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacji Przejdź do wyszukiwania

Wariancja – miara zmienności zmiennej losowej będąca wartością oczekiwaną kwadratu różnicy wartości zmiennej losowej X i jej wartości oczekiwanejSzablon:R. W statystyce opisowej obliczana jest jako średnia arytmetyczna kwadratów odchyleń (różnic) poszczególnych wartości cechy od średniejSzablon:R.

Wariancja zmiennej losowej X, oznaczana jako Var[X] lub D2(X), zdefiniowana jest wzoremSzablon:R:

Var[X]=E[(Xμ)2],

gdzie:

E[] jest wartością oczekiwaną zmiennej losowej podanej w nawiasach kwadratowych,
μ jest wartością oczekiwaną zmiennej X.

Innym, często prostszym, sposobem wyznaczania wariancji jest wzór:

D2(X)=E(X2)[E(X)]2.

Wariancja jest momentem centralnym drugiego rzędu zmiennej losowej.

Jeżeli ponadto 𝔼X2 oraz 𝒢 jest σ-ciałem zdarzeń, to wariancją warunkową nazywamy:

Var(X|𝒢):=𝔼((X(X|𝒢))2| 𝒢).

Statystyka opisowa

Jako jedna z najpopularniejszych miar w statystyce opisowej służąca do opisu danego kompletnego zbioru danychSzablon:R, wariancja zdefiniowana jest dla zbioru obserwacji z cechą x wzoremSzablon:R:

S2(x)=i=1N(xix)2N,

gdzie x oznacza średnią wartość cechy, a N liczebność zbioru.

Wyrażona jest w jednostkach miary badanej cechy podniesionych do kwadratuSzablon:R.

Dane pogrupowane

W przypadku obliczania wariancji dla danych pogrupowanych w postaci szereg rozdzielczego punktowego, wykorzystuje się wzorySzablon:R:

S2(x)=i=1k(xix)2nin=i=1kxi2ninx2,

gdzie k oznacza liczbę klas szeregu punktowego, ni – liczebność i-tej klasy, a n – liczebność całej zbiorowości (odpowiednik N we wzorze powyżej).

W przypadku szeregu rozdzielczego przedziałowego za wartość x przyjmuje się środki poszczególnych przedziałów (x.)Szablon:R:

S2(x)=i=1k(x.ix)2nin=i=1kx.i2ninx2.

Ze względu na przyjęcie jako reprezentacji przedziałów wartości środkowych x., wariancja liczona według powyższego wzoru jest przybliżeniem wariancji dla danych kompletnychSzablon:R.

Estymatory

Wariancja próby losowej o wartościach xi, gdzie i=1,2,3,, jest następująca:

σ2=limn1ni=1n(xix)2.

Wariancję dla populacji można estymować za pomocą n-elementowej próby losowej. Estymator największej wiarygodności:

s2=1ni=1n(xix)2

jest zgodnym, lecz obciążonym estymatorem wariancji (jest nieobciążony asymptotycznie). Innymi słowy, gdybyśmy z populacji losowali próbkę wielokrotnie i obliczali jego wyniki, to ich średnia nie byłaby równa wariancji w całej populacji. Dlatego też częściej używa się również zgodnego, lecz nieobciążonego estymatora:

s2=1n1i=1n(xix)2.

W przypadku, gdy znamy dokładną wartość oczekiwaną μ w populacji, wówczas estymator

s2=1ni=1n(xiμ)2

jest już nieobciążony i zgodny.

Własności wariancji

Dla zmiennych losowych X, Y i dowolnych stałych a, b, c zachodzą następujące własności:

1. D2(c)=0

Dowód. Korzystając z własności wartości oczekiwanej (wartość oczekiwana stałej jest równa tej stałej), mamy:

D2(c)=E[(cEc)2]=E[02]=E[0]=0.

2. D2(X)0

Dowód. Korzystamy z własności wartości oczekiwanej mówiącej o tym, że jeżeli zmienna losowa jest dodatnio określona prawie wszędzie to jej wartość oczekiwana jest dodatnia. Ponieważ zmienna losowa (XEX)2 jest dodatnio określona, mamy:

D2(X)=E[(XEX)2]0.

3. D2(aX)=a2D2(X)

Dowód. Korzystając z definicji wariancji, a następnie z liniowości wartości oczekiwanej mamy:

D2(aX)=E[(aXE(aX))2]=E[(aXaEX)2]=E[(a(XEX))2]=E[a2(XEX)2]=a2E[(XEX)2]=a2D2(X).

4. D2(X+b)=D2(X)

Dowód. Korzystamy z własności wartości oczekiwanej mówiącej o tym, że Ec=c dla c stałej i z liniowości:

D2(X+b)=E[(X+bE(X+b))2]=E[(X+bEXEb)2]=E[(X+bEXb)2]=E[(XEX)2]=D2(X).

5. D2(X±Y)=D2(X)+D2(Y)±2Cov(X,Y) w ogólnym przypadku; (gdzie Cov(X,Y) to kowariancja)

Dowód. Sprawdzone zostanie tylko twierdzenie dla sumy, twierdzenie dla różnicy rozwiązuje się analogicznie. Czyli mamy:

D2(X+Y)=E[(X+YE(X+Y))2]=E[(X+YEXEY)2]=E[((XEX)+(YEY))2]=E[(XEX)2+2(XEX)(YEY)+(YEY)2]=

Korzystając z liniowości wartości oczekiwanej i definicji kowariancji, mamy:

=E[(XEX)2]+2E[(XEX)(YEY)]+E[(YEY)2]=D2(X)+D2(Y)+2Cov(X,Y).

Z powyższego twierdzenia łatwo wysnuć wniosek, że jeżeli zmienne X i Y są niezależne, zachodzi:

D2(X±Y)=D2(X)+D2(Y).

Pierwiastek kwadratowy z wariancji definiujemy jako odchylenie standardowe.

Pierwiastek z estymatora nieobciążonego wariancji jest często używany jako estymator odchylenia standardowego, jednak jest wówczas obciążony (zobacz odchylenie standardowe).

Zobacz też

Szablon:Wikisłownik

Przypisy

Błąd rozszerzenia cite: Znacznik <ref> o nazwie „pwn”, zdefiniowany w <references>, nie był użyty wcześniej w treści.
Błąd rozszerzenia cite: Znacznik <ref> o nazwie „statystyka131”, zdefiniowany w <references>, nie był użyty wcześniej w treści.
Błąd rozszerzenia cite: Znacznik <ref> o nazwie „wasilewska163”, zdefiniowany w <references>, nie był użyty wcześniej w treści.
Błąd rozszerzenia cite: Znacznik <ref> o nazwie „wasilewska165166”, zdefiniowany w <references>, nie był użyty wcześniej w treści.
Błąd rozszerzenia cite: Znacznik <ref> o nazwie „wasilewska233234”, zdefiniowany w <references>, nie był użyty wcześniej w treści.
Błąd rozszerzenia cite: Znacznik <ref> o nazwie „wasilewska239”, zdefiniowany w <references>, nie był użyty wcześniej w treści.
Błąd rozszerzenia cite: Znacznik <ref> o nazwie „wasilewska241”, zdefiniowany w <references>, nie był użyty wcześniej w treści.

Bibliografia

Szablon:Kontrola autorytatywna