Bootstrap (statystyka)

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania

Bootstrap[1] (pol. metody samowsporne[2]) – wprowadzone przez Bradleya Efrona metody szacowania rozkładu błędów estymacji, za pomocą wielokrotnego losowania ze zwracaniem z próby. Są przydatne szczególnie, gdy nie jest znana postać rozkładu zmiennej w populacji. Ponieważ bootstrap w podstawowej wersji nie czyni założeń co do rozkładu w populacji, może być zaliczony do metod nieparametrycznych. Metody bootstrap zalicza się do metod repróbkowania, do których należą również testy permutacyjne, sprawdzian krzyżowy i metoda jackknife[3].

Próba bootstrap

Próbą bootstrap (lub próbą typu bootstrap) nazywamy n-elementową próbę losową 𝐗* z rozkładu pewnej ustalonej n-elementowej próby 𝐗=(x1,x2,,xn) z populacji Ω.

Innymi słowy jest to próba powstała przez losowanie ze zwracaniem n elementów z 𝐗.

Zasada bootstrap

Niech T będzie pewną statystyką, dającą się przedstawić jako funkcja dystrybuanty:

θ=T(F)

i w przypadku zastosowania do rozkładu empirycznego jej wynikiem jest estymator θ^:

θ^=T(F^).

Warunki te spełnia szeroka klasa statystyk.

Zasada bootstrap mówi, że rozkład statystyki

T(F(𝐗*))T(F(𝐗)),

przy ustalonej realizacji X, jest bliski rozkładowi statystyki

T(F(𝐗))T(F(Ω)),

czyli rozkładowi błędów estymacji parametru θ w populacji.

Metoda bootstrap

Zgodnie z zasadą bootstrap w celu oszacowania rozkładu błędów estymacji, należy:

  1. wielokrotnie (k razy) wylosować niezależne próby losowe bootstrap 𝐗1*,𝐗2*,,𝐗k* na podstawie jednej realizacji 𝐗.
  2. obliczyć dla nich wartości:
    θ^1*=T(F(𝐗1*))θ^,
    θ^2*=T(F(𝐗2*))θ^,
    ,
    θ^k*=T(F(𝐗k*))θ^.

Otrzymany rozkład (θ^1*,θ^2*,,θ^k*) jest przybliżeniem rozkładu błędów estymacji za pomocą statystyki T zastosowanej do próby n-elementowej parametru θ w populacji.

Liczba k powinna być możliwie duża (im większa tym dokładniejsze oszacowanie). W literaturze podawane są coraz większe liczby, w miarę jak rosną możliwości obliczeniowe komputerów.

Błąd standardowy typu bootstrap

Histogram uzyskanego rozkładu błędów można przedstawić na wykresie. Można też obliczyć dla niego rozmaite dalsze statystyki, takie jak błąd standardowy:

SEθ^*=1k1i=1k(θ^i*θ*)2,

gdzie:

θ*=i=1kθ^i*k.

Przedziały ufności typu bootstrap

Najprostszą metodą stworzenia przedziału ufności estymatora za pomocą rozkładu θ^* jest przybliżenie go rozkładem normalnym. Jest to metoda bardzo prosta, poszukiwany przedział ma postać:

(θ^z1α2SEθ^*,  θ^+z1α2SEθ^*).

Metoda ta nie zawsze daje się jednak zastosować, gdyż często błąd nie ma rozkładu normalnego. Wymaga ona zatem sprawdzenia normalności rozkładu i arbitralnej decyzji, czy jest on wystarczająco normalny.

Alternatywną metodą jest percentylowy przedział ufności typu bootstrap, który może być stosowany przy dowolnej postaci rozkładu błędów:

(θ^q1α2*,  θ^+q1α2*),

gdzie qα* to kwantyl rzędu α z rozkładu θ^*θ^.

Jeszcze inna metoda postuluje najpierw wykonanie studentyzacji rozkładu przed wyliczeniem przedziału percentylowego. To, która metoda daje najdokładniejsze wyniki, zależy od typu rozkładu w populacji (w szczególności obecności obserwacji odstających) oraz założonej metody oceny dokładności.

Testowanie hipotez metodą bootstrap

Metoda bootstrap jest też używana do weryfikacji hipotez statystycznych, o ile da się tę weryfikację sprowadzić do badania błędu estymacji za pomocą statystyki spełniającej warunki bootstrapu.

Na przykład gdy hipotezą zerową jest wartość oczekiwana w populacji μ=10, a w próbie uzyskaliśmy średnią 𝐗=9,23, wówczas wartość p jest prawdopodobieństwem, że średnia z próby będzie się różniła od średniej w populacji o co najmniej 109,23=0,77. Prawdopodobieństwo to można oszacować, losując próby bootstrap z 𝐗 i sprawdzając w jakim odsetku losowań średnia wykracza poza przedział (9,230,77, 9,23+0,77).

Odmiany metody

Istnieje wiele odmian bootstrapu. W jednej z nich próby bootstrap nie są losowane bezpośrednio z próby 𝐗, lecz z rozkładu podobnego do rozkładu 𝐗, z wygładzoną dystrybuantą.

Istnieją też bardziej skomplikowane procedury bootstrapu dla próbkowania bez zwracania, problemów obejmujących dwie próby, regresji, szeregów czasowych, próbkowania hierarchicznego i innych problemów statystycznych.

Odmiana bootstrapu zwana bagging jest stosowana przy konstruowaniu modeli klasyfikacyjnych i regresyjnych, ograniczając zjawisko przeuczenia (Breiman 1984).

Przypisy

Szablon:Przypisy

Bibliografia

Linki zewnętrzne

Szablon:Kontrola autorytatywna

  1. Etymologia w artykule bootstrap.
  2. Szablon:Cytuj
  3. Chernick, M. R. (2012). Resampling methods. „Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery”, 2(3), 255-262.