Imputacja

Z testwiki
Wersja z dnia 19:08, 11 wrz 2022 autorstwa imported>MastiBot (Bot poprawia linki archiwalne na szablony {{cytuj}})
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacji Przejdź do wyszukiwania

Imputacja – sztuczne wstawienie pewnych wartości do tabeli danych. Na ogół imputacja jest wykonywana w celu usunięcia tzw. braków danych, czyli wartości nieznanych. Wiele metod statystycznych nie akceptuje bowiem obserwacji z brakami danych.

Istnieje wiele różnych metod uzupełniania braków danych (ang. missing data imputation), najprostszą jest zastąpienie braków danych średnią ze wszystkich wartości danej zmiennej w próbce.

Imputacja wielokrotna

Zaawansowaną, a przy tym uniwersalną metodą imputacji jest imputacja wielokrotna (Szablon:W języku) Rubina[1]. Metoda ta działa w następujący sposób:

Niech M:AB jest dowolną metodą statystyczną wymagającą kompletnych danych, której dane wejściowe to A a dane wyjściowe to B. Załóżmy, że nasze dane X mają braki danych, a chcielibyśmy zastosować metodę M.

1. Estymujemy parametry wielowymiarowego rozkładu R danych X.
2. Wykonujemy w pętli dużą liczbę razy, dla i=1,2,,N następujące czynności:

2a. Uzupełniamy braki danych w X wartościami wylosowanymi z rozkładu R, uzyskując Xi
2b. Stosujemy metodę M, czyli wyliczamy Yi=M(Xi)

3. Łączymy (uśredniamy) wyniki Y1,Y2,YN, aby otrzymać Y. Algorytm łączenia musi być dobrany do metody M. W przypadku metod, dla których Y jest liczbą rzeczywistą, może to być np. średnia arytmetyczna. W przypadku niektórych metod (np. analiza skupień) łączenie nie jest trywialne i może być wręcz niemożliwe.

Przypisy

Szablon:Przypisy

Linki zewnętrzne

Szablon:Wikisłownik