Regresja liniowa

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania
Dwuwymiarowy wykres punktowy, przedstawiający przykładowe obserwacje i dopasowaną linię trendu.
Przykład danych z modelem liniowym dopasowanym metodą najmniejszych kwadratów

Regresja liniowa – w modelowaniu statystycznym, metody oparte na liniowych kombinacjach zmiennych i parametrów dopasowujących model do danych. Dopasowana linia lub krzywa regresji reprezentuje oszacowaną wartość oczekiwaną zmiennej y przy konkretnych wartościach innej zmiennej lub zmiennych x. W najprostszym przypadku dopasowana jest stała lub funkcja liniowa, na przykład:

y=β0+β1x.

Zmienna y jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Zmienne x nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi jest przekształcenie liniowe (afiniczne) względem parametrów, reprezentowane w przypadku wielowymiarowym przez macierz.

Model regresji liniowej

Niech dany będzie zbiór danych zaobserwowanych {yi,xi1,,xip}i=1n. Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną yi a wektorem p×1 regresorów 𝐱i. Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu) εi, który jest zmienną losową. Dokładniej, model ten jest postaci

yi=β01+β1xi1++βpxip+εi=𝐱iβ+εi,i=1,,n,

gdzie oznacza transpozycję, tj. 𝐱iβ jest iloczynem skalarnym wektorów 𝐱i oraz β.

Powyższe n równań można zapisać w sposób macierzowy:

𝐲=Xβ+ε,

gdzie:

𝐲=(y1y2yn),X=(𝐱1𝐱2𝐱n)=(1x11x1p1x21x2p1xn1xnp),β=(β0β1β2βp),ε=(ε1ε2εn).

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to odporne metody statystyczne, do których należy regresja medianowa i algorytmy z regularyzacją.

Kwartet Anscombe’a

Niedostateczność prostych algorytmów w ogólnym przypadku pokazuje m.in. kwartet Anscombe’a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) mimo znacząco różnego charakteru danych.

Testy oparte na modelu liniowym

Wiele klasycznych narzędzi statystycznych opatrzonych własnymi nazwami, takich jak współczynnik korelacji r Pearsona, ANOVA czy test t Studenta jest szczególnymi przypadkami lub aspektami modelu liniowego. Dotyczy to również licznych testów nieparametrycznych, w których przypadku zamiast surowych wartości zmiennych stosuje się rangi obserwacji[1].

Historycznie, klasyczne narzędzia stanowiły proste, gotowe do użycia modele z dobrze opisanymi właściwościami. W wielu przypadkach wymagają one jedynie obliczenia kilku średnich arytmetycznych, ignorując tym samym większość informacji zawartych w danych. W ortodoksyjnym podejściu częstościowym test realizuje się następnie z reguły przez określenie prawdopodobieństwa danych przy założeniu modelu zerowego: o odpowiedniej dla sytuacji strukturze, ale zakładającego zerowe zależności. Modele zerowe dla klasycznych testów mają dobrze znane rozkłady prawdopodobieństwa, i wykonanie testu polegało na odnalezieniu odpowiedniej wartości w standardowej tabeli w podręczniku[2][3].

Prostota technik pozwoliła na ich łatwe i powszechne stosowanie w epoce niskiej dostępności i mocy komputerów. Zwyczaj ten ukrywa jednak ich strukturalną i poznawczą banalność, i zachęca do zaniedbywania surowych założeń warunkujących ich trafność. Współcześnie statystycy mogą tworzyć i stosować modele oraz testy dużo dokładniej dopasowane do konkretnych zastosowań i ograniczeń[2][3][4][5][6].

Poniższa tabela – oparta na pracy Lindeløva[7] – przedstawia równoważne klasycznym narzędziom modele liniowe, gdzie D reprezentuje zmienne typu dummy, przyjmujące wartości 1 lub 0 dla obserwacji należących (lub nie) do konkretnej grupy obserwacji, ranga() to funkcja mapująca surowe wartości zmiennych na ich relatywne rangi (w niektórych przypadkach ze znakiem, rozróżniając wartości ujemne i dodatnie), a ϵ to wyraz błędu.

Klasyczne testy statystyczne jako szczególne przypadki regresji liniowej
Nazwa zwyczajowa Równoważny model liniowy Opis słowny
test t Studenta dla jednej próby y=β0+ϵ Czy średnia (lub mediana) obserwacji
jest ich dobrym predyktorem?
test Wilcoxona dla jednej próby ranga+(y)=β0+ϵ
test t Studenta dla par obserwacji y2y1=β0+ϵ Czy średnia (lub mediana) różnic obserwacji
jest ich dobrym predyktorem?
test Wilcoxona dla par obserwacji ranga+(y2y1)=β0+ϵ
korelacja r Pearsona y=β0+β1x+ϵ Czy model liniowy
jest dobrym predyktorem obserwacji (lub ich rang)?
korelacja Spearmana ranga(y)=β0+β1ranga(x)+ϵ
test t Studenta dla dwóch prób y=β0+β1D+ϵ Czy średnie grup
są dobrym predyktorem obserwacji (lub ich rang)?
test Manna-Whitneya ranga+(y)=β0+β1D+ϵ
jednoczynnikowa ANOVA y=β0+β1D1+β2D2++βnDn+ϵ
test Kruskala-Wallisa ranga+(y)=β0+β1D1+β2D2++βnDn+ϵ
jednoczynnikowa ANCOVA y=β0+β1D1+β2D2++βnDn+βxx+ϵ Czy średnie grup oraz ich liniowy model
są dobrym predyktorem obserwacji (lub ich rang)?
dwuczynnikowa ANOVA y=β0+β1D1+β2D2++βnDn+βoE1+βpE2++βrEm+βsD1E1+βtD1E2++βuDnEm+ϵ Czy średnie grup oraz ich iloczynów
są dobrym predyktorem obserwacji?

Przypisy

Szablon:Przypisy

Szablon:Kontrola autorytatywna