Współczynnik determinacji

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania
Cztery wykresy punktowe przedstawiające fikcyjne dane, z dopasowanym modelem liniowym. Dane mają mocno różną postać funkcjonalną.
Kwartet Anscombe’a – cztery zbiory obserwacji, które pasują w identycznym stopniu (także w sensie R²) do takiego samego modelu liniowego.

Współczynnik determinacji R² – jedna z miar jakości dopasowania modelu do danych uczących. Jego dopełnieniem jest współczynnik zbieżności, φ2=1R2. Występuje obecnie w wielu wariantach stosujących różnorodne poprawki. Jego pierwotne opracowanie przypisuje się m.in. publikacji Sewalla Wrighta z 1921, która opiera się z kolei m.in. na artykule K. Pearsona z 1897[1].

Obecnie, współczynnik determinacji wykorzystuje się głównie w celach pomocniczych. Lepszymi narzędziami do tego celu są np. kryteria informacyjne AIC, BIC, czy sprawdzian krzyżowy. Już Wright nie przedstawiał R² jako wyczerpującej miary dopasowania modelu do badanego zjawiska, szczególnie nie w sensie wyjaśnienia przyczynowego. Współczynnik determinacji opisuje jedynie oszacowaną na podstawie próby macierz wielokrotnej korelacji obecnych w modelu zmiennych, przy założeniu prawdziwości modelu. Ignoruje dopasowanie modelu do danych spoza próby, oraz problem pominiętych zmiennych. Maksymalizacja tej miary prowadzi do nadmiernego dopasowania modelu do danych uczących[2][3][4][5]. Schmueli uznaje w tym kontekście tradycję opisywania korelacji zmiennych jako ich wzajemnego wyjaśniania lub determinacji – co może sugerować wytłumaczenie przyczynowe – za szczególnie zwodniczą[6].

Współczynnik determinacji

Informuje o tym, jaka część zmienności (wariancji) zmiennej objaśnianej w próbie pokrywa się z korelacjami ze zmiennymi zawartymi w modelu. Jest on więc miarą stopnia, w jakim model pasuje do próby. Współczynnik determinacji przyjmuje wartości z przedziału [0;1] jeśli w modelu występuje wyraz wolny, a do estymacji parametrów wykorzystano metodę najmniejszych kwadratów. Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R² jest bliższa jedności. Wyraża się on wzorem:

R2:=i=1n(y^iy)2i=1n(yiy)20,

gdzie:

yii-ta obserwacja zmiennej y,
y^i – wartość teoretyczna zmiennej objaśnianej (na podstawie modelu),
yśrednia arytmetyczna empirycznych wartości zmiennej objaśnianej.

Interpretacja

Współczynnik R2 ma jasną interpretację tylko w sytuacji, gdy współczynniki modelu y=Xβ+ε zostały wyestymowane metodą najmniejszych kwadratów i w modelu występuje wyraz wolny. Wówczas 0R21 i R^2 można interpretować jako miarę dopasowania modelu do danych.

Dowód.

i=1n(yiy)2=i=1n(yiy^i+y^iy)2=i=1n(yiy^i)2+i=1n(y^iy)2+2i=1(yiy^i)(y^iy).

Ostatnią sumę możemy rozpisać

i=1n(yiy^i)(y^iy)=i=1n(yiy^i)y^iyi=1n(yiy^i).

Pierwsza z tych sum jest równa

i=1n(yiy^i)y^i=y^T(yy^)=β^TXT(yy^)=β^TXT(yXβ^)=β^TXTyβ^TXTXβ^=β^TXTyβ^TXTX(XTX)1XTy=0.

Z powyższego rachunku wynika także, że w metodzie najmniejszych kwadratów macierz XT jest ortogonalna do wektora reszt yy^, tzn.

XT(yy^)=0.

Jeżeli w modelu y=Xβ+ε występuje wyraz wolny, to macierz X zwiera kolumnę, a macierz XT – rząd jedynek. W takiej sytuacji tożsamość XT(yy^)=0 implikuje równość

i=1(yiy^i)=0

i otrzymujemy

i=1n(yiy)2=i=1n(yiy^i)2+i=1n(y^iy)2.

Wówczas

R2:=i=1n(y^iy)2i=1n(yiy)2=i=1n(y^iy)2i=1n(yiy^i)2+i=1n(y^iy)2=11+i=1n(yiy^i)2i=1n(y^iy)21 

Współczynnik zbieżności

Współczynnik zbieżności φ2 określa, jaka część zaobserwowanej w próbie zmienności zmiennej objaśnianej nie pasuje do modelu (mieści się w jego błędzie). Współczynnik zbieżności przyjmuje wartości z przedziału [0;1]; wartości te najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość φ2 jest bliższa zeru. Wyraża się on wzorem:

φ2:=1R2,

lub też (jeżeli w modelu występuje wyraz wolny, a współczynniki zostały wyestymowane metodą najmniejszych kwadratów)

φ2=1R2=i=1n(yiy)2i=1n(yiy)2i=1n(y^iy)2i=1n(yiy)2=i=1n(yiy)2i=1n(y^iy)2i=1n(yiy)2=i=1n(yiy^i)2i=1n(yiy)2,

gdzie y^i, yi oraz y są określone jak w części poprzedniej.

Przypisy

Szablon:Przypisy

Szablon:Kontrola autorytatywna