Współczynnik korelacji rang Spearmana

Korelacja rang Spearmana (lub: korelacja rangowa Spearmana, rho Spearmana) – jedna z nieparametrycznych miar monotonicznej zależności statystycznej między zmiennymi losowymi.
Przyjmuje wartości od -1 do +1 włącznie. Skrajny wynik +1 oznacza, że wzrost jednej ze zmiennych zawsze pociąga za sobą wzrost drugiej, wynik -1 oznacza, że wzrost jednej ze zmiennych pociąga za sobą spadek drugiej, 0 to brak wykrytej zależności. W odróżnieniu od klasycznego współczynnika korelacji Pearsona, zależność ta nie musi być liniowa.
Pierwotny pomysł korelowania rang był już znany wcześniej i pochodził od Bineta i Szablon:Link-interwiki, jednak współczynnik ten został solidnie opisany i rozpropagowany dopiero w 1904 przez angielskiego psychologa Charlesa Spearmana. Zauważył on, że w wielu badaniach nie da się zastosować klasycznego współczynnika korelacji lub daje on fałszywie istotne wyniki ze względu na nadmiar obserwacji odstających.
Spearman zdefiniował swój współczynnik jako współczynnik korelacji Pearsona, liczony dla rang zmiennych (stąd nazwa współczynnik korelacji rang)Szablon:Odn. Obecnie stosowanych jest kilka jego wersji, nieznacznie różniących się od siebie. Ich wartości są identyczne w przypadku, gdy obserwacje każdej zmiennej w próbie nie powtarzają się. Jeśli jednak nie jest to prawdą, to współczynnik korelacji dla rang opisuje jedynie wzór Szablon:LinkWzór i jego odmianySzablon:Odn. Mimo to często używany jest też prostszy wzór Szablon:LinkWzór.
Zastosowanie i interpretacja
Korelacja rangowa przyjmuje wartości z przedziału [-1,+1], ich interpretacja jest podobna do klasycznego współczynnika korelacji Pearsona, z zastrzeżeniem: w odróżnieniu od współczynnika Pearsona, który mierzy liniową zależność między zmiennymi, a wszelkie inne związki traktuje jako zaburzone zależności liniowej, korelacja rangowa pokazuje dowolną monotoniczną zależność (także nieliniową)Szablon:Odn.
Model korelacji rangowej zawiera szerszą klasę zależności niż model klasycznego współczynnika korelacji, nie obejmuje jednak wszystkich możliwych zależności. Na przykład zależność okresowa, spotykana często w analizie szeregów czasowych, gdzie nosi nazwę sezonowości, nie jest wykrywana ani przez korelację Pearsona, ani SpearmanaSzablon:Odn.
Jako metoda rangowa, rho Spearmana jest w niewielkim tylko stopniu wrażliwe na obserwacje odstające[uwaga 3][2], dzięki czemu szczególną użyteczność znajduje w analizie danych niskiej jakościSzablon:Odn.
Współczynnik korelacji Spearmana zależy wyłącznie od uporządkowania zaobserwowanych wartości. Może zatem być stosowany do dowolnych zmiennych, których wartości można uporządkować rosnąco. Klasyczny współczynnik korelacji nie ma sensownej interpretacji dla zmiennych na skali porządkowej, gdyż uzależniony jest od różnic między wartościami zmiennych, które dla cech porządkowych nie są określoneSzablon:Odn.
Współczynnik korelacji Spearmana oraz testy jego istotności mogą być stosowane przy dowolnym rozkładzie porównywanych zmiennychSzablon:Odn.
Korelacja rang Spearmana może być też opisana jako nachylenie (współczynnik kierunkowy) prostej najlepiej dopasowanej (w sensie najmniejszych kwadratów) do zbioru par rangSzablon:Odn. Istnieją inne, bardziej egzotyczne interpretacje, nie mają jednak znaczenia praktycznego[uwaga 4].
Zależność między zmiennymi losowymi (niezależnie od tego, jakim wskaźnikiem jest mierzona) nie musi oznaczać związku przyczynowo-skutkowego[uwaga 5].
Korelacja rang Spearmana zmiennych losowych
Ta wersja ma znaczenie w statystyce teoretycznej. Wartości dowolnych miar statystycznych wyliczanych z próby wygodnie jest uważać za estymatory (przybliżenia) miar liczonych na podstawie rozkładu zmiennej losowej, z którego próba była losowana. W przypadku miar korelacji, dla zmiennych i będzie to dwuwymiarowy rozkład wektora
Korelacja rang Spearmana zmiennych losowych i wyrażona jest wzoremSzablon:OdnSzablon:Odn
gdzie:
- – współczynnik korelacji Pearsona[uwaga 6],
- – dystrybuanta zmiennej w punkcie
- – lewostronna granica w punkcie
Dla ciągłych zmiennych losowych zachodzi i wzór ten sprowadza się do[3]
gdzie
- – dystrybuanty porównywanych zmiennych,
- – kowariancja.
Korelacja rang Spearmana z próby
W praktyce współczynnik korelacji rang oblicza się dla próby statystycznej. Używane do tego wzory można uważać za estymatory (przybliżenia) korelacji rang danej wzorem Szablon:LinkWzór lub korelacji rang istniejącej w populacji statystycznejSzablon:Odn. Przybliżenia nie są jednak tym samym, co wartość przybliżana. Ich wyniki będą zatem dla odróżnienia oznaczane przez podobnie jak w literaturze.
Współczynnik obliczany jest w następujący sposóbSzablon:Odn:
- 1. Dla każdej porównywanej zmiennej dokonywane jest niezależnie rangowanie, czyli:
- 1a. Zaobserwowane wartości danej zmiennej porządkowane są rosnąco.
- 1b. Każdej wartości przypisywana jest ranga równa pozycji danej wartości w rosnącym porządku (najmniejsza uzyskuje rangę 1, kolejna 2 itd.).
- 1c. W przypadku gdy dana wartość występuje wielokrotnie, każde z wystąpień ma przypisaną tę samą rangę równą średniej arytmetycznej pozycji w rosnącym porządku (tzw. ranga wiązana lub powiązana, ang. tied rank). Tym samym mogą występować rangi ułamkowe, np. ranga 1,5.
- 2. Po powrocie do pierwotnego porządku wartości w zmiennych obliczana jest korelacja rangowa z jednego ze wzorów omówionych poniżej (Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór). Istnieją różne wzory, gdyż poszczególne estymatory korelacji rang mają różne własności. Jeśli nie ma rang wiązanych, wszystkie one dają ten sam wynik. Jeśli występują rangi wiązane, to wzór Szablon:LinkWzór i jego odmiany są zgodne z pierwotną koncepcją Spearmana. Pomimo to często używany jest wzór Szablon:LinkWzór, jak twierdzi część autorów, nieprawidłowo[4]Szablon:OdnSzablon:OdnSzablon:Odn[5]Szablon:Odn.
Wzory uwzględniające rangi wiązane
Oryginalna propozycja Spearmana
W oryginalnym ujęciu Spearmana, jego korelacja rang jest współczynnikiem korelacji Pearsona liczonym dla rang zmiennych zamiast ich surowych wartości, co jest bezpośrednim przełożeniem wzoru Szablon:LinkWzór na język rangSzablon:OdnSzablon:Odn.
gdzie:
- – klasyczny współczynnik korelacji,
- – rangi zmiennej w próbie,
- – rangi zmiennej w próbie.
Wzór ten można uważać za próbkowy odpowiednik wzoru Szablon:LinkWzór. Rozpisanie wzoru na korelację Pearsona prowadzi doSzablon:Odn
- Wersja oparta na różnicy rang
Ten sam estymator można też zapisać w innej, równoważnej wersji jakoSzablon:OdnSzablon:Odn:
gdzie:
- Szablon:Wzór
- Szablon:Wzór
- Szablon:Wzór
- jest liczbą obserwacji w próbie posiadających tę samą -tą wartość rangi zmiennej
- jest liczbą obserwacji w próbie posiadających tę samą -tą wartość rangi zmiennej
- sumowanie przebiega po wszystkich wartościach rang – wystarczy zsumować rangi wiązane, bo dla pozostałych (analogicznie ); gdy w danej zmiennej nie ma rang wiązanych, lub jest równe zeru.
- Wersja dla tablicy dwudzielczej
Rozkład porządkowych zmiennych losowych w próbie można przedstawić w formie tablicy dwudzielczej (tablicy kontyngencji), w której kolumny odpowiadają uszeregowanym wartościom jednej zmiennej (oznaczonej przez ), wiersze uszeregowanym wartościom drugiej zmiennej (oznaczonej przez ), a w komórkach tablicy znajdują się liczności
Wzór Szablon:LinkWzór przyjmuje wtedy postaćSzablon:Odn:
gdzie:
- – odpowiednio indeksy wierszy oraz kolumn,
- – odpowiednio liczba wierszy oraz kolumn,
- – suma -tego wiersza,
- – suma -tej kolumny,
- – suma całej tabeli.
Dziś estymator Szablon:LinkWzór jest standardowym wzorem używanym np. przez pakiety statystyczne SAS oraz SPSSSzablon:Odn, a także w uwzględniających rangi wiązane pracach naukowych z dziedziny statystykiSzablon:Odn. W podręcznikach statystyki oraz w pracach naukowych z innych dziedzin nadal jednak popularny jest podany dalej wzór Szablon:LinkWzór, ze względu na stopień komplikacji wzorów Szablon:LinkWzór lub Szablon:LinkWzór, utrudniający ręczne obliczenia, mimo że w obliczeniach wykonywanych na komputerze wzór Szablon:LinkWzór jest nawet prostszy w zastosowaniu[uwaga 7].
Niekiedy estymator Szablon:LinkWzór/Szablon:LinkWzór/Szablon:LinkWzór/Szablon:LinkWzór nazywany jest „skorygowaną korelacją rangową”.
Poprawka do wzoru na w przypadku rang wiązanych wynikająca z zastosowania wzorów Szablon:LinkWzór/Szablon:LinkWzór/Szablon:LinkWzór/Szablon:LinkWzór jest obszernie dyskutowana w monografii Kendalla. Lehmann wykazuje asymptotyczną zbieżność do rozkładu normalnego, w przypadku, gdy liczba rang wiązanych jest ograniczona.
Wzór dla rang wiązanych powstałych przez agregację
Powtarzające się wartości zmiennych, a tym samym rangi wiązane, mogą powstawać na dwa sposoby w zależności od natury badanego zjawiska:
- jako odzwierciedlenie prawdziwych powtarzających się wartości w populacji – przykładem może być zastosowanie korelacji rangowej do obliczania zależności dwóch zmiennych na skali porządkowej, takich jak wykształcenie: dwie osoby mogą mieć to samo wykształcenie, powstanie wówczas ranga wiązana;
- jako efekt pogrupowania (agregacji) wartości zmiennych w kilka rozłącznych przedziałów, a następnie przypisania jednej wartości (centroid) do każdej z nich – taka sytuacja ma miejsce np. gdy opracowywane są wyniki ankiet, w których badanych poproszono o przedziałowe określenie jakiejś wielkości, takiej jak dochód. Rangi wiązane powstają wówczas w sposób sztuczny.
Podczas agregacji tracona jest informacja o zróżnicowaniu obserwacji wewnątrz każdego przedziału, co sprawia, że zmienne, które przed agregacją nie miały identycznych rang, po agregacji mogą już mieć taki sam porządek. Agregacja jest zwykle zabiegiem wymuszonym warunkami badania, którego wpływ na wyniki powinien być jak najmniejszy. Przydatny byłby więc estymator, szacujący korelację rangową zmiennych przed agregacją na podstawie danych po agregacji. Taki estymator osiągałby wartości tylko przy próbie bez rang wiązanych.
Kendall proponuje aby w przypadku rang wiązanych powstałych sztucznie stosować w mianowniku wariancje takie, jak gdyby rang wiązanych nie było (gdyż tak jest w hipotetycznej nieskończonej populacji, dla której korelacja rangowa jest estymowana). Uzyskany w ten sposób estymator jest wartością oczekiwaną współczynnika korelacji rang obliczonego dla tych samych zmiennych przed agregacją (przy założeniu, że każda kombinacja rang prowadząca po agregacji do obserwowanej próby jest jednakowo prawdopodobna)Szablon:Odn.
- Postać ogólna
W ogólnym przypadku, po uwzględnieniu rang wiązanych, wariancja rang wynosi:
gdzie współczynnik jest zdefiniowany tak jak wcześniej, wzorem Szablon:LinkWzór.
W przypadku braku rang wiązanych, wariancje są zależne tylko od w szczególności nie zależą od rozkładu zmiennych przed rangowaniem[1]:
Niezależnie od tego, czy pojawiły się rangi wiązane, czy nie, średnia rang jest zależna jedynie od liczności próby[6]:
Podstawiając powyższe równania do wzoru Szablon:LinkWzór, uzyskuje się[1]:
- Wersja oparta na różnicy rang
Ten estymator można zapisać w równoważnej postaci jakoSzablon:Odn:
gdzie są zdefiniowane, jak wyżej, wzorami Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór.
- Wersja dla tablicy dwudzielczej
Dla tablic dwudzielczych estymator Szablon:LinkWzór przyjmuje postaćSzablon:Odn
gdzie:
- – suma -tego wiersza,
- – suma -tej kolumny,
- – suma całej tabeli.
Istnieje jeszcze inny estymator dla tablic dwudzielczych, zaproponowany przez StuartaSzablon:OdnSzablon:Odn.
Wzór nieuwzględniający rang wiązanych
Często stosowanym estymatorem jestSzablon:Odn:
gdzie (tak jak wcześniej)
to różnica między rangami zmiennych i dla obserwacji
W przypadku gdy nie ma rang wiązanych (połączonych), czyli wartości nie powtarzają się w obrębie próby dla żadnej ze zmiennych z osobna, wzór Szablon:LinkWzór daje te same wyniki, co każdy z podanych wcześniej estymatorów Szablon:LinkWzór[6] i Szablon:LinkWzór. Jeśli choć jedna ranga jest wiązana, każdy z nich daje inny wynik.
Wzór Szablon:LinkWzór jest używany ze względu na prostotę obliczeń istotną dla kalkulacji wykonywanych bez pomocy komputera i do dziś jest popularny w podręcznikachSzablon:Odn. Estymator ten ma jednak nieoczekiwane własności w przypadku wystąpienia rang wiązanych, np.
- nie jest wówczas prawdą, iż
- nie jest wtedy zgodny z pierwotną definicją korelacji rang Spearmana jako zwykłego współczynnika korelacji liczonego dla rangSzablon:Odn,
- dla zmiennych dyskretnych, minimalną wartością jego granicy, przy rozmiarze próby dążącym do nieskończoności, jestSzablon:Odn
- gdzie:
- to liczba różnych wartości przyjmowanych przez zmienną
- to liczba różnych wartości zmiennej
- Wynika stąd, że estymator ten jest dla zmiennych dyskretnych niezgodny i asymptotycznie obciążony[uwaga 8], w odróżnieniu od estymatora Szablon:LinkWzór.
Część autorów uważa, że można ten estymator stosować tylko przy braku rang wiązanych, w przeciwnym wypadku jego stosowanie jest błędemSzablon:OdnSzablon:Odn[7]. Inni autorzy stosują go także wówczas[4]Szablon:OdnSzablon:OdnSzablon:Odn[5]. Niektórzy uważają, że wzór można stosować, jeśli rang wiązanych jest nie więcej niż jedna czwarta ogółu i nie występują rangi wiązane z więcej niż dwóch obserwacjiSzablon:OdnSzablon:Odn. Pakiety statystyczne SAS oraz SPSS używają podanego wcześniej bardziej ogólnego wzoru Szablon:LinkWzórSzablon:Odn.
Niekiedy wzór Szablon:LinkWzór nazywany jest „nieskorygowaną korelacją rangową” w odróżnieniu od „skorygowanej korelacji rangowej” Szablon:LinkWzór. Jest to związane z postacią wzoru Szablon:LinkWzór, który przypomina wzór Szablon:LinkWzór z dodaną „korektą na rangi wiązane”.
Własności
- Współczynnik jest unormowanySzablon:Odn[6]:
- Im bardziej wartości oddalone są od zera, tym większa siła związku między zmiennymi;
- Gdy każda zmienna jest ściśle rosnącą funkcją drugiej (np. ), występuje idealna zgodność rang i ich korelacja przyjmuje wartość +1Szablon:Odn[6];
- W szczególności wartość ta jest przyjmowana, gdy zmienna jest korelowana sama ze sobą:
- Gdy każda zmienna jest ściśle malejącą funkcją drugiej zmiennej, występuje maksymalna niezgodność rang i ich korelacja przyjmuje wartość –1Szablon:Odn[6];
- W szczególności wartość ta jest przyjmowana, gdy zmienna korelowana jest z
- Dla niezależnych zmiennych losowych wartością oczekiwaną estymatorów jest 0, a rozkład każdego z nich nie zależy od rozkładu zmiennych przed rangowaniem[1];
- Zachodzi symetria ze względu na zamianę zmiennych:
- Zachodzi symetria ze względu na zmianę znaku zmiennej:
W przypadku wystąpienia rang wiązanych część z tych własności nie jest spełniona dla niektórych estymatorów. Dla estymatora Szablon:LinkWzór nie są prawdziwe własności Szablon:LinkWzór i Szablon:LinkWzór, a estymator Szablon:LinkWzór/Szablon:LinkWzór/Szablon:LinkWzór nie osiąga wartości
Matematyczne własności rho Spearmana mają związek z tożsamością Czebyszewa oraz twierdzeniem o ciągach jednomonotonicznych.
Przykład
numery obserwacji 1 2 3 4 5 wartości 1,1 1,57 0,51 1,1 1,1 wartości 1,2 1 2,3 1 18 rangi 3 5 1 3 3 rangi 3 1,5 4 1,5 5 kwadraty różnic rang 0 12,25 9 2,25 4
We wzorach Szablon:LinkWzór, Szablon:LinkWzór i Szablon:LinkWzór wykonywane są pośrednie obliczenia:
W Szablon:LinkWzór i Szablon:LinkWzór także:
(jest jedna ranga wiązana, mają ją trzy obserwacje),
(jest jedna ranga wiązana, mają ją dwie obserwacje).
Po podstawieniu do wzorów otrzymuje się:
estymator wynik Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór Szablon:LinkWzór
Testowanie istotności statystycznej
Szablon:Wikibooks Aby przetestować istotność statystyczną korelacji rangowej, wykorzystuje się fakt, iż przy założeniu hipotezy zerowej o niezależności zmiennych losowych i oraz niezależności od siebie par [uwaga 9] rozkład statystyki
korelacji rangowej dąży wraz ze wzrostem liczebności próby do rozkładu Studenta o stopniach swobody, gdzie jest licznością próbySzablon:Odn. Po obliczeniu tej statystyki korzysta się z tablic rozkładu Studenta lub komputera w celu obliczenia poziomu istotności
Rozkład ten jest wyprowadzany przy założeniu braku rang wiązanych, jednak Kendall twierdzi, że w przypadku istnienia rang wiązanych poprawka do testu nie jest koniecznaSzablon:Odn.
Inni autorzy z kolei zalecają stosowanie poprawki na ciągłość (przez dodanie lub odjęcie )Szablon:Odn.Szablon:Wikibooks Dla liczebności próby dążącej do nieskończoności, rozkład rho Spearmana dąży do rozkładu normalnego o wartości oczekiwanej równej prawdziwej wartości w populacji i wariancjiSzablon:Odn[uwaga 10] stąd używana jest też inna statystykaSzablon:Odn:
której rozkład przy założeniu hipotezy zerowej dąży wraz ze wzrostem liczności próby do standardowego rozkładu normalnego
Część autorów sugeruje stosowanie poprawki na ciągłość, która jednak nie daje znaczącego wzrostu dokładności przybliżeniaSzablon:Odn.
Postulowano również stosowanie średniej arytmetycznej statystyki opartej na rozkładzie i normalnymSzablon:Odn.
Dla małych prób wszystkie te wzory są niedokładne (statystyka oparta na rozkładzie jest zazwyczaj nieco lepsza niż statystyka ), ale można sprawdzić komputerowo wszystkie permutacje rang lub skorzystać z tablic. Często stosuje się przy tym inną statystykę (nazywaną czasem Hotellinga-Pabst): Należy przy tym zauważyć, że między tymi statystykami zachodzi związek liniowy, a więc ich stosowanie prowadzi do identycznych wyników. Dokładne tablice rozkładu dla wielkości populacji do 25 można znaleźć w pracySzablon:Odn.
Hipotezą alternatywną może być albo:
(co prowadzi do dwustronnego obszaru krytycznego) albo
- lub
(co prowadzi do jednostronnego obszaru krytycznego).
Dla omawianego powyżej przykładu, dwustronnego obszaru krytycznego i wyliczeń według trzech estymatorów otrzymuje się następujące wartości:
estymator (przybliżenie rozkładem Studenta) (przybliżenie rozkładem normalnym) (wartość dokładna) Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór Szablon:LinkWzór, Szablon:LinkWzór, Szablon:LinkWzór Szablon:LinkWzór
W tabeli podano wartość wyliczoną za pomocą przybliżenia rozkładem Studenta, z rozkładu normalnego i wreszcie dokładnie – z tablic. Dla tak małej próby przybliżenie rozkładem Studenta daje różnice rzędu 0,05, co może mieć znaczenie przy określaniu istotności statystycznej. Przybliżenie rozkładem normalnym jest w tym wypadku mniej dokładne. Dla małych prób konieczne jest więc stosowanie tablic lub symulacji komputerowych. Przy liczebności próby dążącej do nieskończoności różnica zmniejsza się i coraz bardziej uzasadnione jest stosowanie rozkładu Studenta, ewentualnie rozkładu normalnego, co jednak z reguły da nieco większy od Studenta błąd wyznaczania istotności.
Znacznie dokładniejsze wyniki przynosi stosowanie przybliżenia opartego na krzywych Pearsona II typu, metodzie opisanej przez Oldsa[uwaga 11]Szablon:Odn. Najdokładniejsze wyniki przynosi przybliżenie oparte na skorygowanym przy pomocy szeregu Edgewortha rozkładzie normalnymSzablon:Odn. Implementację tego przybliżenia jako funkcję w programie Mathematica można znaleźć w pracy. Tam też dokonano porównania różnych metod aproksymacji statystyki SpearmanaSzablon:Odn.
Istnieją też stabelaryzowane rozkłady korelacji rangowej dla innych założeń, np. Odpowiednie tabele podaje praca Fritza i Henze’aSzablon:Odn.
Związki z innymi współczynnikami i metodami statystycznymi
Współczynnik korelacji Pearsona
Współczynniki te określają innego rodzaju zależność między zmiennymi (Pearson – zależność liniową, Spearman – dowolną monotoniczną), czasem jednak korelacja rang jest używana jako odporna wersja klasycznego współczynnika korelacji PearsonaSzablon:Odn. W takiej roli widział ją zresztą sam SpearmanSzablon:Odn.
Jest to uzasadnione w przypadku zakładanej liniowej zależności między zmiennymi w warunkach zanieczyszczenia próby obserwacjami odstającymi. Korelacja rangowa jest bowiem znacznie bardziej odporna na obserwacje odstające, które potrafią skrajnie zaburzyć wynik zwykłego współczynnika korelacji Pearsona[uwaga 3][2]. Wartości tych dwóch współczynników nie są jednak wtedy równe – korelacja rangowa daje na ogół (nie zawsze) wyniki nieco bliższe zeru.
W szczególności dla dwuwymiarowego rozkładu normalnego zachodziSzablon:Odn:
gdzie:
- – współczynnik korelacji Spearmana pomiędzy zmiennymi (wzór Szablon:LinkWzór),
- – współczynnik korelacji Pearsona pomiędzy zmiennymi.
Zależność ta jest ścisła przy braku rang wiązanych i nieskończonej populacji. Dla skończonej próby zależność między estymatorami Spearmana i Pearsona różni się od tego wyidealizowanego przypadku. Wartość oczekiwana wynosi wtedy dla każdego z podanych estymatorówSzablon:Odn:
Współczynnik korelacji rang Spearmana jest więc estymatorem obciążonym (także asymptotycznie) i niezgodnym współczynnika korelacji Pearsona. Naturalnie na tej samej zasadzie współczynnik korelacji Pearsona będzie obciążonym, niezgodnym i nieefektywnym estymatorem korelacji rangowej SpearmanaSzablon:Odn.
Rho Spearmana jest też przy założeniu rozkładu dwuwymiarowego normalnego mniej efektywne niż współczynnik korelacji Pearsona liczony klasycznym wzorem, bez rangowania. Dla dwuwymiarowego rozkładu normalnego błąd standardowy korelacji Pearsona liczonej za pomocą wzoru:
(gdzie to dowolny z estymatorów rho Spearmana), jest ok. 1,88 raza większy od błędu korelacji liczonej za pomocą klasycznego wzoru bez rangowaniaSzablon:Odn:
Jednak, gdy obserwacje nie spełniają założenia o normalności rozkładu, szczególnie gdy pojawiają się obserwacje odstające, wzór Szablon:LinkWzór często daje lepsze oszacowanie korelacji liniowej. Jeszcze dokładniejszy jest współczynnik tau KendallaSzablon:Odn.
Współczynnik korelacji Pearsona nie zakłada żadnej postaci rozkładu porównywanych zmiennych, jednak wzory na jego istotność statystyczną zakładają już dwuwymiarowy rozkład normalny. W wielu przypadkach warunek ten nie jest spełniony i nie da się łatwo sprawdzić, czy wyniki korelacji Pearsona są przejawem rzeczywistej zależności. Istotność współczynnika korelacji rangowej daje się zawsze określić, gdyż rozkład rang nie zależy od rozkładu porównywanych zmiennych, o ile nie ma rang wiązanych, a nawet wtedy testy istotności nie są znacząco zaburzoneSzablon:Odn.
Inne miary korelacji rangowej
Korelacja rangowa to szersze pojęcie niż korelacja rang Spearmana. Korelacja to ogólnie w statystyce zależność zmiennych losowych. Miary tej zależności wyliczane na bazie rang zwane są miarami korelacji rangowej.
Wymienione poniżej miary nie są jednak uznawane za estymatory korelacji rang Spearmana – są odrębnymi współczynnikami o odrębnej interpretacji. Istnieją też inne, nie wymienione tutaj, współczynniki korelacji rangowej.
- Miara Spearmana
Miara Spearmana (ang. Spearman’s footrule[9]) to współczynnik zaproponowany w tej samej pracy, co rho SpearmanaSzablon:Odn, liczony podobnie jak we wzorze Szablon:LinkWzór, jednak z wartością bezwzględną w miejsce kwadratu i z wynikającą z tego inną normalizacją:
Jak pokazał Pearson[10], współczynnik ten nie ma dobrych własności statystycznych, w szczególności choć osiąga +1, nie osiąga nigdy wartości -1, z wyjątkiem przypadku Szablon:Odn.
- Tau Kendalla
Inną miarą korelacji rangowej dwóch zmiennych jest tzw. tau Kendalla. Między tymi wartościami zachodzą nierównościSzablon:Odn[3]:
Podawane jest też grubsze oszacowanieSzablon:Odn:
Można też pokazać, że jeśli przedstawić łączny rozkład dwuwymiarowy zmiennych i w postaci unormowanej do jedności macierzy prawdopodobieństwa o elementach wówczas obydwie te wielkości dają się przedstawić za pomocą średnich ważonych z minorów stopnia drugiegoSzablon:Odn. W tym ujęciu rho Spearmana jest ważonym współczynnikiem tau Kendalla.
gdzie:
Kendall i Stuart pokazali[11], że dla niezależnych zmiennych korelacja między tau i rho wynosi co najmniej 0,98 i dąży do 1 dla (Wspólny rozkład tau Kendalla i rho Spearmana w swojej monografii podaje Kendall.) Nie oznacza to jednak, że ich wyniki są proporcjonalne dla zmiennych zależnych, a dla takich właśnie na ogół liczy się korelację.
Uogólnienia rho Spearmana
- Chi kwadrat Friedmana
Rho Spearmana jest znormalizowaną i przeskalowaną do przedziału miarą chi kwadrat Friedmana dla dwóch zmiennych. Jeśli wartość chi kwadrat Friedmana wynosi to[12]
- L Page’a
Kolejnym uogólnieniem rho Spearmana na przypadek wielu zmiennych jest test L Page'a. Korelację rangową można stosować jako metodę sprawdzania, czy zmienna ma ten sam porządek rang co zmienna Test L Page’a podaje z jakim prawdopodobieństwem ciąg zmiennych ma pewne zadane ustawienie. Jego wynik można też podać w formie współczynnika z zakresu który dla sprowadza się do korelacji rang Spearmana[13].
Analiza odpowiedniości oparta na rho Spearmana
Klasyczna analiza odpowiedniości (inna nazwa: analiza korespondencji) jest metodą statystyczną, która wszystkim możliwym wartościom dwóch zmiennych nominalnych przyporządkowuje takie liczby (tzw. skory), aby przy pewnych założeniach maksymalizować współczynnik korelacji Pearsona między tymi zmiennymi.
Istnieje odpowiednik klasycznej analizy odpowiedniości, zwany gradacyjną analizą odpowiedniości (ang. Grade Correspondence Analysis; GCA), który maksymalizuje rho Spearmana[14] lub tau Kendalla[15].
Krytyka
Te same własności rho Spearmana, które zwolennicy metod rangowych uważają za zalety, przeciwnicy mają za wady. Sam Spearman, który traktował swój współczynnik wyłącznie jako odporne na obserwacje odstające przybliżenie korelacji Pearsona, uważał za wadę fakt, że mierzy ona także zależność nieliniowąSzablon:Odn.
Twórca klasycznego współczynnika korelacji, Karl Pearson, krytykował niezależność od rozkładu korelacji rang:
Przy okazji tej krytyki pierwszy raz w historii użyto określenia „korelacja rangowa”[16].
Historia
Pomysł korelowania rang był już znany przed Spearmanem i pochodził od Bineta i Henriego[17]. Redakcja czasopisma Biometrika w przypisie pracy Studenta zaznaczyła, że „ich wywód był bardzo niejasny i chyba nie zauważyli, że korelacja zmiennych różni się od korelacji rang”[18].
Współczynnik został solidnie opisany, zbadany i rozpropagowany dopiero w 1904 przez angielskiego psychologa Charlesa SpearmanaSzablon:Odn[uwaga 12]. Praca Spearmana była opisem różnych metod korelacji dla psychologów, m.in. korelacji Pearsona dla rang (choć Spearman nie zapisał swojej metody w postaci wzoru). Autor zauważył też, że w wielu badaniach nie da się zastosować klasycznego współczynnika korelacji Pearsona lub daje on nieistotne albo fałszywie istotne wyniki ze względu na nadmiar obserwacji odstających, natomiast problemy te znikają po rangowaniuSzablon:Odn. Nadal traktował jednak korelację rang jedynie jako poszerzenie możliwości współczynnika korelacji Pearsona, choć znał różnice między nimi.
Koncepcja rang wiązanych nie była jeszcze znana w początkach XX wieku – została ona wprowadzona później przez PearsonaSzablon:Odn. Wówczas znany był już wzór Szablon:LinkWzór, wyprowadzony naturalnie przy założeniu braku rang wiązanych. Student (William Sealy Gosset) w pracy z 1921 zauważył, że wzór Szablon:LinkWzór nie zgadza się z definicją Spearmana w przypadku rang wiązanych (sprowadzającą się wówczas do wzoru Szablon:LinkWzór) i podał wzór Szablon:LinkWzór, wyprowadził też wzór na wariancję korelacji rangowej.
W 1948 Maurice Kendall napisał monografię Rank Correlation Methods, w której szczegółowo zbadał własności rho Spearmana i związki z własnym współczynnikiem tau Kendalla.
Nacisk Spearmana na budowę stabilnych metod statystycznych, niezależnych od konkretnych parametrów rozkładu, został uogólniony w filozofii nauki do tzw. zasady Spearmana (ang. Spearman’s Principle)[19]:
Podejście to dało początek całej nowej dziedzinie statystyki, zwanej statystyką odpornościową (ang. robust statistics[uwaga 13]), zajmującej się budową metod statystycznych odpornych na obserwacje odstające.
Oznaczenia
W literaturze spotyka się różne oznaczenia korelacji rang Spearmana: Szablon:Układ wielokolumnowy
Zobacz też
Uwagi
Przypisy
Bibliografia
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj książkę
- Szablon:Cytuj książkę
- Szablon:Cytuj
- Szablon:Cytuj książkę
- Szablon:Cytuj książkę
- Szablon:Cytuj książkę
- Szablon:Cytuj
- Szablon:Cytuj książkę
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj
- Szablon:Cytuj książkę
Linki zewnętrzne
- Szablon:Cytuj stronę – internetowy kalkulator obliczający korelację rangową według wzorów Szablon:LinkWzór i Szablon:LinkWzór.
- Szablon:Cytuj stronę – przykład zastosowania korelacji rangowej do badania zależności cen w Barcelonie od położenia sklepu w mieście
Szablon:Kontrola autorytatywna
- ↑ 1,0 1,1 1,2 1,3 Szablon:Odn.
- ↑ 2,0 2,1 2,2 Szablon:Cytuj pismo
- ↑ 3,0 3,1 Szablon:Cytuj pismo
- ↑ 4,0 4,1 Szablon:Cytuj książkę
- ↑ 5,0 5,1 Szablon:Cytuj książkę
- ↑ 6,0 6,1 6,2 6,3 6,4 Szablon:Odn.
- ↑ Szablon:Odn. Cytat: „Czasami można napotkać w zastosowaniach także inne wzory. Na przykład wzór Szablon:LinkWzór [w oryginale 11.16] stosuje się czasem bez zmian do rang połączonych. Jest to z pewnością błędem”.
- ↑ Dane do wykresu z Szablon:Odn
- ↑ Tłumaczenie nazwy za: słownik International Statistical Institute.
- ↑ Szablon:Cytuj książkę
- ↑ Szablon:Cytuj książkę
- ↑ Szablon:Cytuj stronę
- ↑ Szablon:Cytuj stronę
- ↑ Szablon:Cytuj pismo
- ↑ Szablon:Cytuj pismo
- ↑ Szablon:Cytuj stronę
- ↑ Szablon:Cytuj książkę,
Szablon:Cytuj książkę,
podane za pracą Studenta wymienioną w bibliografii. - ↑ Oryg. Their process is very obscure and they also do not appear to have realised that the correlation of variates is not that of ranks.
- ↑ Błąd rozszerzenia cite: Błąd w składni znacznika
<ref>; brak tekstu w przypisie o nazwiePrinciple
Błąd rozszerzenia cite: Istnieje znacznik <ref> dla grupy o nazwie „uwaga”, ale nie odnaleziono odpowiedniego znacznika <references group="uwaga"/>