Tau Kendalla

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania

Tau Kendallastatystyka będąca jedną z miar monotonicznej zależności dwóch zmiennych losowych. Służy w praktyce do opisu korelacji między zmiennymi porządkowymi.

Tau Kendalla dwóch zmiennych losowych

Ogólnie tau Kendalla jest definiowane jako[1]:

Szablon:Wzór

Można też wyrazić tau Kendalla w terminach kopuł[1]:

τ=40101C(u1,u2)dC(u1,u2)1.

Tau Kendalla z próby

Zwykle estymuje się tau Kendalla dane wzorem Szablon:LinkWzór na podstawie próby statystycznej.

Aby je obliczyć, należy zestawić obserwacje z próby we wszystkie możliwe pary, a następnie podzielić te pary na trzy możliwe kategorie:

  • pary zgodne – porównywane zmienne w obrębie tych dwóch obserwacji zmieniają się w tę samą stronę, tzn. albo w pierwszej obserwacji obydwie są większe niż w drugiej, albo obydwie mniejsze. Liczba takich par w próbie będzie dalej oznaczana przez P.
  • pary niezgodne – zmienne zmieniają się w przeciwną stronę, to znaczy jedna z nich jest większa dla tej obserwacji w parze, dla której druga jest mniejsza. Liczba takich par w próbie będzie oznaczana przez Q.
  • pary wiązane – jedna ze zmiennych ma równe wartości w obydwu obserwacjach. Liczba takich par w próbie będzie oznaczana przez T.

Estymator tau Kendalla obliczany jest wówczas ze wzoru:

τ=PQP+Q+T.

Warto zauważyć, że:

P+Q+T=(N2)=N(N1)2,

gdzie N to liczność próby, tak więc wzór ten można przedstawić w postaci:

τ=2PQN(N1).

Interpretacja

Tau Kendalla stanowi różnicę między prawdopodobieństwem, że porównywane zmienne będą układały się w tym samym porządku dla dwóch obserwacji, a prawdopodobieństwem, że ułożą się w przeciwnym porządku.

Tau Kendalla przyjmuje wartości od –1 do 1 włącznie. +1 oznacza, że każda ze zmiennych rośnie przy wzroście drugiej. –1 oznacza że każda maleje przy wzroście drugiej. Tym samym tau Kendalla, podobnie jak korelacja rangowa i rho Spearmana jest miarą monotonicznej zależności zmiennych losowych.

Ponieważ liczba par zgodnych, niezgodnych i wiązanych, a zatem również wartość tau nie zmienia się pod wpływem rangowania, tau Kendalla można uważać za jedną ze statystycznych metod rangowych.

Istotność statystyczna

Istotność statystyczna wyniku tau Kendalla jest równa jeden minus prawdopodobieństwo, że taki wynik może powstać przypadkowo dla zmiennych niezależnych. Ponieważ tau Kendalla jest metodą rangową, a rozkład rang jest niezależny od rozkładu zmiennych rangowanych (o ile nie ma rang wiązanych), więc określenie istotności nie wymaga żadnych założeń odnośnie do rozkładów w próbie.

Szablon:Wikiźródła Dla małych prób tablice podają Siegel i Castellan (1988). Rozkład tau bardzo szybko dąży do rozkładu normalnego, więc dla prób N10 można już stosować rozkład normalny (Hays 1988).

Wersje

Tau Kendalla ma dobrą interpretację i właściwości statystyczne, jednak wartości 1 i –1 nie wystąpią, gdy którakolwiek z porównywanych zmiennych ma tę samą wartość dla dwóch obserwacji. Intuicyjnie wydawałoby się, że miara pokazująca zależność dwóch zmiennych powinna dawać maksymalną wartość (czyli tu 1) jeśli porównamy jakąś zmienną z nią samą. W przypadku tau Kendalla nie będzie to jednak prawda, o ile zmienna przyjmie dla dwóch obserwacji tę samą wartość.

Zaproponowano szereg innych estymatorów z próby tau Kendalla, które nie mają tej właściwości. Dwa z nich, nazywane są tau-b i tau-c. Dla odróżnienia miara opisana wcześniej nazywana bywa tau-a. Miary te różnią się wartością tylko w przypadku występowania par wiązanych.

Współczynnik tau-b (τB) zdefiniowany w następujący sposób[2][3]:

τB=PQ(n0n1)(n0n2),

gdzie P to liczba par zgodnych, Q to liczba par niezgodnych, n0 to liczba wszystkich par (n0=N(N1)/2), zaś n1 i n2 wyznaczone są dla wartości wiązanych za pomocą następujących wzorów:

n1=iti(ti1)/2, gdzie ti to liczba powiązanych wartości pierwszej zmiennej dla i-tej grupy wiązań
n2=juj(uj1)/2, gdzie uj to liczba powiązanych wartości pierwszej zmiennej dla j-tej grupy wiązań

Współczesne języki programowania stosowane do analizy danych, takie jak R lub Python, stosują domyślnie wersję tau-b[4][5].

Tau-c (τC), znane również pod nazwą Tau-c Stewarta-Kendalla, zalecane gdy liczba wiązań jest duża i różna w przypadku obu zmiennych, zdefiniowane jest następująco[6]:

τC=2(PQ)N2(m1)m=τAN1Nmm1,


gdzie m to mniejsza z dwóch liczb: liczby unikalnych wartości pierwszej zmiennej i liczby unikalnych wartości drugiej zmiennej.

Związki z innymi miarami

Współczynnik korelacji

Współczynnik korelacji Pearsona służy do oceny liniowej zależności pomiędzy dwiema zmiennymi. Tau Kendalla mierzy zależność monotoniczną. Współczynniki te mierzą co innego, więc ich wartości nie są bezpośrednio porównywalne.

Tau Kendalla jako metoda rangowa jest odporne na obserwacje odstające, w przeciwieństwie do współczynnika korelacji.

Tau Kendalla jako metoda nieparametryczna nie czyni żadnych założeń dotyczących rozkładu zmiennych w populacji, nadaje się zatem do dowolnych rozkładów. Współczynnik korelacji ma poprawne wyprowadzenie matematyczne tylko dla wielowymiarowego rozkładu normalnego, dla innych rozkładów może nie mieć sensownej interpretacji, niepoprawnie działają również testy istotności statystycznej.

Rho Spearmana

Tau Kendalla i rho Spearmana to dwie miary zależności monotonicznej zmiennych losowych. Inne jest jednak ich wyprowadzenie i interpretacja. Tau Kendalla należy interpretować w kategoriach prawdopodobieństwa, natomiast rho Spearmana należy interpretować w kategoriach procentu wariancji rang jednej zmiennej, wyjaśnianej przez drugą zmienną.

Między tymi wartościami zachodzi nierówność[7][1]:

32τ12ρ12+τ12τ2 dla τ0,
12τ2+τ12ρ32τ+12 dla τ0.

Podawane jest też[8][9] grubsze oszacowanie: 13τ2ρs1.

Można też pokazać, że jeśli przedstawimy łączny rozkład dwuwymiarowy zmiennych X i Y w postaci unormowanej do 1 macierzy prawdopodobieństwa m×k o elementach [pij], wówczas obydwie te wielkości dają się przedstawić za pomocą średnich ważonych z minorów stopnia drugiego (Kowalczyk 2000):

τ=i=1m1q=i+1mj=1k1r=j+1k2|pijpirpqjpqr|,
ρ=i=1m1q=i+1mj=1k1r=j+1kwijqr|pijpirpqjpqr|,

gdzie:

wijqr=12(Scrow(q)Scrow(i))(Sccol(r)Sccol(j)),

a Scrow i Sccol to tzw. skory gradacyjne (grade scores):

Scrow(i)=(a=1i1b=1kpab)+12b=1kpib,
Sccol(j)=(a=1mb=1j1pab)+12a=1mpaj.

Analiza odpowiedniości oparta na tau

Klasyczna analiza odpowiedniości (inna nazwa: analiza korespondencji) jest metodą statystyczną, która wszystkim możliwym wartościom dwóch zmiennych nominalnych przyporządkowuje takie liczby (tzw. scory), aby przy pewnych założeniach maksymalizować współczynnik korelacji Pearsona między tymi zmiennymi.

Zespół prof. Elżbiety Pleszczyńskiej opracował odpowiedniki klasycznej analizy odpowiedniości, zwane gradacyjną analizą odpowiedniości (GCA), które maksymalizują rho Spearmana oraz tau Kendalla[10].

Zobacz też

Przypisy

Szablon:Przypisy

Bibliografia