Paradoks Berksona

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania
Ilustracja przedstawia dwie wersje wykresu zestawiającego ocenę jakości burgerów i frytek w kilku restauracjach. Górny wykres przedstawia cały zbiór przykładowych danych, w którym widoczna jest pozytywna korelacja. Dolny wykres przedstawia zbiór ograniczony do lokalizacji cechujących się wysoką oceną co najmniej jednej potrawy. Obcięcie rozkładu do skrajnych przypadków sprawia, że obserwowana jest w tym przypadku pozorna negatywna korelacja.
Ilustracja paradoksu Berksona na przykładzie jakości burgerów i frytek w restauracjach. Górny wykres przedstawia rzeczywisty rozkład, w którym obserwuje się pozytywną korelację. Osoba, która omija miejsca, w których zarówno frytki, jak i burgery są niskiej jakości, obserwuje tylko wycinek tego rozkładu – przedstawiony na dolnym wykresie – w którym może stwierdzić pozorną negatywną korelację.

Paradoks Berksona – rezultat z obszaru prawdopodobieństwa warunkowego w statystyce, który jest pozornym paradoksem – wydaje się sprzeczny z intuicją. Polega na sztucznym powstawaniu prawdopodobieństwa zależnego pomiędzy niepowiązanymi zmiennymi – lub, w przypadku powiązanych zmiennych, odmiennej od oryginalnej relacji warunkowej – gdy podjęcie ich porównania jest uwarunkowane ich wartościami. Powstała w ten sposób pozorna korelacja nie przekłada się na żaden zewnętrzny i realny związek przyczynowo-skutkowy. Paradoks Berksona występuje w praktyce w szczególności jako konsekwencja przeoczonego błędu selekcji w doborze do próby w estymacji i testach statystycznych, komplikując realizację tych celów.

Podstawowym przykładem paradoksu Berksona jest stwierdzenie pozornej, negatywnej korelacji pomiędzy dwiema pozytywnymi cechami – tj. u jednostek posiadających wyższy poziom jednej z tych cech można oczekiwać niższego poziomu drugiej. Taką zależność można wykryć zarówno gdy w rzeczywistości czynniki te są niepowiązane, jak i nawet wtedy, kiedy ich korelacja w populacji jest pozytywna. Dzieje się tak wówczas, gdy analiza nie obejmuje w sposób reprezentatywny całej populacji, ale jedynie jej podgrupę (na przykład ze względu na wygodny dostęp czy błąd przeżywalności), która charakteryzuje się warunkowo obciętym rozkładem przynajmniej jednej z tych cech.

Paradoks jest opisywany między innymi w obszarze statystyki medycznej i biostatystyki, jak w oryginalnym przedstawieniu problemu autorstwa Josepha Berksona[1].

Opis formalny

Dwa niezależne zdarzenia losowe stają się warunkowo zależne (negatywnie), jeśli warunkujemy ich rozpatrywanie względem tego, że przynajmniej jedno miało miejsce. Symbolicznie, jeżeli

  • zdarzenie A i zdarzenie B mogą, ale nie muszą wystąpić,

0<P(A)<1

0<P(B)<1

  • a prawdopodobieństwo obu zdarzeń jest niezależne, to znaczy wystąpienie jednego nie zmienia szansy na drugie,

P(A|B)=P(A)

wówczas:

  • prawdopodobieństwo wystąpienia jednego ze zdarzeń, pod warunkiem że wystąpiło drugie, jest wyższe niż jego bezwarunkowe prawdopodobieństwo,

P(A|B(AB))<P(A)

  • prawdopodobieństwo wystąpienia dowolnego ze zdarzeń, pod warunkiem że wystąpiło którekolwiek z nich, jest oczywiście zawyżone,

P(A|(AB))>P(A)

Prawdopodobieństwa te są artefaktem kryterium warunkującego; choć w sensie matematycznym są prawdziwe, nie odzwierciedlają żadnego rzeczywistego związku przyczynowego.

Przykłady

Oryginalny przypadek opisany przez Berksona dotyczył retrospektywnej analizy cukrzycy jako potencjalnego czynnika ryzyka zapadnięcia na zapalenie pęcherzyka żółciowego w próbie statystycznej dobranej z populacji osób hospitalizowanych. Ponieważ populacja ta jest z definicji szczególnym podzbiorem wszystkich ludzi, taka konstrukcja analizy grozi odkryciem pozornej zależności pomiędzy dowolną chorobą i czynnikiem ryzyka. Berkson zauważył, że nawet samo ograniczenie uwagi do osób cierpiących na jakąkolwiek chorobę zniekształca wyniki porównania. W przypadku rozpatrywania pacjentów szpitalnych pozorna korelacja może nabierać różnej siły i znaku, zależnie od tego z jaką częstością konkretne zaburzenie wiąże się z hospitalizacją[1].

Matematyk Jordan Ellenberg przedstawił w artykule popularnonaukowym przykład dotyczący codziennych relacji: Przyjmijmy, że Aleksandra zawiera związki tylko z mężczyznami, których dobry charakter „plus” przystojność przekraczają jakąś wysoką wartość progową. Innymi słowy, mili mężczyźni nie muszą być bardzo przystojni, i vice versa, by mieć szanse u Aleksandry. W konsekwencji tego spośród mężczyzn, z jakimi miała ona bliskie relacje, mogła zaobserwować negatywną korelację: im mężczyzna przystojniejszy, tym gorszym charakterem się cechuje – niezależnie od tego, czy taka współzmienność naprawdę występuje w ogólnej populacji. Korelacja taka ma także znacząco oddalony od populacyjnych tendencji centralnych przebieg: należący do preferowanej podgrupy wyjątkowo mili mężczyźni są na tle ogólnej populacji ponadprzeciętnie przystojni (i vice versa); zaostrzenie kryteriów spowodowałoby jedynie nasilenie paradoksalnego rezultatu[2].

Przypisy

Szablon:Przypisy