Macierz układu

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania

Macierz układu[1] (także macierz modelu[2], macierz regresorów, macierz planu eksperymentu, macierz zmiennych objaśniających[3], macierz obserwacji[4], macierz projektowa[5], ang. design matrix) – wykorzystywana w modelowaniu statystycznym macierz zawierająca wartości zmiennych objaśniających dla zebranych obserwacji, najczęściej oznaczana przez X. Macierz układu stosowana jest np. w analizie regresji lub w analizie wariancji[6][7][8]. Każdy wiersz reprezentuje pojedynczy obiekt, a kolejne kolumny odpowiadają zmiennym. Macierz może zawierać zmienne ilościowe, a także zero-jedynkowe zmienne sztuczne wskazujące na przynależność obiektu do danej grupy; może również zawierać kolumnę z samymi jedynkami.

Zaletą koncepcji macierzy układu jest to, że może ona znaleźć zastosowanie dla wielu różnych planów eksperymentalnych i modeli statystycznych, w tym dla analizy wariancji, analizy kowariancji i regresji liniowej.

Definicja

Macierz układu to macierz X, w której xij (element w j-tej kolumnie i-tego rzędu macierzy X) zawiera wartość j-tej zmiennej powiązanej z i-tym obiektem.

Model regresji liniowej można przedstawić w formie macierzowej:

y=Xβ+e,

gdzie X jest macierzą układu, β jest wektorem współczynników modelu (po jednym dla każdej zmiennej), e jest wektorem błędów losowych ze średnią zerową, a y jest wektorem zawierającym wartości zmiennej objaśnianej dla każdego obiektu.

Wymiary

Macierz układu ma wymiary n × p, gdzie n jest liczbą zaobserwowanych obiektów, a p jest liczbą zmiennych (cech) zmierzonych dla każdego obiektu[9][10].

Różne wiersze mogą na przykład odpowiadać kolejnym powtórzeniom eksperymentu, podczas gdy kolumny odpowiadają poszczególnym zmiennym (na przykład zastosowanym zabiegom). Załóżmy na przykład, że w eksperymecnie dziesięciu osobom zostaną zadane 4 pytania. Macierz danych M byłaby macierzą o wymiarach 10×4 (10 wierszy i 4 kolumny). W wierszu i w kolumnie j znajdzie się odpowiedź i-tej osoby na j-te pytanie.

Przykłady

Średnia arytmetyczna

Macierz układu średniej arytmetycznej jest wektorem kolumnowym jedynek.

Prosta regresja liniowa

Prosta regresja liniowa to regresja z pojedynczą zmienną objaśniającą:

yi=β0+β1xi+εi,

gdzie β0 jest wyrazem wolnym (stałą, punktem przecięcia linii regresji z osią y), a β1 określa nachylenie (jest współczynnikiem kierunkowym) linii regresji. Załóżmy, że mamy 7 obserwacji (i = 1, 2, …, 7). Model taki można przedstawić w postaci macierzowej w następujący sposób:

[y1y2y3y4y5y6y7]=[1x11x21x31x41x51x61x7][β0β1]+[ε1ε2ε3ε4ε5ε6ε7]

Macierz, której kolumny w tym przykładzie to jedynki i x, jest macierzą układu. Pierwsza kolumna w macierzy układu zawiera same jedynki i umożliwia oszacowanie wyrazu wolnego, podczas gdy druga kolumna zawiera wartości zmiennej objaśniającej x powiązane z odpowiednimi wartościami y.

Regresja wielokrotna

Załóżmy ponownie, że dane składają się z siedmiu obserwacji i dla każdej zaobserwowanej wartości zmiennej objaśnianej (yi), obserwuje się również wartości dwóch zmiennych objaśniających wi oraz xi:

yi=β0+β1wi+β2xi+εi

Model ten można zapisać w postaci macierzowej w następujący sposób:

[y1y2y3y4y5y6y7]=[1w1x11w2x21w3x31w4x41w5x51w6x61w7x7][β0β1β2]+[ε1ε2ε3ε4ε5ε6ε7]

Macierz 7×3 zawierająca jedynki, wartości wi i xi jest macierzą układu.

Jednoczynnikowa analiza wariancji

Załóżmy, że mamy model analizy wariancji (ANOVA) z trzema grupami i siedmioma obserwacjami. Zbiór danych zawiera trzy pierwsze obserwacje należące do pierwszej grupy, dwie kolejne obserwacje należące do drugiej grupy i dwie ostatnie obserwacje należące do trzeciej grupy. Model, który ma być dopasowany, sprowadza się do estymacji średniej w każdej grupie:

yij=μi+εij

W formie macierzowej można go zapisać w następujący sposób:

[y1y2y3y4y5y6y7]=[100100100010010001001][μ1μ2μ3]+[ε1ε2ε3ε4ε5ε6ε7]

W tym modelu μi reprezentuje średnią w i-tej grupie.

Jednoczynnikowa analiza wariancji z grupą odniesienia

Model ANOVA można równoważnie zapisać z wykorzystaniem parametrów grupowych τi oznaczających odstępstwo od jakiegoś poziomu odniesienia. Zwykle za odniesienie przyjmuje się jedną z rozważanych grup. Ma to sens na przykład w kontekście porównywania wielu grup poddawanych leczeniu z grupą kontrolną („grupą odniesienia”, „grupą referencyjną”). W tym przykładzie jako grupę odniesienia wskazano grupę 1. Równanie wygląda w następujący sposób:

yij=μ+τi+εij

przy czym τ1 wynosi zero. W formie macierzowej takie równanie można przedstawić w nastepujący sposób:

[y1y2y3y4y5y6y7]=[100100100110110101101][μτ2τ3]+[ε1ε2ε3ε4ε5ε6ε7]

W tym modelu μ jest średnią grupy odniesienia, zaś τi jest różnicą pomiędzy średnią w grupie i a średnią grupy odniesienia. Parametr τ1 nie jest uwzględniony w macierzy, ponieważ z konieczności wynosi zero.

Przypisy

Szablon:Przypisy