Model statystyczny

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania

Model statystycznyhipoteza lub układ hipotez, sformułowanych w sposób matematyczny (odpowiednio w postaci równania lub układu równań), który przedstawia zasadnicze powiązania występujące pomiędzy rozpatrywanymi zjawiskami rzeczywistymi.

Bardziej formalnie jest to parametryzowana rodzina rozkładów łącznych rozważanych zmiennych, stąd druga nazwa przestrzeń statystyczna.

Modele statystyczne używane w ekonometrii noszą nazwę modeli ekonometrycznych.

Formalna definicja matematyczna

Niech

𝒫={Pθ:θΘ}

będzie rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby 𝒳, indeksowaną parametrem θ (w szczególności może to być wektor parametrów rzeczywistych). Pθ opisuje wielowymiarowy łączny rozkład wszystkich obserwacji w próbie X.

Formalnie model statystyczny to para:

(𝒳,{Pθ:θΘ}).

Niech próba opisywana przez rozkład Pθ będzie wektorem X=(X1,X2,,Xn) niezależnych zmiennych losowych z których każda ma rozkład Pθ a jej zbiorem wartości jest 𝒳. X nazywany jest n-elementową próbą z rozkładu Pθ.

W takim przypadku stosowany jest również zapis

(𝒳,{Pθ:θΘ})n.

W praktycznych zastosowaniach podaje się po prostu warunek, jaki spełniają rozkłady z rodziny 𝒫. Zmienne losowe występujące w tym warunku determinują przestrzeń próby 𝒳, a parametry tworzą wektor θ.

Model nieparametryczny

Model nieparametryczny to model w którym nie istnieje skończenie wymiarowa parametryzacja rodziny rozkładów, czyli nie da się go zapisać w takiej postaci, że

Θk,k.

Nie oznacza to braku jakiejkolwiek parametryzacji – to byłoby sprzeczne z definicją modelu statystycznego – np. Θ może być rodziną dystrybuant.

Model identyfikowalny

Jeśli zachodzi:

θ1θ2Pθ1Pθ2,

to model nazywany jest identyfikowalnym. Oznacza to, że parametr θ jest jednoznacznie wyznaczony przez rozkład Pθ.

Modele liniowe

Ogólna postać liniowego modelu o G równaniach łącznie współzależnych i tylu zmiennych endogenicznych (objaśnianych) oraz K dodatkowych zmiennych egzogenicznych (objaśniających) przy liczbie t obserwacji:

Y1t=α10+α11X1t+α12X2t++α1KXKt+β12Y2t+β13Y3t++β1GYGt+ξ1t

Y2t=α20+α21X1t+α22X2t++α2KXKt+β21Y1t+β23Y3t++β2GYGt+ξ2t

YGt=αG0+αG1X1t+αG2X2t++αGKXKt+βG1Y1t+βG2Y2t++βGG1YG1t+ξGt

Linia trendu

Najprostszym modelem stosowanym w prognozie jest linia trendu, w której zakładamy następującą zależność między zmienną objaśniającą t (oznaczającą czas) a zmienną objaśnianą Y:

Y=at+b+ε,

gdzie:

a,b – stałe współczynniki,
εbłąd losowy o rozkładzie normalnym i wartości oczekiwanej zero.

Liniowy model prawdopodobieństwa

Jako przykład klasycznych modeli liniowych rozpatrywanych w statystyce wskazać można również liniowy model prawdopodobieństwa (LMP), tj. najprostszy model regresji pozwalający prognozować występowalność rozpatrywanego zdarzenia. Model ten przyjmuje postać:

yt=β0+β1xt1+β2xt2++βkxtk+ξt,

gdzie:

yt – reprezentująca rozpatrywane zjawisko zmienna objaśniana,
xt1,xt2,,xtk – zmienne objaśniające,
β1,β2,,βk – parametry modelu,
ξt – odchylenie losowe modelu.

LMP szacować metodą najmniejszych kwadratów (MNK), jednakże nie zostaną w jego przypadku spełnione klasyczne warunki stosowalności MNK – determinuje to podstawowe wady modelu, do których zalicza się:

  • możliwość wykroczenia zmiennej zależnej poza wartości z przedziału <0; 1>;
  • heteroskedastyczność – brak homoskedastyczności przekłada się na błędne wyniki statystyki testowej (oszacowania modelu mogą zostać skorygowane w tym zakresie za pomocą uogólnionej metody najmniejszych kwadratów);
  • niespełnienie warunku normalności rozkładu zakłóceń losowych – reszty modelu nie mają rozkładu zgodnego z rozkładem normalnym[1].

Modele nieliniowe

Przykładowym równaniem nieliniowym może być znany w ekonomii model (typu) Cobba-Douglasa.

Systematyka

Szablon:Dopracować Modele statystyczne dzielą się m.in. na:

  • jedno- i wielorównaniowe (z więcej niż jedną zmienną endogeniczną)
  • przyczynowo-skutkowe i symptomatyczne
  • statyczne i dynamiczne (autoregresyjne, trendu)
  • proste, rekurencyjne i o równaniach łącznie współzależnych.
  • liniowe i nieliniowe
  • klasyczne i bayesowskie

Można wyróżnić następujące typy modeli:

  • modele klasy ARMA (auto-regression with moving average) i ARIMA (auto-regression integrated with moving average)
  • modele korekty błędu (ECM – error correction model)
  • VAR (modele wektorowej autoregresji) i modyfikacje
    • VAR (vector auto-regression)
    • VARMA (vector autoregression with moving average)
    • VEC (vector error correction)
  • modele panelowe
  • Modele równowagi ogólnej
    • CGE (computable general equilibrium)
    • DCGE (dynamic computable general equilibrium)

Metody doboru zmiennych i postaci modelu

Szablon:Dopracować

Powyższe metody wykorzystywane przy specyfikacji modeli ekonometrycznych są kontrowersyjne a ich naukowość jest kwestionowana.

W praktyce przy doborze zmiennych objaśniających należy kierować się na wstępie zdrowym rozsądkiem i teorią dotyczącą badanego zagadnienia.

Dobór zmiennych zależy również od jakości oszacowania modelu przy danych zmiennych (wykazany brak spełnienia założeń użytej metody estymacji, takie jak dla KMNK heteroskedastyczność, autoregresyjność czy brak rozkładu normalnego reszt, wskazuje na konieczność użycia innego zestawu zmiennych objaśniających). W ten sposób budowa finalnego modelu ma charakter iteracyjny.

Specyficznym przypadkiem są modele trendu, których postać ustalana jest w sposób najbardziej techniczny, na podstawie parametrów dopasowania modelu oraz tak zwanych kryteriów informacyjnych (najbardziej znane z nich: Akaike i Schwarza).

Metody estymacji parametrów modelu

Do estymacji parametrów modelu często stosowane są metody regresji statystycznej. Szablon:Sekcja stub

Badanie jakości modelu regresyjnego

W celu oceny jakości modelu stosuje się rozmaite testy statystyczne badające jego własności. Dobór testów powinien zależeć od przewidywanego zastosowania modelu (najczęstsze to wyjaśnianie oraz prognozowanie).

Najczęstszym zadaniem testów jest sprawdzenie spełnienia założeń przyjętych w użytej metodzie estymacji (najczęściej dotyczą one rozkładu błędów losowych). Inne testy mają za zadanie ocenę stabilności czy dopasowania modelu.

W szczególności, można wyróżnić następujące własności modelu najczęściej badane za pomocą testów statystycznych:

  • rozkład błędów losowych
    • autokorelacja
    • homoskedastyczność
    • niezależność
  • dopasowanie
  • postać modelu (np. liniowa)
  • jakość prognoz
  • stabilność

Mierniki dopasowania

Współczynnik determinacji

R2=t=1n(y^ty)2t=1n(yty)2,

gdzie:

yt – wartość zmiennej Y w momencie t,
y^t – wartość teoretyczna zmiennej Y w momencie t,
y – wartość średnia zmiennej Y w szeregu czasowym.

Współczynnik determinacji informuje o dopasowaniu liniowego modelu regresji do danych empirycznych. Przyjmuje wartości z przedziału [0;1] jeśli w modelu występuje wyraz wolny, a do estymacji parametrów wykorzystano metodę najmniejszych kwadratów. Im wartość bliższa jedności, tym lepsze dopasowanie.

Skorygowany współczynnik determinacji

Kiedy wartość R2 chce się wykorzystać do porównywania jakości kilku modeli, w których liczba zmiennych objaśniających jest różna, stosuje się skorygowany współczynnik determinacji:

R~2=1n1nm1(1R2),

gdzie:

R2współczynnik determinacji,
n – liczba obserwacji,
m – liczba zmiennych objaśniających (bez zmiennej przy wyrazie wolnym).

Odchylenie standardowe składnika resztowego

Wartość odchylenia standardowego składnika resztowego informuje o przeciętnych odchyleniach wartości rzeczywistych zmiennej prognozowanej od teoretycznych. Im wartości mniejsze, tym lepszy model.

s=[1nm1t=1n(yty^t)2],

gdzie:

n – liczba obserwacji,
m – liczba zmiennych objaśniających (bez zmiennej przy wyrazie wolnym),
yt – wartość zmiennej Y w momencie t,
y^t – wartość teoretyczna zmiennej Y w momencie t.

Współczynnik zmienności

Ve=sy100,

gdzie:

sodchylenie standardowe składnika resztowego,
y – wartość średnia zmiennej Y w szeregu czasowym.

Współczynnik zmienności informuje o tym, jaką część wartości średniej zmiennej objaśnianej stanowi odchylenie standardowe składnika resztowego. Im mniejsza wartość tego współczynnika, tym model jest lepszy.

Badanie istotności parametrów modelu

Badanie istotności parametrów modelu jest próbą stwierdzenia istotności wpływu zmiennych objaśniających na zmienną objaśnianą. Zakładając, że składnik losowy ma rozkład normalny, należy zweryfikować hipotezę o istotności każdego parametru. Nieistotność parametru nie znaczy jednak automatycznie, że zmienną należy usunąć z modelu[2].

H0:[αi=0],
H1:[αi0],

gdzie:

αi – parametr przy i-tej zmiennej objaśniającej,
H0i-ta zmienna objaśniająca nieistotnie wpływa na zmienną objaśnianą,
H1i-ta zmienna objaśniająca istotnie wpływa na zmienną objaśnianą.

Aby sprawdzić prawdziwość hipotezy zerowej wyznacza się statystykę testową:

ti=aiD(ai),i=0,1,,m,

gdzie:

ai – ocena parametru przy i-tej zmiennej objaśniającej,
D(ai) – błąd oceny i-tego parametru (pierwiastek odpowiedniego elementu macierzy D2(a)).

Wartość ai wyznacza się ze wzoru:

a=(XTX)1XTy,

gdzie:

Xmacierz zmiennych objaśniających,
XTtransponowana macierz X,
ywektor obserwacji zmiennej objaśnianej.

Błąd D(ai):

D2(a)=s2(XTX)1,

gdzie:

s2 – kwadrat odchylenia standardowego składnika resztowego.

Następnie należy odczytać wartość krytyczną tα z tablic rozkładu t-Studenta dla zadanego z góry poziomu istotności α i nm1 stopni swobody. Jeżeli

|ti|>tα,

to hipotezę zerową odrzuca się na rzecz alternatywnej. Jeśli jednak

|ti|tα,

wtedy nie ma podstaw do odrzucenia hipotezy zerowej.

Wymienione powyżej metody badania jakości modelu są najczęściej stosowanymi.

Zobacz też

Przypisy

Szablon:Przypisy

Bibliografia

Szablon:Kontrola autorytatywna