Regression analysis
Regresní analýzu si vyzkoušíme prakticky a to v programu MS Excel a IBM SPSS. Nejdříve začneme bivariační lineární regresí, tedy variabilitu závislé proměnné budeme vysvětlovat pouze jednou nezávislou proměnnou.
V rámci řešeného cvičení budeme pracovat s daty z voleb v roce 2010 na úrovni okresů a jako závislou proměnnou zvolíme procento hlasů pro KDU-ČSL a jako nezávislou proměnnou zvolíme podíl věřících.
- V prvním kroku testovat normalitu proměnných a případně navrhnout normalizaci – zjistíme, že nemají normální rozdělení a bylo by vhodné data normalizovat (v příkladu níže jsou výsledky bez normalizace, abyste mohli výsledky porovnat)
- Vlastní lineární regrese se v SPSS spouští v nabídce Analyze/Regression/Linear
- Vyberte závislou a nezávislou proměnnou a přesuňte je do patřičných kolonek
- V nabídce Save je možné vybrat možnost pro uložení celou řadu vypočtených ukazatelů, mimo jiné predikovanou hodnotu, rezidua apod.
- V nabídce Plots je možné vybrat si např. histogram standardizovaných reziduí
- Výstupem regresní analýzy jsou tři tabulky. První sumarizuje kvalitu modelu, kde nejdůležitější je koeficient korelace a koeficient determinace, kdy jsme vysvětlili 88,9 % variability závislé proměnné. Také směrodatná chyba odhadu je velice nízká vzhledem k velikosti závislé proměnné. V druhé tabulce jsou výsledky ANOVA pro zhodnocení přispění vysvětlení variability nezávislou proměnnou (v případě většího počtu proměnných je to výhodné). V poslední tabulce jsou uvedeny koeficienty pro regresní rovnici. Je vidět, že míra věřících je statisticky významná a napomáhá výrazně k vysvětlení variability.
V Excelu se regrese spouští opět z nabídky Analýza dat/Regrese. Do formuláře je potřeba definovat oblast, kde se vyskytují data pro závislou a nezávislou proměnnou a dále je možnost vybrat, co všechno bude součástí výsledku a to hlavně grafické zobrazení reziduí. Excel má implementovány také funkce pro výpočet sklonu regresní přímky – SLOPE(data závislé proměnné, data nezávislé proměnné) a průsečík s osou y – INTERCEPT(data závislé proměnné, data nezávislé proměnné).
Zadání – Z datové matice si vyberte vlastní závislou proměnnou a pokuste se vysvětlit její variabilitu vámi vybranou nezávislou proměnnou s využití lineární regrese. Využijte SPSS nebo Excel a řiďte se postupem uvedeným u řešeného cvičení.
Častěji však vysvětlujeme závislou proměnnou větším počtem nezávislých proměnných a využívá se tak vícenásobná regrese. Největším problémem v případě vícenásobné regrese je volba sady nezávislých proměnných. Na přednášce jsme si představili čtyři základní strategie. V dalším řešeném příkladě si ukážeme jak teoreticky postupovat/nepostupovat.
Řešený příklad – Budeme pokračovat s tematikou voleb a budeme vysvětlovat výsledky jiné strany, tentokráte si vyberete Piráty (opět výsledky voleb do poslanecké sněmovny z roku 2010) a hodnotit budeme procentuální podíl hlasů na úrovni okresů. Jako nezávislé proměnné máme možnost pracovat se 7 proměnnými podílem vysokoškoláků, mírou nezaměstnanosti, podílem obyvatel nad 64 let, podílem věřících, mírou podnikatelů, podíl rodáků a podíl mužů.
Jak vybrat nezávislé proměnné? Jednou ze strategií je tzv. kitchen-sink přístup, tedy vybrat všechny a uvidíme, jak to dopadne. Tento přístup NENÍ vhodný, protože samozřejmě s každou další proměnnou bude narůstat koeficient determinace, ale je důležité si uvědomit, že není cílem ho maximalizovat. Nicméně podívejme se na výsledky. Podařilo se vysvětlit 22 % variability. A vzhledem k tomu, že průměrný podíl hlasů za okres je 0,8% hlasů, tak směrodatná chyba je docela vysoká. Ze všech 7 nezávislých proměnných je statisticky významná jen jedna – podíl vysokoškoláků se záporným koeficientem a blízko hranice je také podíl věřících. Obecně je vhodnější strategie vymazat proměnné, které nejsou významné nebo přidávat jen ty proměnné, které významně zvýší hodnotu koeficientu determinace a výrazně tak zvýší vysvětlenou variabilitu.
Tím, že se rovnou vrháme na konstrukci modelu, tak můžeme často přehlédnout nedostatky v datech, jako jsou např. chybějící hodnoty, se kterými se musíme vypořádat. Dalším problémem jsou odlehlé hodnoty a multikolinearita. Odlehlé hodnoty ovlivňují kvalitu modelu a pokud je z-skóre této proměnné vyšší než 3 nebo menší než -3, tak se tento záznam většinou vynechává z modelu. Dalším možným přístupem je využití tzv. leverage hodnot. Pokud jsou větší než 2p/n, kde p je počet nezávislých proměnných, tak by měla hodnota být považována jako odlehlá. Tuto proměnnou je možné vypočítat v nabídce Save a zaškrtnutím Leverage values. Hraniční hodnota pro náš případ je 2*7/77 = 0,1818. Tímto jsme identifikovali 7 odlehlých hodnot a 5 z nich je výrazně nad touto hranicí – Praha-západ, Praha, Jeseník, Brno-město, Praha-východ, Karviná a Plzeň-jih. Multikolinearita je často problém a jako hraniční se považuje korelační koeficient, který převýší nevysvětlenou variabilitu nezávislé proměnné (1 – r2). Podobným ukazatelem je také variance inflation index (VIF) a pokud přesáhne hodnotu 5, tak je významný problém s multikolinearitou. Tento ukazatel je možné přidat do výstupu v nabídce Statistics zaškrtnutím Collienarity Diagnostics.
V dalším modelu vymažeme proměnné Praha-západ, protože má velmi vysokou leverage hodnotu (0,41). Neměli bychom bezhlavě mazat odlehlé hodnoty, ale jen tehdy, pokud je to opodstatněné. Odstranili jsme nezávislou proměnnou podíl rodáků, protože vykazuje vysokou multikolinearitu a také podíl obyvatel na 65 let, protože významnost obou proměnných je velice nízká. Výsledky jsou shrnuty v tabulkách níže.
Koeficient determinace nepatrně poklesl, směrodatná chyba klesla a přibyla další statisticky významná nezávislá proměnná a tou je podíl věřících. Problémy s multikolinearitou již nejsou patrné.
Pro vytvoření finálního modelu je vhodné odstranit všechny statisticky nevýznamné nezávislé proměnné a výsledný model vysvětluje 17,2 % variability závislé proměnné. Regresní rovnice je: pirati = 1,061 – 0,007(mira vericich) – 0,12(podil vs).
V SPSS je možné otestovat řadu nelineárních regresních modelů a to funkcí Regression/Curve Estimation. Je možné vybrat z celé řady různých nelineárních vztahů. V našem případě však vychází zdaleka nejlépe právě lineární vztah.
Program ArcMap má implenetován nástroj Explanatory Regression, který je zástupce brutal force přístupu, kdy vyzkouší všechny kombinace všech nezávislých proměnných a nabídne nejlepší řešení pro jednu až všechny proměnné.
Samostatné cvičení – Vytvořte lineární regresní model pro stranu TOP09 a následujte výše uvedený postup pro nalezení nejvhodnějšího modelu.
Videos briefly describing simple linear regression (for combined students)
Video briefly describing multivariate regression (for combined students)
Videos describing multivariate regression (optional videos)
Data ke cvičení
Data – SLDB 2011 a výsledky voleb na úrovni okresů
Cvičení je vytvořeno v rámci projektu Inovace bakalářských a magisterských studijních oborů na Hornicko-geologické fakultě VŠB-TUO pod číslem CZ.1.07/2.2.00/28.0308. Tento projekt je realizován za spoluúčasti EU.