Exploratory data analysis

Statistické vyhodnocení dat je možné provádět v celé řadě programů, které uživateli usnadňují statistickou analýzu dat. Současně s tímto přiblížením i pokročilých metod k uživatelům však dochází k tomu, že uživatelé daným funkcím nerozumí a používají je zcela nesprávně. Podobná je situace také při výsledné interpretaci, kterou v případě, kdy uživatel nezná podstatu použité metody, nemůže kvalitně zvládnout. V úvodním cvičení si představím vybrané programy, které umožňují provádět statistickou deskripci (exploraci) dat a dokonce také inferenci dat (viz později).

Mezi vybrané zástupce byly vybrány tři programy – MS Excel pro svou rozšířenost a jednoduchost, IBM SPSS jako zástupce speciálního statistického komerčního programu a R project jako zástupce opensource programu, kterému se věnujeme také v předmětu Intepretace geodat. V průběhu svého studia se seznámíte také s programem Statgraphic, se kterým z tohoto důvodu nebudeme pracovat.

Funkcionalitu programů si ukážeme postupně na jednotlivých příkladech a budeme postupně prakticky zkoušet metody, které jsou představeny na přednáškách. Na cvičeních nebude prostor na opětovné vysvětlování metod, proto se předpokládá znalost látky z přednášek.

MS Excel je obecně známý a seznámili jste se s ním již během předmětu Základy informatiky. Bez problému byste měli znát načtení dat, výpočty a zápisy vzorců a vytváření grafů a diagramů. Dále budou představeny některé statistické funkce.

S programem IBM SPSS jste se doposud nesetkali, nicméně také jeho rozšíření je široké, funkcionalita velice široká a tak bude představena základní funkcionalita a některé pokročilejší funkce. Není cílem předmětu naučit vás pracovat s některým konkrétním programem, ale spíše ukázat, jak využít stejné statistické nástroje v různých programech.

Projekt R je představen v rámci cvičení Interpretace geodat.

Zadání

Pracovat budeme s daty ze sčítání lidu, domů a bytů 2011 na úrovni obcí a vyšších administrativních jednotek (ORP, okresy a kraje) a s proměnnou Počet vysokoškolsky vzdělaných. Začneme rovnou pracovat s programem IBM SPSS (dále jen SPSS) a načtěte si tak cvičná data do tohoto prostředí. Následně v záložce Variable View upravte vše potřebné – datové typy, popisky, typ dat, chybějící hodnoty apod. Takto připravená data si uložte.

Úprava datové matice je rovněž součástí předmětu Interpretace geodat, proto se zaměříme na další funkcionalitu SPSS pro další úpravu dat a tou je možnost Split File, kterou dojde k rozdělení datové matice a všechny výsledky budou děleny dle zvolené dělící proměnné. Dále si vyzkoušejte funkce Select Cases (vyberte jen data z Moravskoslezského kraje) a Aggregate (agregujte data na úroveň ORP). Společně si projdeme další nabídky a stručně si popíšeme jejich funkcionalitu.

Na přednášce byly představeny základní statistické ukazatele pro statistickou deskripci – explorační analýzu dat. Ukážeme si, jak jednotlivé ukazatele vypočítat ve všech představených programech. Vypočítejme tedy ukazatele – aritmetický průměr, medián, seříznutý aritmetický průměr, modus, směrodatnou odchylku, rozptyl, variační koeficient, dolní a horní kvartil, interkvartilové rozpětí a míry šikmosti a špičatosti.

V případě SPSS vše vypočítáme v nabídce Analyse/Descriptive Statistic/Explore. Vypočtěme, s využitím nabídky Split File, také výsledky pro jednotlivé kraje. Výsledky je možné dále upravit s využitím nástroje Pivoting Table do žádaného vzhledu. Tabulku s výsledky pak můžeme vykopírovat a vložit do dokumentu.

V případě MS Excel tento postup není tak jednoduchý, ale postupně je možné rovněž vypočítat všechny ukazatele a to s využitím statistických funkcí. Další možností je využít rozšíření Excelu, které se nazývá Analýza dat (v nabídce Možnosti/Rozšíření). Toto rozšíření obsahuje celou řadu nástrojů, které budeme také později využívat, a nyní nás zajímá nabídka Popisná statistika.

Vypočtěme si však alespoň základní ukazatele také ručně, abychom pochopili, co přesně dané ukazatele představili a vhodně interpretovali. Vypočtěme tedy aritmetický průměr, median, směrodatnou odchylku, roztpyl, šikmost a špičatost.

Nedílnou součástí explorační analýzy dat jsou také grafické nástroje pro vizualizaci dat – histogram a krabicový graf. Vytvoříme tedy oba nástroje nejdříve v SPSS, kde oba nástroje nalezneme rovněž v nabídce Explore pod volbou Plots. V případě histogramu vhodně upravme šířku intervalů, příp. počet intervalů, aby histogram vhodně popisoval data.

MS Excel také umožňuje histogram relativně jednoduše vytvořit a to opět v nabídce Analýza dat/Histogram. Nicméně není implementován žádný nástroj pro vytvoření krabicového grafu, existuje na webu popsán postup na vytvoření tohoto grafu s využitím sloupcového grafu, nicméně tento postup je poněkud komplikovaný a zájemci si ho mohou vyzkoušet samostatně.

Video explaining basic steps in SPSS for combined students:

Individual work:

Calculate numerical descriptive statistics and create both graphs (histogram and box plot) for municipalities in a selected NUTS3 region (except of Prague).
Do the same for all municipalities in the Czech Republic.
Interpret results and differences between statistics for the region and the country. How do missing values influence the results? Should they remain in data? How to deal with zero values?
There is a variable discribing distance to regional capital. Calculate basic statistics for those municipalities within 20 kilometres and for those in greater distances. Compare the results.
What is the percentage of municipalities within 20 kilometres?
Calculate the same statistics only for municipalities within 20 kilometres from Prague and compare them with previous results.
Divide all municipalities based on population interval (0-499; 500-999; 1000-2499; 2500-4999; 5000-9999; 10000-24999; 25000-99999; 100000+) and for these categories calculate basic statistics for 5 chosen variables with absolute values. Create also box plots and interpret the results.
Draw a theoretical histogram that is positively skewed, negatively skewed, flatter and not skewed, sharper and not skewed.

Data

Data from census 2011 for EDA

Election data 2018 (municipality)

Codelist of districts (okresy)

logolink

Cvičení je vytvořeno v rámci projektu Inovace bakalářských a magisterských studijních oborů na Hornicko-geologické fakultě VŠB-TUO pod číslem CZ.1.07/2.2.00/28.0308. Tento projekt je realizován za spoluúčasti EU.

QMG – seminar 1

Exploratory data analysis

Zadání

Data

Archives

Meta