Inferential statistic – confidence intervals, testing of hyphotesis
V rámci tohoto cvičení začneme nejdříve s určováním intervalů spolehlivosti, jehož teoretické základy jsme si představili na přednášce. Důležitým pojmem je hladina významnosti, která nám určuje pravděpodobnost, se kterou se odhadovaný parametr ocitne v daném intervalu spolehlivosti.
Zopakujme si podobný příklad, jako byl na přednášce, kdy máme data o dojížďce do VŠB, kterou jsme získali na základě dotazníkového průzkumu od 50 respondentů. Průměrná hodnota nám vyšla 10 km a směrodatná odchylka 8 km. Jaký je interval spolehlivosti pro hladinu významnosti 95%?
Zkuste zjistit intervaly spolehlivosti pro hladiny významnosti 85 % a 90 %.
V další části se budeme věnovat testování hypotéz. Na přednášce jsme si představili z– a t– testy a to jednovýběrové a dvouvýběrové. Tyto testy obecně hodnotí rozdílnost výběrového průměru za určitou subpopulaci oproti skutečnému průměru. V případě jednovýběrového testu se pracuje s jednou proměnnou a v případě dvouvýběrového testu se porovnávají dvě proměnné. z-test použijeme v případě, kdy máme více záznamů (doporučuje se více jak 30), zatímco t-test použijeme v případě malého počtu záznamů. Nebudeme již počítat ručně, ale využijeme nástroje v SPSS.
Řešený příklad – Začneme jednovýběrovým t-testem. Vytvoříme si vlastní příklad, jelikož nám stačí jen několik záznamů. Předpokládejme, že průměrná výška mužů v ČR je 180 cm (na Slovensku 176,7 cm), pokusme se určit, zda je vaše výška statisticky významně vyšší než průměr za ČR nebo SR.
V SPSS si vytvoříme sloupec, který vyplníme výškou všech studentů ve skupině v cm. Jednostranný t-test naleznete v nabídce Analyze/Compare Means/One Sample t-test. Tento test je vhodný, protože je nás ve skupině méně než doporučována hranice. Přesuneme proměnnou s výškami studentů a do položky Test Value zadáme průměrnou hodnotu 180. Můžeme dále změnit hladinu významnosti a spustit výpočet. Z výsledků je důležitá hodnota t statistiky, která pokud je kladná, tak je naše průměrná výška vyšší než stanovený průměr a naopak. Klíčovou hodnotou však je sloupec Sig. (významnost), přičemž pokud je hodnota rovna nebo nižší než námi stanovená hodnota 0,05 (1-0,95), pak zamítáme nulovou hypotézu, že výběrový průměr není statisticky významně odlišný než celkový průměr. Pokaždé, když je dolní hranice záporná a horní hranice spolehlivosti kladná, tak přijímáme nulovou hypotézu (což není náš případ).
Řešený příklad – Nyní přistoupíme k dvouvýběrovému t-testu. Data rozšíříme o další záznamy (jednou tolik) a do druhého sloupce přidáme proměnnou, kdy hodnota 1 bude charakterizovat české studenty a hodnota 2 slovenské studenty.
Dvouvýběrový t test spustíme v SPSS v nabídce Analyze/Compare Means/Independent Samples t-test. Vyberte korektně proměnné a definujte hodnotou 1 skupinu Čechů a hodnotou 2 skupinu Slováků. Ponecháme interval spolehlivosti na 95 % a spustíme výpočet. První část výstupu obsahuje průměrné hodnoty pro obě skupiny a v druhá tabulka začíná hodnotami Levenova testu pro testování rovnosti rozptylu obou výběrů. Tento test je postaven na F statistice a důležitý je opět sloupec Sig., kdy pokud je hodnota větší než 0,05, tak můžeme přijmou nulovou hypotézu a tedy rozptyl je konstantní. Druhá část tabulky již hodnotí t statistiku pro obě varianty (shodné a rozdílné rozptyly), pro obě varianty je t statistika stejná, ale liší se stupně volnosti a tím pádem také hodnota ve sloupci Sig. Obě hodnoty jsou větší než hraniční hodnota a tak opět přijímáme nulovou hypotézu, že jsou průměry nejsou statisticky významně odlišné. V intervalu spolehlivosti vidíme, že může vyjít také nula, což naznačuje, že rozdíl průměrů může být klidně nulový.
Příklad – rozdělte Českou republiku na Čechy a Moravu se Slezskem (Vysočina bude součást Moravy a Slezska) a porovnejte volební preference politické strany ČSSD do poslanecké sněmovny v roce 2013 na úrovni krajů. Porovnejte rozdílnost obou částí republiky.
Řešený příklad – Další možností je porovnávat rozdílnost průměrů pro více jak 2 proměnné. V tomto případě již musíme požít ANOVA. Můžeme si rozšířit naše cvičná data o třetí skupinu studentů, např. studenti z Japonska, kteří jsou obecně menší než Evropané.
Tento nástroj nalezneme v nabídce Analyze/Compare Means/One-Way ANOVA. Opět proměnnou s výškami přesuneme do položky Dependent List a proměnnou definující národnost do položky Factor. V nabídce Options vybereme Descriptive a Homogeneity of Variance Test a v nabídce Post Hoc vybereme metodu Scheffe. Následně můžeme kliknout na OK a vyhodnotit výsledky. První tabulka obsahuje popisnou statistiku pro jednotlivé kategorie a je zajímavý nízký průměr pro výšku Japonců. Druhá tabulka testuje homoskedasticitu, tedy zda jsou rozptyly konstantní. Opět se používá Leveneův test a v tomto případě je Sig. nižší než hraniční hodnota a tak rozptyl výběrů není konstantní a není tak splněn jeden u předpokladů ANOVA a musíme být v další interpretaci více opatrní. Výsledek ANOVA (F statistika) je statisticky významný a tak zamítáme nulovou hypotézu a zjišťujeme, že výšky studentů mezi třemi skupinami jsou statisticky významné. Tabulka pro párové hodnocení ukazuje, že skupina 3 (Japonci) se významně odlišují od Čechů a Slováků. Toto je potvrzeno také v poslední tabulce pro homogenní výběry.
Příklad – Opět budete pracovat s daty za volby do poslanecké sněmovny. Rozdělte preference pro ČSSD na úrovni SO ORP podle krajů na tři skupiny – bohaté, průměrné a chudé. Posuďte průměrné volební preference za SO ORP v jednotlivých skupinách krajů.
Videos explaining t-tests for combined students
One-sample t-test – SPSS
Independent t-test – SPSS
Videos explaining One-Way ANOVA for combined students:
Individual task 2 – You will work with COVID-19 data. Select a year and month (i.e. February 2021) and two regions (i.e. Moravia-Silesian Region). Download the data from the link below and select all records for a defined month/year (copy it to a new file).
Aggregate the data for the month (use sum as the aggregation function), you should have one record per each SO ORP summarizing the situation for the selected month.
Add a new column with population size for the selected year and SO ORP (vuzemi_cis k=65; vuk_text=”střední stav obvyvatel”). Compute the rate of new cases (incidence_7) per 100 000 people for all the SO ORP.
Compute the national rate of new cases (incidence_7) per 100 000 people for the month.
Test the normality of the computed variable. If needed, normalize the data.
Create a map of the rate of new cases for all SO ORP, and briefly interpret the results. Focus on spatial differences.
Answer these two questions:
- Is the rate of new cases in SO ORP in your selected regions different from the national result? Use the one-sample t-test for each region (2 t-tests)?
- Is the rate of new cases in SO ORP in one region different or similar to the situation in the second region? Use two-samples t-test. Use your local knowledge to interpret the results.
Data:
- population data
- COVID-19 data use tha data called “COVID-19: Přehled epidemiologické situace dle hlášení krajských hygienických stanic podle ORP”
Deadline: 15. 12. 2022
Cvičení je vytvořeno v rámci projektu Inovace bakalářských a magisterských studijních oborů na Hornicko-geologické fakultě VŠB-TUO pod číslem CZ.1.07/2.2.00/28.0308. Tento projekt je realizován za spoluúčasti EU.