KMG – seminar 5

Continuous distributions and normality testing

Na přednášce jsem si představili základní spojitá pravděpodobnostní rozdělení a jejich vlastnosti. Cílem tohoto cvičení je si tato rozdělení vyzkoušet v praxi a vypočítat několik příkladů z oblasti geografie. Postupně budeme procházet všechna představená rozdělení včetně jednoho řešeného příkladu a několika příkladu k řešení.

V druhé části cvičení budeme testovat, zda daná distribuce odpovídá normálnímu rozdělení, ukážeme si možnosti transformace dat a jejich standardizace s využitím programu SPSS.

Normal distribution N(μ,σ)

Ke zjišťování pravděpodobnosti v případě normálního rozdělení je potřeby využít tabulku, kterou je možné najít bez problémů na webu. Jak se v dané tabulce orientovat jsme si vysvětlili na přednášce, nicméně se vychází z hodnoty vypočteného z-skóre a jeho hodnoty na prvním a druhém desetinném místě.

Řešený příklad – Average commuting times of VSB employees meet normal distribution with the average 30 minutes and standard deviation 16 minutes. What is the probability that commuting time will be smaller than 35 minutes?

05norm_dist

You have to calculate z-score (0.3125) what defines deviation of 0.3125 times of the standard deviation násobku směrodatné from the mean value. Based on the table of normal distribution and z-scores you can find correct probability in the row 0.3 and column 0.01. We discover that the probability is 0.6217 thus it is 62.17%. By searching in the table it is important to consider that we are looking for a probability that the value will be smaller or higher than the observed value (we are looking for the cases when the values will be smaller).

Solved task – Based on previous conditions calculate the probability when commuting times will be between 40 and 50 minutes.

We have to calculate the probability for both 40 and 50 minutes. For z = (40-30)/16 = 0.625 and z = (50-30)/16 = 1.25. In the table you can define appropriate probabilities: 0.8944 – 0.7357 = 0.1587. Thus the probability that commuting time will be between 40 and 50 minutes is 15.87%.

Video demonstrating z-score calculation in SPSS

Exponential distribution

Solved task – Migration distances of people in the Czech Republic have an exponential distribution with λ = 0.1 km (mean distance is thus 10 km). What is the probability that the distance will be smaller than 5 km? What is the probability that it will be longer than 3 km?

Both tasks are easy to calculate:

06norm_dist

Thus, the probability that the disatance will be smaller then 5 km is 39.9% and that it will be smaller than 3 km probability is 74.1 %.

Solved task – We calculated an average commuting distance of 50 respondents and this makes a mean distance of 7 km. Based on the shape of the histogram we can assume that is meets conditions of an exponential distribution. Find the λ value and calculate the probability, that commuting distance will be higher than 15 km.

Again it is easy, λ = 1/mean value = 1/7 = 0.143. The probability can be calculated in the same way as in the previous example – probability is …

Samostatné cvičení

Dle zadání v prvním řešeném příkladě, najděte pravděpodobnost, že dojížďkový čas bude

  1. kratší než 20 minut
  2. bude mezi 25 a 45 minutami
  3. najděte 20. percentil distribuce dojížďkových časů.

Při sčítání dopravy jste sečetli, že na ulici Opavská projede denně v průměru 1325 aut, jejichž distribuce má normální rozdělení a směrodatnou odchylku 153,5.

  1. kolik procent dní projede na Opavské mezi 1000 a 1500 aut?
  2. kolik aut na Opavské překonává hranici 20 % času výskytu?

Při studiu migračních pohybů v regionu jsme přišli na to, že pravděpodobnost stěhování z města to zázemí je 0,3. Pravděpodobnost stěhování opačným směrem je 0,2. V centru města žije 10000 obyvatel a v zázemí pak 3000, zkuste predikovat počet obyvatel pro další dva roky za předpokladu, že úroveň migrace zůstane stejná.

Normality testing, normalization, standardization

Doposud jsme si ukázali několik výpočtu, kdy jsme věděli, že se jedná o normální rozdělení, ale toto rozhodnutí je vždy na vás. V této části cvičení si ukážeme několik postupů, jak si ověřit normalitu rozdělení a případně jak dané rozdělení převést do normálního – normalizovat.

There are several approaches how to estimate, whether or not your distribution is normal. The first step is to compare values of mean and median. If both values are equal or very similar then this can suggest that you distribution can be normal. Also, coefficients of skewness and kurtosis describe the shape of a distribution and if they are close to zero then the distribution is not deviated from the normal distribution.

Instead of numerical statistics, graphical methods are available too. You can use the histogram and compare it with the curve of the normal distribution. Another possibility is the Q-Q plot (quantile-quantile plot) or P-P plot (probability-probability plot). In the case of Q-Q plot, theoretical (normally distributed) and observed values (quantiles) are displayed in one graph. P-P plot displays cumulative frequencies.

There are also methods for testing of normality – the most often used tests are Shapiro-Wilk test and Kolmogorov-Smirnov test. You should prefer Kolmogorov-Smirnov test if your data have more than 50 records.

Task

Select three variables with relative values from data below and:

  1. test the normality of variables using numerical and graphical methods
  2. comment, what makes your distributions different from the normal distribution
  3. try to normalize your variables
  4. how successfull were you?
  5. transform your variables into z-scores

Data

doc_icon Data – cenzus 2011

logolink

Cvičení je vytvořeno v rámci projektu Inovace bakalářských a magisterských studijních oborů na Hornicko-geologické fakultě VŠB-TUO pod číslem CZ.1.07/2.2.00/28.0308. Tento projekt je realizován za spoluúčasti EU.