KMG – cv. 2

Spatial exploratory data analysis

Představili jsme si na přednášce také základní nástroje pro prostorovou explorační analýzu dat. V tomto cvičení si představené nástroje vyzkoušíme prakticky. Budeme pracovat se stejnými daty jako v minulém cvičení agregovaná budou na úroveň ORP nicméně budou rozšířená a o souřadnice x a y.

Představili jsme si několik ukazatelů a to pro měření centrality dat to byl prostorový střed a vážený prostorový střed a pro měření rozptýlenosti pak směrodatná vzdálenost a směrodatná elipsa (včetně vážených alternativ).

Budeme pracovat ve dvou programech. Komerční sféru bude reprezentovat ArcMap a skupinu programů zdarma pak CrimeStat, který je primárně určen pro analýzy v oblasti kriminologie, ale většina implementovaných nástrojů je obecně použitelná. Pochopitelně vše je možné vypočítat také v R project.

V ArcMapu jsou nástroje pro ESDA implementovány v balíku nástrojů Spatial Statistics Tools/Measuring Geographic Distributions. Součástí jsou nástroje pro výpočet centrálního prvku, který vybere jeden z geoprvků, který má nejkratší vzdálenost ke všem ostatním geoprvkům; průměrný a mediánový střed; směrodatná vzdálenost a směrodatná elipsa (vše také s možností vážení).

V případě CrimeStatu je situace podobná, také zde je možnost použít nástroje jak pro nevážená tak i vážená data a to přesněji prostorový a mediánový střed, směrodatná vzdálenost a směrodatná elipsa, centrum minimální vzdálenosti a konvexní obálka. Všechny tyto nástroje jsou umístěny v nabídce Spatial description/Spatial Distribution.

Task

We begin with manual calculations to prove that you understand basic principles of selected methods. We work with five hypothetical municipalities:

municipality x y Population
A 3,3 4,3 34000
B 1,1 3,4 6500
C 5,5 1,2 8000
D 3,7 2,4 5000
E 1,1 1,1 1500

Calculate following statistics:

  1. weighted mean centre of the population
  2. mean centre and compare results with weighted mean centre – calculate the distance between both centres.
  3. calculate the distance between each municipality and weighted mean centre
  4. calculate the standard distance for five municipalities

Now we can use software for calculations. We will use ArcMap and CrimeStat and data below:

  1. Create mean centre, standard distance and deviational ellipse
  2. Choose three attributes with relative numbers and calculate weighted versions.
  3. Compare results and consider differences in localisation of weighted centres and deviational ellipses.
  4. Compare weighted statistics and unweighted statistics.
  5. What do unweighted mean centre and deviational ellipse represent?

As you were told, visualisation of data is very important step in data exploratory analysis. A useful tool is a map and it is an important part of the ESDA.  For a quick visualisation, you can use SW GeoDa that is for free and is very popular for exploratory spatial data analysis. Apart from spatial autocorrelation and spatial regression, that we will work with at the end of the semester, you can use many other graphical tools for data visualisation. This software provides also classical graphical methods such as histogram, box plot, scatter plot, etc.

For visualisation purposes, the GeoDa provides several tools such as a Percentile Map that divides the data into intervals focusing on the first and last percentile of data. The second and the fifth interval contain 9% of data each. This method is focused on visualisation of a spatial distribution of the smallest and highest values of data (not automatically outliers). Another tool – Box Map – is closely connected to box plot, the data is divided into intervals (quartiles) and outliers (including extremes). This map works with outliers and extremes and it is thus possible to discover a spatial pattern. Data can be visualised also by dividing into quantiles (Quantile Map). You can use also other maps that are available in this menu.

  1. Create a histogram and box plot for the same attribute as in previous seminar (use GeoDa).
  2. Choose two attributes which can be considered as correlated and create a scatter plot. Is an assumed relationship confirmed?
  3. Try all other graphical tools in Explore menu.
  4. Try all other graphical tools in Map menu.
  5. Why are not the intervals in box map equally frequent?
  6. Make Box Map and Percentil Map for the attribut share of people with Slovak nationality.

Videos introducing Spatial Distribution Tools in ArcMap (for combined students)


Videos introducing the GeoDa for combined students:

(watch the second video until 8:00).

Data

doc_icon Data – census 2011 data for ESDA

logolink

Cvičení je vytvořeno v rámci projektu Inovace bakalářských a magisterských studijních oborů na Hornicko-geologické fakultě VŠB-TUO pod číslem CZ.1.07/2.2.00/28.0308. Tento projekt je realizován za spoluúčasti EU.