3  Importancia de los Datos Espaciales en la Ciencia de Datos

3.1 Introducción

Los datos espaciales son fundamentales en diversas áreas de la ciencia de datos debido a su capacidad para proporcionar información georreferenciada que puede revelar patrones, tendencias y relaciones que no son evidentes con datos no espaciales. En esta presentación, exploraremos herramientas y métodos en R para el análisis de datos espaciales y discutiremos su importancia en la ciencia de datos.

3.2 ¿Qué son los Datos Espaciales?

Los datos espaciales son aquellos que tienen una referencia geográfica asociada, es decir, están vinculados a una ubicación específica en la superficie terrestre. Pueden ser de dos tipos principales:

  1. Vectoriales: Representan objetos discretos (puntos, líneas, polígonos).

  2. Raster: Representan variables continuas, almacenadas en una matriz de celdas (imágenes satelitales).

Estos datos se utilizan para mapear y analizar características geográficas y fenómenos espaciales.

3.3 Importancia de los Datos Espaciales

3.3.1 Identificación de Patrones Espaciales

Los datos espaciales permiten identificar patrones que no son visibles en datos no espaciales. Por ejemplo, en epidemiología, se pueden detectar áreas con alta incidencia de enfermedades.

library(sf)
library(tmap)
# Cargar un conjunto de datos espaciales
nc <- st_read(system.file("shape/nc.shp", package="sf"))
Reading layer `nc' from data source 
  `C:\Users\alex_ergostats\AppData\Local\R\win-library\4.3\sf\shape\nc.shp' 
  using driver `ESRI Shapefile'
Simple feature collection with 100 features and 14 fields
Geometry type: MULTIPOLYGON
Dimension:     XY
Bounding box:  xmin: -84.32385 ymin: 33.88199 xmax: -75.45698 ymax: 36.58965
Geodetic CRS:  NAD27
# Crear un mapa temático
tm_shape(nc) +
  tm_polygons(col = "BIR74", palette = "Reds", title = "Nacimientos en 1974") +
  tm_layout(title = "Distribución Espacial de Nacimientos en Carolina del Norte")

3.3.2 Toma de Decisiones Informadas

En la planificación urbana, los datos espaciales son esenciales para decidir dónde construir infraestructuras como escuelas, hospitales y carreteras.

# Ejemplo de planificación urbana

library(sp)

library(raster)

# Crear datos de ejemplo para una planificación urbana

data(meuse)

coordinates(meuse) <- ~x+y

# Visualizacion simple de los puntos de muestreo

plot(meuse, main = "Puntos de Muestreo en Meuse")

3.4 Herramientas en R para el Análisis Espacial

R ofrece una amplia gama de paquetes para el análisis de datos espaciales. Entre los más utilizados se encuentran:

  • sf (simple features): Para manipulación y análisis de datos vectoriales.

  • raster: Para trabajar con datos raster.

  • spdep: Para análisis de datos espaciales dependientes.

  • tmap: Para la creación de mapas temáticos.

3.4.1 Paquete `sf`

El paquete `sf` permite la manipulación y análisis de datos vectoriales espaciales. Proporciona una interfaz eficiente para trabajar con datos espaciales en R.

# Cargar el paquete sf
library(sf)

# Leer un conjunto de datos espaciales
nc <- st_read(system.file("shape/nc.shp", package="sf"))
Reading layer `nc' from data source 
  `C:\Users\alex_ergostats\AppData\Local\R\win-library\4.3\sf\shape\nc.shp' 
  using driver `ESRI Shapefile'
Simple feature collection with 100 features and 14 fields
Geometry type: MULTIPOLYGON
Dimension:     XY
Bounding box:  xmin: -84.32385 ymin: 33.88199 xmax: -75.45698 ymax: 36.58965
Geodetic CRS:  NAD27
nc
Simple feature collection with 100 features and 14 fields
Geometry type: MULTIPOLYGON
Dimension:     XY
Bounding box:  xmin: -84.32385 ymin: 33.88199 xmax: -75.45698 ymax: 36.58965
Geodetic CRS:  NAD27
First 10 features:
    AREA PERIMETER CNTY_ CNTY_ID        NAME  FIPS FIPSNO CRESS_ID BIR74 SID74
1  0.114     1.442  1825    1825        Ashe 37009  37009        5  1091     1
2  0.061     1.231  1827    1827   Alleghany 37005  37005        3   487     0
3  0.143     1.630  1828    1828       Surry 37171  37171       86  3188     5
4  0.070     2.968  1831    1831   Currituck 37053  37053       27   508     1
5  0.153     2.206  1832    1832 Northampton 37131  37131       66  1421     9
6  0.097     1.670  1833    1833    Hertford 37091  37091       46  1452     7
7  0.062     1.547  1834    1834      Camden 37029  37029       15   286     0
8  0.091     1.284  1835    1835       Gates 37073  37073       37   420     0
9  0.118     1.421  1836    1836      Warren 37185  37185       93   968     4
10 0.124     1.428  1837    1837      Stokes 37169  37169       85  1612     1
   NWBIR74 BIR79 SID79 NWBIR79                       geometry
1       10  1364     0      19 MULTIPOLYGON (((-81.47276 3...
2       10   542     3      12 MULTIPOLYGON (((-81.23989 3...
3      208  3616     6     260 MULTIPOLYGON (((-80.45634 3...
4      123   830     2     145 MULTIPOLYGON (((-76.00897 3...
5     1066  1606     3    1197 MULTIPOLYGON (((-77.21767 3...
6      954  1838     5    1237 MULTIPOLYGON (((-76.74506 3...
7      115   350     2     139 MULTIPOLYGON (((-76.00897 3...
8      254   594     2     371 MULTIPOLYGON (((-76.56251 3...
9      748  1190     2     844 MULTIPOLYGON (((-78.30876 3...
10     160  2038     5     176 MULTIPOLYGON (((-80.02567 3...

3.4.2 Visualización con `tmap`

`tmap` es un paquete en R que permite la creación de mapas temáticos. Es muy útil para visualizar datos espaciales de manera efectiva.

library(tmap)

tm_shape(nc) +
  tm_polygons(col = "BIR74") +
  tm_layout(title = "Mapa de Carolina del Norte")

3.4.3 Paquete `spdep`

El paquete `spdep` es utilizado para el análisis de datos espaciales dependientes. Permite realizar análisis de autocorrelación espacial y crear matrices de pesos espaciales.

Para la estadística I de Moran global, la hipótesis nula establece que el atributo que se analiza está distribuido en forma aleatoria entre las entidades del área de estudio; es decir, los procesos espaciales que promueven el patrón de valores observado constituyen una opción aleatoria. 

library(spdep)

nb <- poly2nb(nc) # Crear una matriz de vecinos

lw <- nb2listw(nb, style="W") # Convertir la matriz de vecinos en una lista de pesos

# Realizar un test de Moran's I lo revisaremos a profundidad en las siguientes clases
moran_test <- moran.test(nc$BIR74, lw)

moran_test

    Moran I test under randomisation

data:  nc$BIR74  
weights: lw    

Moran I statistic standard deviate = 2.4055, p-value = 0.008074
alternative hypothesis: greater
sample estimates:
Moran I statistic       Expectation          Variance 
      0.139319332      -0.010101010       0.003858258 

3.5 Ejemplo de un Análisis Espacial básico

Vamos a realizar un análisis práctico utilizando los paquetes `sf`, `tmap`, y `spdep`. Analizaremos la distribución espacial de una variable demográfica en Carolina del Norte.

tm_shape(nc) +
  tm_polygons(col = "BIR74", palette = "Blues", title = "Nacimientos en 1974") +
  tm_layout(title = "Distribución Espacial de Nacimientos en Carolina del Norte")

3.5.1 Análisis de Autocorrelación Espacial

La autocorrelación espacial mide el grado en el que un valor en una ubicación es similar a los valores en ubicaciones cercanas. Utilizaremos el test de Moran’s I para evaluar la autocorrelación espacial de los nacimientos en 1974.

moran_test <- moran.test(nc$BIR74, lw)

moran_test

    Moran I test under randomisation

data:  nc$BIR74  
weights: lw    

Moran I statistic standard deviate = 2.4055, p-value = 0.008074
alternative hypothesis: greater
sample estimates:
Moran I statistic       Expectation          Variance 
      0.139319332      -0.010101010       0.003858258 

Los resultados del test de Moran’s I nos indican si existe una autocorrelación espacial significativa en los datos.

3.6 Notas Finales

La integración de datos espaciales en la ciencia de datos es crucial para una comprensión más profunda de los fenómenos analizados. Los datos espaciales proporcionan un contexto geográfico que mejora la identificación de patrones y tendencias, lo que facilita una toma de decisiones más informada.

El uso de herramientas en R, como `sf`, `tmap`, y `spdep`, permite a los analistas realizar análisis espaciales avanzados y crear visualizaciones impactantes. Esto es esencial para campos como la epidemiología, la ecología, la planificación urbana y muchas otras disciplinas.