Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

21
 ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES AL SERVICIO DEL GEOMARKETING 1  Coro Chasco Yrigoyen Instituto Lawrence R. Klein Universidad Autónoma de Madrid [email protected] ABSTRACT: El análisis exploratorio de datos espaciales (AEDE) es una disciplina del análisis exploratorio de datos, también denominado “data mining”, que ha sido diseñada para el tratamiento específico de los datos espaciales o geográficos. Este análisis se utiliza para identificar relaciones sistemáticas entre variables cuando no existen expectativas claras sobre la naturaleza de estas relaciones. Esto último resulta muy habitual en el ámbito de los estudios del mercado geográfico (geomarketing), donde se suele trabajar con grandes bases datos cuya estructura no siempre es bien conocida. En esta ponencia se presentan las principales técnicas del AEDE, que combinan el análisis estadístico con el gráfico, haciendo posible el estudio de las distribuciones espaciales y sus valores atípicos, esquemas de asociación espacial, agrupamientos espaciales y puntos calientes/fríos de negocio (“hot spots”). En los últimos años, los esfuerzos desarrollados por la investigación en este campo se han venido centrando en la conexión de los GIS disponibles en el mercado con paquetes estadísticos tradicionales o específicos de AEDE.  Actualmente, existe en el mercado un nuevo programa informático, GeoDa, concebido como un producto autosuficiente que no requiere de un sistema específico de GIS y funciona en cualquiera de los sistemas operativos de Windows y Mac. GeoDa ha sido desarrollado por el Profesor Luc Anselin de la Universidad de Illinois, y tiene la ventaja de ser, hasta el momento, un producto “opersource”, es decir, de libre acceso en Internet. Palabras clave: Análisis exploratorio de datos espaciales, autocorrelación espacial, GIS, geomarketing, GeoDa. 1  Ponencia presentada en el III Seminario sobre Nuevas Tecnologías en la Investigación, el Marketing y la Comunicación. e-Participación.

description

.lskañladskñdaslk sadlñdsa ñsadlkds ñ dasñldsañlkdsa ññ sad daslñasdklñ adsñsld sad ñlasdkñlads sdñ lñdasl kdsañl sadñdas l dask adsñ lsadkl aslds ñasd ñsldas ñdal sad l ñsadlkadsñ lads

Transcript of Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

Page 1: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 1/21

 

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES AL SERVICIO DELGEOMARKETING1 

Coro Chasco YrigoyenInstituto Lawrence R. Klein

Universidad Autónoma de [email protected] 

ABSTRACT:

El análisis exploratorio de datos espaciales (AEDE) es una disciplina delanálisis exploratorio de datos, también denominado “data mining”, que ha sidodiseñada para el tratamiento específico de los datos espaciales o geográficos. Esteanálisis se utiliza para identificar relaciones sistemáticas entre variables cuando noexisten expectativas claras sobre la naturaleza de estas relaciones. Esto últimoresulta muy habitual en el ámbito de los estudios del mercado geográfico(geomarketing), donde se suele trabajar con grandes bases datos cuya estructura nosiempre es bien conocida. En esta ponencia se presentan las principales técnicasdel AEDE, que combinan el análisis estadístico con el gráfico, haciendo posible elestudio de las distribuciones espaciales y sus valores atípicos, esquemas deasociación espacial, agrupamientos espaciales y puntos calientes/fríos de negocio(“hot spots”). En los últimos años, los esfuerzos desarrollados por la investigación eneste campo se han venido centrando en la conexión de los GIS disponibles en elmercado con paquetes estadísticos tradicionales o específicos de AEDE. Actualmente, existe en el mercado un nuevo programa informático, GeoDa,concebido como un producto autosuficiente que no requiere de un sistemaespecífico de GIS y funciona en cualquiera de los sistemas operativos de Windows yMac. GeoDa ha sido desarrollado por el Profesor Luc Anselin de la Universidad deIllinois, y tiene la ventaja de ser, hasta el momento, un producto “opersource”, esdecir, de libre acceso en Internet.

Palabras clave: Análisis exploratorio de datos espaciales, autocorrelación espacial,GIS, geomarketing, GeoDa.

1 Ponencia presentada en el III Seminario sobre Nuevas Tecnologías en la Investigación, el Marketing y la

Comunicación. e-Participación.

Page 2: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 2/21

 1. INTRODUCCIÓN

Este artículo pretende llamar la atención de los investigadores sociales sobrela importancia de llevar a cabo un adecuado análisis estadístico de los datos

geográficos. En efecto, aunque la investigación de mercados suele trabajar coninformación de carácter espacial (referida a unidades geográficas), en pocasocasiones estos datos suelen ser tratados de forma específica y diferente delanálisis de series temporales, utilizando técnicas adecuadas para el análisisestadístico-gráfico-cartográfico. Estas herramientas han sido bautizadas con elnombre de análisis exploratorio de datos espaciales (AEDE) y se conciden como unadisciplina dentro del más general análisis exploratorio de datos (AED), tambiéndenominado “data mining”, que ha sido diseñado para el tratamiento específico delos datos espaciales o geográficos. El AEDE se utiliza para identificar relacionessistemáticas entre variables cuando no existen expectativas claras sobre lanaturaleza de estas relaciones. Esto último resulta muy habitual en el ámbito de los

estudios del mercado geográfico (geomarketing), donde se suele trabajar congrandes bases datos cuya estructura no siempre es bien conocida.

Por esto, en este artículo se presentan las principales técnicas del AEDE, quees considerado como una técnica novedosa que supone la unión de dos tecnologíasinformáticas muy poderosas: los GIS (sistemas de información geográfica) y lospaquetes estadísticos propios del análisis de datos espaciales. Es decir, lasherramientas del AEDE combinan el análisis estadístico con el gráfico, haciendoposible el estudio de las distribuciones espaciales y sus valores atípicos, esquemasde asociación espacial, agrupamientos espaciales y puntos calientes/fríos denegocio (“hot spots”). 

En los últimos años, los esfuerzos desarrollados por la investigación en estecampo se han venido centrando en la conexión de los GIS disponibles en elmercado con paquetes estadísticos tradicionales o específicos de AEDE. Actualmente, existe en el mercado un nuevo programa informático, GeoDa,concebido como un producto autosuficiente que no requiere de un sistemaespecífico de GIS y funciona en cualquiera de los sistemas operativos de Windows yMacintosh. GeoDa ha sido desarrollado por el Profesor Luc Anselin de laUniversidad de Illinois y tiene la ventaja de ser, hasta el momento, un producto“opersource”, es decir, de libre acceso en Internet. 

Tras esta introducción, en el Apartado 2, se define el concepto más generaldel AED, en concreto, aquellas funcionalidades que mantiene en común con el AEDE, que se define más ampliamente en el Apartado 3. En el Apartado 4, sepresentan algunas de las técnicas más importantes del AEDE, ilustradas conejemplos que permiten exponer con mayor claridad el interés de estas herramientasdentro del análisis socioeconómico y, en particular, de la investigación de mercados.Un Apartado 5 de conclusiones y la bibliografía cierran esta exposión.

2. ANÁLISIS EXPLORATORIO DE DATOS (AED)

El origen del análisis exploratorio de datos espaciales se encuentra en elllamado análisis exploratorio de datos (AED) o minería de datos (“data mining”). El

Page 3: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 3/21

clásico AED podría definirse como “el conjunto de herramientas gráficas ydescriptivas utilizadas para el descubrimiento de patrones de comportamiento en losdatos y el establecimiento de hipótesis con la menor estructura posible”. Estadefinición fue propuesta por Tukey (1977), que hizo posible la extensión de este tipode análisis multivariante y del “software” estadístico moderno. 

De este modo, es posible obtener una estructura explicativa de los datos através de unas técnicas que combinan herramientas de la estadística básica(descriptivos, correlaciones, tablas de frecuencias o de correlación cruzada) conanálisis multivariante avanzado, especialmente diseñado para identificar formas engrandes bases de datos (análisis cluster, escalas multidimensionales, análisis logit,correlación canónica, análisis de correspondencias, árboles de clasificación, etc.).

Las técnicas de AED suelen estar acompañadas de métodos de visualizacióngráfica capaces de identificar conexiones, tendencias o sesgos presentes en lasbases de datos inicialmente desestructuradas. Una de las más conocidas técnicas

propias del AED es el “cepillado” o “brushing”, un método interactivo que permite laselección en pantalla de un determinado número de datos para la identificación decaracterísticas comunes o el examen de efectos o relaciones entre variablesrelevantes. Estas relaciones entre variables suelen visualizarse mediante el ajustede funciones (líneas, en un plano de dos dimensiones o superficies tridimensionales)y sus intervalos de confianza, de forma que, por ejemplo, puedan examinarse loscambios que producen sobre dichas funciones la eliminación o añadido (temporal)de un determinado número de datos.

Figura 1 Ejemplo de herramientas de AED: matrices de correlación (izda.) y análisismultivariante (dcha.)

Fuente: Elaboración propia a partir de Statsoft (2000).

Otras técnicas gráficas del AED incluyen el ajuste y representación gráfica defunciones, alisado de datos, superposición o fusión de múltiples “vistas” (“views”),añadido de datos en gráficos, identificación y señalización de subconjuntos de datosque cumplen determinadas condiciones, representación gráfica de intervalos o áreasde confianza, técnicas de reducción de imágenes, etc. La exploración de los datoses sólo un primer paso y sus resultados deben ser considerados como una etapa

previa a su “confirmación” (modelización). Si los resultados de la fase exploratoriasugieren la utilización de un modelo determinado, entonces su validación puede

Page 4: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 4/21

verificarse aplicando dicho modelo a un nuevo conjunto de datos y contrastando elajuste, es decir, su capacidad predictiva.

Es decir, los modernos métodos de AED hacen hincapié en la interacciónexistente entre el conocimiento humano y la informática en forma de gráficos

estadísticos dinámicos que permiten al usuario la manipulación directa de diversas“vistas” de los datos. Algunos programas clásicos de AED, como Matlab, SPSS, SAShan ido incorporando mapas como nuevas “vistas” integradas de forma dinámica conel resto de información, a través de sus extensiones Mapping Toolbox, SPSS Mapasy SAS Bridge for ESRI, respectivamente. Sin embargo, la importancia concedida porellos al espacio se reduce prácticamente al tratamiento de la localización como unsimple plano de coordenadas X-Y, dado que las herramientas propias del AED nosuelen ser diseñadas para el tratamiento específico de datos geográficos, ignorandototalmente los efectos espaciales de dependencia y heterogeneidad. Por estemotivo, surge el análisis exploratorio de datos espaciales (AEDE), como disciplinadentro del AED, para el tratamiento específico de los datos geográficos.

3. ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES (AEDE) Y GEODA.

El AEDE puede definirse como el conjunto de técnicas que describen yvisualizan las distribuciones espaciales, identifican localizaciones atípicas o “atípicosespaciales” (“spatial outliers”), descubren esquemas de asociación espacial,agrupamientos (“clusters”) o puntos calientes (“hot spots”) y sugieren estructurasespaciales u otras formas de heterogeneidad espacial (Anselin, 1999). Por tanto, el AEDE se correspondería con los métodos de estadística descriptiva espacial.

De manera particular, cuando no existe un marco formal o teoría previaacerca del fenómeno que se analiza, deben de utilizarse las técnicas del AEDE. Estasituación se plantea muy a menudo en el campo de las ciencias sociales, cuando seanalizan grandes bases de datos geográficos cuya distribución no se conoce a priori.Por ejemplo, parece obvio que la distribución del nivel de instrucción en lasprovincias españolas sigue una tendencia de norte (mayor nivel) a sur (menor nivel).Sin embargo, esta distribución suele ser más desconocida cuando se analiza estefenómeno para el ámbito de secciones censales en el interior de un municipio. Enlos últimos años, el AEDE ha sido introducido en algunas aplicaciones de economía

regional (por ejemplo, Moreno y Vayá, 2000), así como en los ejercicios depredicción-extrapolación de datos (Chasco, 2003). Sin embargo, son prácticamentenulas las aplicaciones realizadas en el campo del marketing.

El AEDE combina el análisis estadístico con el gráfico, dando lugar a lo quepodría denominarse una “visualización científica” (Haining et al., 2000) que, a loscontrastes estadísticos sobre los efectos espaciales de dependencia yheterogeneidad, une un amplio marco de gráficos o “vistas” múltiples y dinámicassobre la información geográfica (Unwin, 2000). Por eso, estos métodos devisualización científica son mucho más que simples mapas o gráficos estáticos derepresentación, como podrá apreciarse con mayor detalle en el Apartado siguiente,

siendo fundamental el papel jugado por los paquetes informáticos especializados.

Page 5: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 5/21

  En los últimos años, los esfuerzos desarrollados por la investigación en estecampo del AEDE se han venido centrando en la conexión de los GIS disponibles enel mercado (Grassland, ESRI, MapInfo) con paquetes estadísticos tradicionales (S-PLUS, SPSS, Matlab, SAS) o específicos de AEDE. De este modo, a la potentecapacidad de visualización y análisis de los GIS se le une la especialización propia

del análisis espacial estadístico y gráfico (ver Bao et al., 2000). En el momentopresente, junto a estos módulos de enlace, existe también un esfuerzo creciente porelaborar programas de AEDE en entornos de “opensouce” como R, Java y Python,que se encuentran libremente disponibles en Internet y cuya “fuente abierta” haceposible su constante renovación por parte de todo el que lo desee. Muchos de estosprogramas pueden consultarse en la página web del Center for Spatially IntegratedSocial Science, CSISS: http://www.csiss.org/clearinghouse/. 

Según Cressie (1993), el AEDE puede ser abordado desde dos puntos devista, según que se trate de un análisis desarrollado por la geoestadística o por laeconometría espacial. El objeto del análisis geoestadístico se encuentra, por lo

general, en el entorno de las ciencias medioambientales (física, geología, hidrología,etc.) y se centra en una muestra de datos puntuales procedentes de distribucionesgeográficas continuas (por ejemplo, precipitación atmosférica, humedad de la tierra,altura del océano, etc.). Por su parte, la econometría espacial analiza localizacionesgeográficas discretas de puntos o polígonos (provincias, municipios, etc.). Es lo quese denomina perspectiva de retícula o “lattice”, y se encuentra mucho más centradoen el análisis de los fenómenos socioeconómicos (distribución de la renta, clientes,votantes, etc.). En la Tabla 1, se presentan algunos programas de AEDE reticular(“lattice”) en entorno “amigable”. 

Tabla 1: Paquetes informáticos de AEDE reticular en entorno “amigable” 

Paquete informático Empresa/autor   Página web 

cdv, Cartographic DataVisualizer

Jason Dykes www.geog.le.ac.uk/jad7/cdv/ 

ClusterSeer Terraseer http://www.terraseer.com/products/clusterseer.html 

CrimeStat SpatialStatistics Program

Ned Levine & Associates http://www.icpsr.umich.edu/NACJD/crimestat.html 

Flow Mapper Waldo Tobler & David Jones http://csiss.ncgia.ucsb.edu/clearinghouse/FlowMapper/ 

GeoDaLuc Anselin, Universidad deIllinois (USA)

http://sal.agecon.uiuc.edu/geodamain.php 

SAS/GIS SAS Institute Inc. http://www.sas.com/products/gis/ 

STARS, Space Time Analysis of RegionalSystems

Sergio Rey http://stars-py.sourceforge.net/ 

STIS, Space TimeIntelligence System

Terraseer http://www.terraseer.com/products/stis/stis_features.html 

WinGslib, GeostatisticalSoftware Library

Statios, LLC http://www.statios.com/WinGslib/ 

Fuente: Elaboración propia.

Page 6: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 6/21

Del grupo de programas de AEDE reticular, destaca GeoDa, que incluyetambién un módulo dedicado al análisis de regresión espacial. GeoDa es muy fácilde utilizar de forma visual e interactiva y su uso no exige un conocimiento previo dela tecnología GIS, mucho más compleja. En este artículo, nos valemos de esteprograma, que ha sido desarrollado por el Profesor Luc Anselin, de la Universidad de

Illinois, para presentar la capacidad y posibilidades del AEDE. La versión másreciente del programa, 0.9.5-i5, data de Agosto de 2004 y está siendo muy bienrecibida por todo tipo de usuarios, especialmente los dedicados al mundo académicoy de la investigación, en general (en septiembre de 2004, GeoDa tenía registrados a3.500 usuarios, que se incrementan en una tasa de 150 nuevos cada mes. Estaversión está disponible en Internet,  http://sal.agecon.uiuc.edu/geoda_main.php y esde acceso libre. En esta página web, hay diversos materiales de apoyo así comouna película del programa “Quicktime” en la que se hace una demostración de lascaracterísticas principales de este programa. La versión actual de GeoDa utiliza latecnología MapObjetcts LT2 de ESRI, que permite el acceso a datos geográficos, surepresentación geográfica y la obtención de nuevas variables mediante funciones de

“query”. Por este motivo, el único formato aceptado para la cartografía digital es elproporcionado por ESRI, con la extensión “shp” (“shapefile”). 

En términos generales, las diferentes funciones de GeoDa podrían serclasificadas en 6 cateogorias: tratamiento de datos geográficos, transformación dedatos, representación gráfica en mapas, gráficos estadísticos, dependencia espacialy regresión espacial. Como se aprecia en la Figura 2, estas funciones pueden seractivadas a través del menú superior o directamente, tecleando en los iconos de labarra de herramientas. En cada una de las secciones principales existen varias sub-aplicaciones relacionadas.

Figura 2 GeoDa: vista principal con funciones del menú y barra de herramientas

Fuente: Elaboración propia a partir de GeoDa.

En el apartado siguiente, se presentan los principales métodos de AEDE conayuda de GeoDa. Para ello, se proponen algunos ejemplos ilustrativos de lascapacidades de estas técnicas para el análisis socioeconómico.

Page 7: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 7/21

4. MÉTODOS GRÁFICOS DEL AEDE

En los últimos años, se han propuesto gran cantidad de métodos gráficospara el AEDE aunque, como ponen de manifiesto Haining et al.  (2000), existenpocos estudios que valoren la utilidad y efectividad de todos ellos. En línea con Wise

et al. (1999), tal como propone Tukey (1977) para el AED, podría afirmarse que unbuen método gráfico de AEDE es aquél capaz de analizar y representar doscaracterísticas fundamentales en toda distribución espacial: tendencia y puntosatípicos. En el ámbito de las variables geográficas, la tendencia es de caráctergeográfico y tiene un sentido global, es decir, referido a todo el mapa (y no a unaparte del mismo). En cuanto a los atípicos espaciales (“spatial outliers”), se trata deespeciales concentraciones de datos cuyo valor se encuentra a cierta distancia de latendencia general (mediana): por ejemplo, bajo/sobre el primer/tercer cuartil de undiagrama de caja. Esta propiedad tiene un carácter local, pues suele producirse endeterminadas zonas del mapa general, normalmente en forma de agrupaciones (o“clusters”) de valores muy altos/bajos comparativamente con el entorno. 

En la Tabla 2, se presentan las principales técnicas del análisis exploratoriode datos reticular incluidas en el programa GeoDa agrupadas, según los dos citadoselementos de tendencia (global) y puntos atípicos (local)2.

Tabla 2: Métodos de análisis exploratorio en GeoDa

Tendencia espacial  Atípicos espaciales 

AED general  Histograma de frecuencias Diagrama de caja

Diagrama de dispersión

Gráfico de coordenadasparalelas

Gráfico de dispersión en 3D

AEDE reticular Mapas temáticos Mapa de caja

Mapa dinámico Mapa de percentiles

Gráficos condicionales Cartograma

Diagrama de dispersión deMoran

Gráficos LISA

Diagrama de dispersión deMoran multivariante

Gráficos LISA multivariantes

Fuente: Elaboración propia.

4.1. Métodos de representación de la tendencia espacial global

Como ya se ha indicado, la tendencia espacial es de carácter geográfico y tieneun sentido global, es decir, referido a todo el mapa (y no a una parte del mismo). Poreso, las técnicas del AEDE que analizan esta componente son herramientas derepresentación cartográfica para las que lo fundamental no es tanto el mapa en símismo, cuanto la representación gráfica de los estadísticos básicos. En la primeracolumna de la Tabla 2 se exponen los métodos más destacados, según que sean

2 Un análisis más detallado de algunas de estas técnicas se encuentra en Anselin (2003, 2004) y Anselin et al. 

(2004A, 2004B).

Page 8: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 8/21

métodos generales del AED o métodos explícitos del AEDE reticular. En amboscasos, se presentarán no sólo técnicas univariantes, sino también multivariantes.

4.1.1. Histograma de frecuencias

El histograma de frecuencias es un gráfico estadístico clásico en el AED.GeoDa calcula histogramas de frecuencias de las variable geográficas para distintasclasificaciones, aunque el número por defecto es 7. Cada una de las barras delhistograma tiene un color y es posible realizar una selección en el histograma paraver sobre el mapa las observaciones a las que corresponde. Esto es lo que sucedeen la Figura 3, en donde se han seleccionado las 4 barras del histograma defrecuencias con mayor tasa de extranjería en 2003 (en amarillo), de forma quequedan destacados en el mapa los barrios de Madrid a los que corresponde (barriosdel interior del municipio, por lo general).

Figura 3 Histograma de frecuencias de la tasa de extranjería en los barrios de Madrid

Fuente: Elaboración propia a partir de GeoDa.

4.1.2. Diagrama de dispersión

Este gráfico forma parte del AED general y tiene un carácter bivariante, dadoque representa sobre los 2 ejes cartesianos la distribución de 2 variables geográficascuya relación se desea conocer. GeoDa superimpone la recta de regresión ajustadapor el método de mínimos cuadrados ordinarios y adjunta el valor de la pendiente dela misma. Este gráfico se puede también calcular para los valores estandarizados delas variables, de forma que la pendiente de la recta de regresión se corresponda conel coeficiente de correlación de Pearson. Además, el análisis de los 4 cuadrantes deldiagrama de dispersión permite identificar las localizaciones con valores superioreso inferiores a la media en ambas variables o al contrario, valores superiores a lamedia en una variable e inferiores a la media en otra.

 Así, en la Figura 4 se presenta el diagrama de dispersión de la tasa deinstrucción superior (personas con título universitario y de bachiller) y la tasa de

paro, con alta correlación de signo negativo (r=-0,6 ). Se han destacado aquellosbarrios con valores superiores a la media en tasa de paro e inferiores a la media en

Page 9: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 9/21

tasas de instrucción superior y, como puede apreciarse en el mapa, se localizan enbarrios del sur de la capital.

Figura 4 Diagrama de dispersión de la tasa instrucción superior y tasa de paro

Fuente: Elaboración propia a partir de GeoDa.

4.1.3. Otros gráficos de AED multivariante

Entre los muchos gráficos propuestos por el AED clásico para el análisismultivariante, en general, mencionaremos aquéllos que son útiles para el estudio dedistribuciones geográficas: gráfico de coordenadas paralelas y gráfico de dispersión3D (en 3 dimensiones).

  Gráfico de coordenadas paralelas 

Este gráfico está especialmente diseñado para explorar relaciones entre 2 ómás variables. Las variables son representadas como líneas paralelas, sobre lascuales se representan, a modo de coordenadas, los valores de las variables. Paracada observación se unen los puntos correspondientes en cada línea, de forma queel resultado final es un conjunto de tantas líneas como observaciones. Este tipo degráfico resulta útil para captar agrupamientos (“clusters”) entre observacionescuando sus correspondientes líneas presenten una forma similar (por ejemplo, esténagrupadas de forma diferente en el gráfico). Además, es posible también detectargrupos de observaciones con pendientes comunes en las líneas de conexión inter-variables, poniendo de relieve una determinado tipo de correlación entre dichasvariables (positiva, negativa o nula).

 Así, por ejemplo, en la Figura 5 (izquierda) se han representado los valores de3 variables (tasa de paro, nivel de instrucción superior y tasa de infancia) para eltotal de barrios del municipio de Madrid y, como puede observarse, existe unatendencia común de forma que los barrios con menores tasas de infancia suelencoincidir con aquéllos con mayor nivel de instrucción superior y media tasa de paro.

Page 10: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 10/21

Sobre este gráfico es posible seleccionar aquellos barrios con comportamientos ycorrelaciones distintas.

Figura 5 Gráfico de coordenadas paralelas (izda.) y gráfico de dispersión 3D (dcha.)de la tasa de paro, instrucción superior e índice de infancia

Fuente: Elaboración propia a partir de GeoDa.

  Gráfico de dispersión en 3D 

La exploración de información espacial multivariante puede también llevarse acabo mediante el gráfico de dispersión en 3 dimensiones, que permite movimentosde rotación, traslación y acercamiento/alejamiento (“zooming”). También permite lashabituales funciones de enlace y cepillado (“linking” y “brushing”). En la Figura 5, se

han representado los valores de las variables de tasa de paro, tasa de instrucciónsuperior e índice de infancia correspondientes a los barrios del municipio de Madrid.

4.1.4. Mapas temáticos

Los mapas temáticos, en general, consisten en la representación cartográficade una variable geográfica. Esta representación en un mapa de la variable puedellevarse a cabo mediante símbolos y colores que pongan de manifiesto el valor deuna variable en cada una de las unidades geográficas consideradas (países,

regiones, etc.). Puede utilizarse un color/símbolo diferente para cada valor o paracada intervalo de valores de la variable. Dentro del AEDE reticular, los mapastemáticos más importantes para la representación de la tendencia espacial de unavariable son el mapa de cuantiles y el mapa de la desviación típica.

  Mapa de cuantiles. 

En este tipo de mapas, los datos se dividen y agrupan en una serie decategorías (cuantiles) con igual número de observaciones. Por ejemplo, este mapaserá un mapa de cuartiles si la distribución se divide en 4 grupos con igual númerode unidades territoriales. En el ejemplo de la Figura 6 (izquierda), el número de

categorías se ha establecido en 5, para construir un mapa de quintiles de la variabletasa de personas con título universitario y de bachiller para el conjunto de barrios del

Page 11: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 11/21

municipio de Madrid. Como puede observarse, en la leyenda se indica, entreparéntesis, el número de observaciones de cada categoría, 25 ó 26.

Este tipo de mapa no es útil en casos en los que la variable en cuestióncontenga un gran número de observaciones con valores parecidos (por ejemplo, en

el caso de variables de sucesos raros, cuando muchas observaciones tienen valorcero). El motivo es obvio: muchos cuantiles no podrán ser definidos al no poderasignar un mismo número de observaciones a los diferentes grupos.

Figura 6 Mapa de quintiles (izda.) y mapa de la desviación típica (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

  Mapa de la desviación típica 

Este mapa agrupa las observaciones según que sus valores caigan dentro deun rango estandarizado, entendido éste como un número determinado de unidadesde la desviación típica a partir de la media. Se trata de un mapa temático en el quelas categorías en las que se divide la variable se corresponden con múltiplos de lasunidades de la desviación típica. En la Figura 6 (derecha) se ha representado elmapa de la desviación típica de la tasa de paro de los barrios de Madrid. GeoDadivide la variable en 7 intervalos, de forma que el intermedio (nº 4) coincide con elvalor de la media y los 6 restantes vienen determinados por 1, 2 y 3 unidades de ladesviación típica. Por ejemplo, el intervalo 5º (10,93 a 13,21) está constituido por los40 barrios cuya tasa de paro se encuentra entre la media (10,93) y una unidad de ladesviación típica (2,28=13,21-10,93).

4.1.5. Mapa dinámico

El mapa dinámico (“map movie”) es una forma de animación del mapa queconsiste en la iluminación, sobre el mismo, de las distintas unidades geográficassegún su orden respecto del valor que adoptan en una variable (siempre de menor amayor). GeoDa permite la visualización de este mapa de forma simple (las unidadesse iluminan una vez, cuando les corresponde, y se apagan a continuación) oacumulativa (las unidades permanecen iluminadas hasta que el mapa entero quedailuminado. Por ejemplo, en la Figura 7 puede apreciarse cómo la variable tasa de

Page 12: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 12/21

instrucción superior adopta los menores valores en los barrios de la periferia deMadrid.

Figura 7 Mapa dinámico acumulativo: inicio (izda.) y pausa (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

4.1.6. Gráficos condicionales

El principio que subyace este tipo de gráficos es la utilización de 2 variablescondicionales que dividen a la muestra de datos en diferentes grupos (categorías).Se trata de dibujar, para una tercera variable, un gráfico o mapa diferente para cadagrupo o categoría. El programa GeoDa considera, para cada una de las 2 variablescondicionales, 3 grupos o categorías, por lo que se producirá un total de 9 gráficos omapas. Este programa permite variar los intervalos que determinan cada categoría.En concreto, con el programa GeoDa se pueden diseñar 4 tipos de gráficoscondicionales: mapas, diagramas de caja, histogramas condicionales y diagramasde dispersión condicionales. En el caso del diagrama de dispersión condicional, senecesitará de un cuarto eje: el 3º será para la variable dependiente (eje vertical deldiagrama de dispersión) y el 4º será para la variable explicativa (eje horizontal).

 Así, por ejemplo, en la Figura 8 se ha representado el mapa condicional delíndice de infancia, condicionado a la tasa de paro y tasa de instrucción superior.

Como puede observarse, sólo hay 1 barrio situado en la categoría de bajo valor delas variables condicionales de paro e instrucción superior (Cuatro Vientos), cuyoíndice de infancia es de los más elevados del municipio (color rojo oscuro). Por elcontrario, el barrio de Valdemarín, con también alto índice de infancia, es el únicosituado en la categoría de baja tasa de paro y alto nivel de instrucción. En el otroextremo (alta tasa de paro y baja/alta tasa de instrucción superior) no hay ningúnbarrio, por lo que los mapas correspondientes están en blanco. Aunque con alta tasade paro y nivel medio de intrucción superior hay varios barrios en la zona sureste dela capital que presentan un nivel medio en el índice de infancia. Por último, con altatasa de instrucción superior y nivel medio en la tasa de paro hay un importantenúmero de barrios, ocupando todo el centro y parte de la periferia, con niveles

medio/bajo en el índice de infancia.

Page 13: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 13/21

Figura 8 Mapa condicional del índice de infancia condicionado a la tasa de paro ytasa de instrucción superior.

Fuente: Elaboración propia a partir de GeoDa.

4.1.7. Análisis exploratorio de la dependencia espacial global

La dependencia o autocorrelación espacial consiste en la existencia de unarelación funcional entre lo que ocurre en un punto determinado del espacio y lo quesucede en lugares cercanos o vecinos al mismo. Es decir, una variable estaráespacialmente autocorrelacionada cuando los valores observados en un punto o

región dependan de los valores observados en regiones vecinas, de forma que seproduzca una cierta continuidad geográfica en la distribución de esta variable, porejemplo, sobre un mapa. La principales técnicas de asociación espacial en el AEDEreticular son el diagrama de dispersión de Moran y gráficos LISA (mapa/diagrama decaja), así como sus correspondientes versiones multivariantes. En este apartado, sepresentan los diagramas de dispersión de Moran (univariante y bivariante) al tratarsede técnicas de representación de la tendencia espacial, dejando los gráficos LISApara el Apartado 4.2.

  Diagrama de dispersión de Moran 

Se trata de un diagrama de dispersión que representa en el eje X la variablepreviamente estandarizada y en el eje Y se representa el retardo espacial de dichavariable estandarizada. Se entiende por retardo espacial el promedio ponderado de

Page 14: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 14/21

los valores que adopta una variable en el subconjunto de observaciones vecinas auna dada. Por ejemplo, el retardo espacial de la variable renta per cápita de laprovincia de Madrid podría obtenerse como una media aritmética simple de losvalores de renta per cápita en las provincias limítrofes (Segovia, Ávila, Toledo,Cuenca y Guadalajara).

En este tipo de diagrama de dispersión, en el que se relacionan, para cadaobservación, el valor de la variable en la misma y el valor promedio en suscorrespondientes observaciones vecinas, la pendiente de la recta de regresión es elvalor del denominado estadístico I de Moran de autocorrelación espacial global3. Así,cuanto mayor sea el valor de este estadístico, es decir, el ángulo que forme la rectade regresión con el eje de abscisas, más fuerte será el grado de autocorrelaciónespacial en la variable, y viceversa. En los ejemplos de la Figura 9, la variable tasade paro de los barrios madrileños tiene un mayor grado de dependencia espacialque la variable población.

Este diagrama de dispersión suele dividir el tipo de asociación espacial encuatro categorías: dos para autocorrelación espacial positiva (valores altos de unavariable rodeados de valores altos o valores bajos rodeados de valores bajos) y dospara autocorrelación espacial negativa (valores altos rodeados por valores bajos, yviceversa). Las categorías de asociación espacial positiva se corresponden con loscuadrantes I y III. Por ejemplo, en la Figura 5 (gráfico izquierdo) en los cuadrantes I yIII se presentan aquellos barrios que, con una tasa de paro superior/inferior a lamedia municipal (valor estandarizado positivo/negativo de la variable) se encuentranrodeados de barrios que también disponen de tasas de paro superiores/inferiores ala media municipal (retardo espacial positivo/negativo), respectivamente. Por elcontrario, las categorías de asociación negativa vienen dadas por los cuadrantes II yIV de este diagrama, en los que se representan los barrios con valores bajos/altosde tasa de paro rodeadas por barrios con valores altos/bajos de dicha variable,respectivamente.

Debe advertirse, además, que la regresión del retardo espacial sobre lavariable correspondiente se realiza con todas las hipótesis clásicas del análisis deregresión. Así, la interpretación del test I de Moran claramente permite conocer elgrado en que este estadístico resume la estructura global de asociación linealexistente en un fenómeno espacial que, en el caso que se expone en la Figura 5,para el total de la distribución, sería del 39% para la variable tasa de paro (valor del

estadístico I de Moran en términos porcentuales) y 15% para la población.Dado que los valores de la variable se encuentran estandarizados, es posible

conseguir información tanto de la asociación espacial global (pendiente de la rectade regresión) como de la asociación espacial local. De este modo, los valores en eldiagrama de dispersión de Moran situados a más de dos unidades del origen (valor0) pueden considerarse como puntos atípicos en el diagrama de dispersión deMoran, es decir, importantes “agujeros” locales de no estacionariedad espacial. Así,para la variable tasa de paro, habría 3 barrios con valores atípicamente bajos en latasa de paro, rodeados por barrios con también bajas tasas de paro (La Piovera, ElPlantío y Villamarín), así como barrios en entornos con tasas de paro atípicamente

altas (Orcasur y San Cristóbal). 3 Una revisión más extensa de las medidas estadísticas de autocorrelación espacial se encuentra,entre otras referencias, en Chasco (2003).

Page 15: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 15/21

 Figura 9 Diagrama de dispersión de Moran: univariante (izda.) y bivariante (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

  Diagrama de dispersión de Moran bivariante 

Se trata de un diagrama de dispersión de Moran en el que se representa en eleje vertical Y el retardo espacial de la variable que se desea explicar y en el eje X la

variable explicativa. Ambas variables deben estar previamente estandarizadas, detal forma que la media de ambas sea cero y la desviación típica sea uno. Es decir,se trata de ver la relación que existe, en cada punto de la muestra, entre los valoresde una variable y el valor medio de otra variable en el entorno de dicho punto. Lapendiente de la línea de regresión muestra el grado de relación lineal existente entrela variable del eje horizontal y los valores de la variable del eje vertical en los puntosvecinos a uno dado.

Este análisis resulta de gran utilidad en fenómenos socioeconómicos en losque se da un fenómeno de difusión espacial de forma que, por ejemplo, un cambioen las tasas de instrucción superior en un punto provocan un cambio en las tasas de

paro de los lugares vecinos a dicho punto. Éste es precisamente el ejemplo que sepresenta en la Figura 9 (derecha) para los barrios del municipio de Madrid. Comopuede observarse, el valor del estadístico I de Moran (-0,32), que coincide con lapendiente de la recta de regresión, es medianamente elevado y negativo. Es decir,los barrios con mayores/menores tasas de instrucción superior son los que tienen, asu vez, un entorno vecino con menores/mayores tasas de paro, respectivamente.

Sin embargo, hay dos barrios con valores especialmente bajos en la tasa deinstrucción superior que pueden estar condicionando el valor de la pendiente oestadístico I de Moran. El programa GeoDa es un programa dinámico que permiteprescindir de dichas observaciones y recalcular el valor de dicho estadístico deMoran que, como puede observarse, aumenta en términos absolutos a –0,44.

Page 16: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 16/21

4.2. Métodos de representación de los atípicos espaciales

Estos métodos exploratorios analizan la existencia de concentraciones deobservaciones cuyo valor se encuentra a cierta distancia de la tendencia general(mediana). Esta propiedad tiene un carácter local, pues suele producirse en

determinadas zonas del mapa general, normalmente en forma de agrupaciones (o“clusters”) de valores muy altos/bajos comparativamente con el entorno. En la Tabla2, se presentaban las principales técnicas de AEDE reticular destinadas al análisisde esta propiedad local: gráficos de caja (diagrama y mapa), mapa de percentiles,cartograma y gráficos LISA de dependencia espacial local. Estas técnicas poseen lapropiedad de poder detectar valores significativos atípicamente altos o bajos que sedeterminan a partir de criterios estadísticos.

4.2.1. Gráficos de caja

Los gráficos de caja constituyen un método de representación univariante. El

diagrama de caja es una representación muy común de AED general, cuyaconstrucción parte del cálculo de los cuartiles y la media de una variable, así comode la obtención de las llamadas cotas o valores adyacentes superior e inferior, quese obtienen, a su vez, como el producto de los valores del tercer (primer) cuartil por1,5 veces el recorrido intercuartílico. De esta forma, se consideran como valoresatípicos aquéllos situados por encima (o por debajo) de dichas cotas (en la Figura10, se trata del diagrama de la variable tasa de extranjería). Un criterio un poco másestricto que el anterior consistiría en multiplicar por tres el recorrido intercuartílicopara la fijación de las cotas.

En el ejemplo de la Figura 10, se ha representado el diagrama de caja de latasa de extranjería de los barrios de Madrid y, para el criterio menos estricto se hanidentificado 3 puntos atípicos correspondientes a los barrios de Embajadores, Sol yUniversidad (destacados en la parte superior del gráfico). El mapa de caja es unaderivación, propia del AEDE, a partir del diagrama de caja. En este mapa serepresentan con distintos colores las unidades geográficas cuyos datos en unavariable coinciden con la mediana, el rango intercuartílico y los valores atípicos (altosy bajos).

Figura 10 Gráficos de caja de la tasa de extranjería: diagrama (izda.) y mapa (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

Page 17: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 17/21

4.2.2. Mapa de percentiles

El mapa de percentiles es un caso particular del mapa de cuantiles, es decir, unmapa temático. Pero, a diferencia del mapa de cuantiles, este mapa permite ladetección de puntos atípicos en la distribución espacial. Las categorías se diseñan

de modo que queden acentuados los valores extremos de la variable. El programaGeoDa crea, en concreto, se crean 6 categorías correspondientes a los siguientespercentiles4: <1, [1,10), [10,50), [50,90), [90,99), >99. En la Figura 11, se presenta elmapa de percentiles de la variable índice de vejez. Como puede observarse, hay 3barrios con valores atípicamente altos: El Goloso y Hellín (San Blas), mientras quesólo un barrio tiene un valor atípicamente bajo: Horcajo (Moratalaz).

Figura 11 Mapa de percentiles (izda.) y cartograma del índice de vejez (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

4.2.3. Cartograma

El cartograma es un mapa en el que los valores de la variable que representano se diferencian con diferentes colores, sino mediante el tamaño de la superficie delas unidades geográficas (países, regiones, barrios). Las representación gráfica delas unidades geográficas a través de polígonos irregulares es reemplazada por uncírculo, que estará situado en la misma localización y cuyo tamaño será mayor omenor según sea el valor de la variable. Aunque en GeoDa el color por defecto para

los círculos es el verde, existen otros colores para destacar determinados valores,como los negativos (negro), ceros (blanco) y valores atípicamente altos (rojos) obajos (azul).

Los valores atípicos son identificados por el cartograma del mismo modo queen los gráficos de caja, a partir de cotas definidas por encima o por debajo del valormedio, como proporciones del recorrido intercuartílico (1,5 y 3). Así, en la Figura 11se muestra el cartograma de la variable índice de vejez, para el que se ha aplicadoel criterio de detección de puntos atípicos menos exigente. Como puede observarse,el cartograma destaca los mismos dos barrios con valores atípicamente altos que elmapa de percentiles: El Goloso y Hellín (San Blas), mientras que, también como el

4 El paréntesis cuadrado indica que ese extremo se incluye en el intervalo y el curvo indica que no se incluye.

Page 18: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 18/21

citado mapa, sólo un barrio tiene un valor inferior a la media menos 1,5 veces elrecorrido intercuartílico: Horcajo (Moratalaz).

4.2.4. Análisis exploratorio de la dependencia espacial local

El estadístico I de Moran y el gráfico de dispersión de Moran son métodos quepermiten analizar el fenómeno de dependencia o autocorrelación espacial desde unpunto de vista global. Es decir, no son capaces de detectar la presencia de bolsassignificativas de no-estacionariedad (“zonas calientes/frías”) que se desvían de latendencia general de una variable. Es cierto que el diagrama de dispersión de Moranes capaz de detectar ciertos aspectos locales de una distribución señalando aquellospuntos especialmente alejados de la media (superiores al valor 2). Pero no puededeterminar sobre la existencia de especiales “concentraciones” o “ausencia deconcentración” de valores altos/bajos de dicha variable. Para ello, se han diseñadolos gráficos LISA de dependencia espacial local que ofrecen una indicación delgrado de concentración de valores similares (altos o bajos) en torno a cada unidad

geográfica.

  Mapa LISA 

Las letras LISA significan “Local Indicator of Spatial Asociation”. El mapa LISAes un mapa en el que se representan las localizaciones con valores significativos endeterminados indicadores estadísticos de asociación espacial local (Getis y Ord,1992; Anselin, 1995; Ord y Getis, 1995; Unwin, 1996). En concreto, los gráficos LISAincluidos en GeoDa se basan en el estadístico I de Moran de asociación local. Setrata de un estadístico que, a diferencia del estadístico I de Moran anteriormenteexpuesto, no se calcula de forma global para todas las observaciones del mapa, sinoque adquiere un valor diferente para todas y cada una de ellas. Efectivamente, esteestadístico mide el grado de concentración de valores altos/bajos de una variable enel entorno geográfico de cada una de las observaciones de la muestra. Para cadavalor del estadístico es posible realizar una inferencia para evaluar el nivel designificatividad estadística de rechazo de la hipótesis nula de ausencia de similitud odisimilitud de valores en una localización geográfica. De este modo, se pone demanifiesto la presencia de puntos calientes (“hot spots”) o atípicos espaciales, cuyamayor o menor intensidad dependerá de la significatividad asociada de los citadosestadísticos.

En la Figura 12, se ha representado el mapa LISA de agrupamientosespaciales (“spatial clusters”) de la tasa de extranjería. Como puede observarse, através de una gradación de colores, este mapa representa las zonas calientes deconcentraciones de barrios con alto valor (color rojo) y bajo valor (azul) en la tasa deextranjería. La zona caliente de barrios con una significativa concentración de tasasaltas de extranjería está formada por los 6 barrios del distrito Centro de Madrid, asícomo en los barrios céntricos de Chopera, Palos de Moguer, Recoletos, Trafalgar, Almagro y Moscardó. En el extremo opuesto, la concentración de bajas tasas deextranjería se produce, en general, en barrios de los distritos periféricos deFuencarral-El Pardo, Hortaleza, San Blas, Vicálvaro, Moratalaz, Puente de Vallecasy Pacífico. El mapa destaca también aquellos barrios en los que se producen

discontinuidades significativas en los valores de la variable. Por ejemplo, el caso deSan Fermín y La Piovera, en los que la tasa de extranjería es especialmente alta,pero se encuentran rodeados por barrios con tasas especialmente bajas o el caso de

Page 19: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 19/21

los barrios de Imperial, Acacias, Atocha, Jerónimos y Vallehermoso que, con tasasde extranjería especialmente bajas, se encuentran rodeados por barrios con tasasespecialmente altas.

Figura 12 Gráficos LISA: mapa (izda.) y diagrama de caja (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

  Diagrama de caja LISA 

Se trata de un diagrama de caja que representa los valores del estadístico Ilocal de Moran de asociación espacial. En la Figura 12, se ha representado tambiénel diagrama de caja de los estadísticos locales de Moran, uno para cada barrio de

Madrid. De todos ellos, los que han resultado estadísticamente más significativos(mayor valor del estadístico) son los que se encuentran encima de la caja y se handestacado en amarillo. Como puede observarse, aunque el mapa pone de manifiestola presencia significativa en los barrios de concentraciones de valores altos y bajosde la tasa de extranjería, así como algunas disimilitudes de valores altos/bajos ybajos/altos, el diagrama de caja indica que sólo los 6 barrios del distrito Centro(Palacio, Embajadores, Cortes, Justicia, Universidad y Sol) y Palos de Moguerdestacan por su especialmente alta y significativa concentración de extranjeros en elmunicipio.

  Gráficos LISA bivariantes 

Por último, se presenta la versión multivariante de los gráficos LISA: el mapay diagrama de dispersión LISA bivariantes. En el caso univariante, el estadísticoLISA de asociación espacial comparaba los valores de una variable en cada unidadgeográfica con los valores de su correspondiente retardo espacial (variable con losvalores medios de las unidades vecinas a una dada). De este modo, es posibledeterminar la existencia o no de concentraciones significativas de una variable entorno a una unidad geográfica. En el caso bivariante, el estadístico LISA tiene encuenta para cada unidad geográfica, los valores de una variable y el retardo espacialde otra variable diferente. Por ejemplo, en el caso de la Figura 13, para cada barrio

de Madrid se calcula un estadístico LISA. Este estadístico mide el grado deasociación entre la tasa de paro, en un barrio, y la tasa de instrucción superior mediaen sus correspondientes barrios vecinos. De este modo, el mapa LISA bivariante

Page 20: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 20/21

destaca pocos casos de asociación local positiva: alta concentración de valores altosde ambas variables (Sol y Legazpi) y de valores bajos (Bellas Vistas y El Pardo). Sinembargo, predominan las concentraciones de valores disimilares en ambas variablescomo es el caso de alta instrucción en vecinos/baja tasa de paro que se produce engran parte de los barrios de los distritos del centro-norte (Salamanca, Chamartín,

Moncloa-Aravaca). Sin embargo, la mayor parte de los casos contrarios designificativa concentración de valores diferentes (baja instrucción en vecinos/altatasa de paro) se producen en barrios de los distritos del sur (Puente de Vallecas,Usera, Villaverde) y centro este (San Blas) de la capital.

Figura 13 Gráficos LISA bivariantes: mapa (izda.) y diagrama de caja (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

5. CONCLUSIÓN

El AEDE debe constituir la etapa previa a todo análisis modelizador y decisoren el campo de la investigación socioeconómica. En este artículo se han presentadolas principales técnicas del AEDE, que combinan el análisis estadístico con elgráfico, haciendo posible el estudio de las distribuciones espaciales y sus valoresatípicos, esquemas de asociación espacial, agrupamientos espaciales y puntoscalientes/fríos (“hot spots”). Para ello, se ha utilizado un nuevo programa informático,GeoDa, que tiene como grandes ventajas el haber sido concebido como un productoautosuficiente, que no supone para el usuario el conocimiento de un sistemaespecífico de GIS, funciona en cualquiera de los sistemas operativos de Windows yMac y es actualmente un producto de libre acceso en Internet.

Efectivamente, el análisis de las series geográficas requiere de herramientaspropias, que van más allá de las convencionales técnicas del AED o minería dedatos y, por tanto, de un “software” específico. Estas herramientas deben estardirigidas al análisis de 2 elementos fundamentales: tendencia espacial y puntosatípicos, entendiendo esto último no sólo como la determinación de valoressignificativamente altos/bajos de una variable, sino como “concentración” de valoressimilares o disimilares en torno a una unidad geográfica (dependencia espacial).

GeoDa es un programa que combina técnicas del AED convencional con las másnovedosas herramientas del AEDE, en un entorno dinámico que permite conexionesy arrastrado (“linking” y “brushing”) entre diferentes vistas. 

Page 21: Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

7/21/2019 Analisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing

http://slidepdf.com/reader/full/analisis-exploratorio-de-datos-espaciales-al-servicio-del-geomarketing 21/21

 6. BIBLIOGRAFÍA

. ANSELIN, L. (1995), “Local Indicators of Spatial Association-LISA” . Geographical Analysis,vol. 27(2); pp. 93-115.

. ANSELIN, L. (1999), “The future of spatial analysis in the social sciences” . GeographicInformation Sciences, 5 (2); pp. 67-76.

. ANSELIN, L. (2003), “GeoDaTM  0.9 user’s guide” . Página web del “Spatial AnalysisLaboratory”: http://sal.agecon.uiuc.edu/stuff_main.php#tutorials .

. ANSELIN, L. (2003), “GeoDaTM  0.9.5-i release notes” . Página web del “Spatial AnalysisLaboratory”: http://sal.agecon.uiuc.edu/stuff_main.php#tutorials .

. ANSELIN, L., Y.W. KIM e I. SYABRI (2004A), “Web-based analytical tools for theexploration of spatial data” . Journal of Geographical Systems (próxima publicación).

. ANSELIN, L, I. SYABRI y Y. KHO (2004B), “GeoDa: An introduction to spatial dataanalysis” . Geographical Analysis (próxima publicación).

. BAO, S., L. ANSELIN, D. MARTIN y D. STRALBERG (2000), “Seamless integration ofspatial statistics and GIS: the S-Plus for ArcView and the S+Grassland links” . Journal ofGeographical Systems 2 (3), pp. 287 –306.

. CHASCO, C. (2003), “Econometría espacial aplicada a la predicción-extrapolación de datosmicroterritoriales” . Consejería de Economía e Innovación Tecnológica de la Comunidad deMadrid.

. CRESSIE, N. (1993), “Statistics for spatial data..Revised edition”. New York: Wiley.

. GETIS, A. y J. ORD (1992), “The analysis of spatial association by use of distancestatistics” . Geographical Analysis, 24; pp. 189-206.

. HAINING, R., S. WISE y P. SIGNORETTA (2000),“Providing scientific visualization forspatial data analysis: Criteria and an assessment of SAGE” . Journal of GeographicalSystems, 2; pp.121-140.

. MORENO, R. y E. VAYÁ (2000), “Técnicas econométricas para el tratamiento de datosespaciales: la econometría espacial” . Edicions Universitat de Barcelona, colecció UB 44,manuals.

. ORD, J.K. y A. GETIS (1995), “Local spatial autocorrelati on statistics: distributional issuesand an application” . Geographical Analysis, 27.4; pp. 286-306.

. STATSOFT Inc. (2000), “Electronic Text Book Statsoft” . www.statsoft.com 

. TUKEY, J.W. (1977), “Exploratory Data  Analysis” . Reading: Addison-Wesley.

. UNWIN, A. (1996), “Exploratory spatial analysis and local statistics” . ComputationalStatistics, 11; pp. 387-400.

. UNWIN, A. (2000), “ Using your eyes- making statistics more visible with computers” .Computational Statistics & Data Analysis, 32; pp. 303-312.