Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva:...

72
Estadística descriptiva: el análisis exploratorio de los datos Martes, Viernes y Sábados de 9-11 hs

Transcript of Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva:...

Page 1: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Estadística descriptiva: el análisis exploratorio de los

datos

Martes, Viernes y Sábados de 9-11 hs

Page 2: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Mapa del epidemiólogo británico John Snow (1854)

2Estadística 2020 - Prof. Tamara Burdisso

Page 3: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Elecciones presidenciales EE.UU. año 2000. Estado de la Florida, 67 condados

0

500

1000

1500

2000

2500

3000

3500

0 50000 100000 150000 200000 250000 300000 350000 400000

Votos a presidente para Al Gore

Vo

tos

a p

resid

en

te p

ara

Bu

ch

an

an

3Estadística 2020 - Prof. Tamara Burdisso

Page 4: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Boleta mariposa del condado de Palm Beach del estado de Florida – Elecciones presidenciales EE.UU. año 2000

4Estadística 2020 - Prof. Tamara Burdisso

Page 5: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

El desastre del Challenger – 28 de enero de 1986

0

1

2

3

25 35 45 55 65 75 85

Temperatura en °F en las juntas al momento del lanzamineto

mero

de ju

nta

s c

on

alg

ún

dañ

o

Temperatura prevista en el

momento del lanzamiento

5Estadística 2020 - Prof. Tamara Burdisso

32° F = 0° Celcius

Page 6: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

El desastre del Challenger – 28 de enero de 1986

0

1

2

3

25 35 45 55 65 75 85

Temperatura en °F en las juntas al momento del lanzamineto

mero

de ju

nta

s c

on

alg

ún

dañ

o

Temperatura prevista en el

momento del lanzamiento

0

1

2

3

25 35 45 55 65 75 85

Temperatura en °F en las juntas al momento del lanzamiento

mero

de ju

nta

s c

on

alg

ún

dañ

o

6Estadística 2020 - Prof. Tamara Burdisso

Page 7: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Estadística descriptiva

• Primer análisis de un conjuntos de datos

• A través de un grupo de medidas resumen: métodos numéricos

• A través del análisis exploratorio: métodos gráficos y tabulares.

7Estadística 2020 - Prof. Tamara Burdisso

Page 8: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Estadística descriptiva: medidas resumen de un conjunto de datos

• Para resumir la información de un conjunto de datos, la estadística dispone de unas pocas medidas que concentran la máxima información -no más de 6 valores- que brindan un idea clara del comportamiento general de los datos.

• Estas medidas suelen presentarse en tres grandes grupos

• De tendencia central

• De dispersión

• De posición

8Estadística 2020 - Prof. Tamara Burdisso

Page 9: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• La media o promedio aritmético es la medida de tendencia central más popular (fácil de entender y de calcular)

• ¡Cuidado! ¿Qué ocurre si queremos obtener el promedio de dos medias, , con y observaciones respectivamente?

De tendencia central: la media

=

= ==+++

=n

i

i

n

i

i

n xnn

x

n

xxxx

1

121 1...

2n1n21 xyx

n

xnxn

nn

xnxnx 2211

21

2211 +=

+

+=

9Estadística 2020 - Prof. Tamara Burdisso

Page 10: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• En una empresa la edad media de sus trabajadores es de 36 años para los hombres y 32 para las mujeres. ¿Cuál es la edad media de sus trabajadores? ¿De qué depende?

• Ejemplo: Considere el siguiente conjunto de datos: 6, 7, 5, 2, 3, 8, 9

• Gran sensibilidad de la media a la presencia de valores extremos/atípicos/inusuales/anómalos/outliers.

De tendencia central: la media

)()( 21222111 nnnfynnnf +=+=

2211 xfxfx +=

71.57

9832576=

++++++=x

99 57.18=x

10Estadística 2020 - Prof. Tamara Burdisso

Page 11: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

De tendencia central: la mediana

• La mediana es el valor que al ordenar los datos de menor a mayor, deja 50% de los datos a la izquierda de ese valor y 50% de los datos a la derecha.

• En el ejemplo anterior la mediana es: 2, 3, 5, 6, 7, 8, 9

• Y si la muestra es 2, 3, 5, 6, 7, 8, 99 ¿cual es la media? ¿y la mediana?

• Escasa influencia de los valores extremos de la muestra en el cálculo de la mediana.

• Más recomendable que la media cuando se trabaja con datos que aún no han sido depurados.

• Es la medida de tendencia central que se debería mirar cuando se analizan variables como salarios, ingresos totales, etc.

11Estadística 2020 - Prof. Tamara Burdisso

Page 12: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

De tendencia central: la mediana

• Escasa influencia de los valores extremos de la muestra. Se dice que la mediana es una medida central robusta (a la presencia de valores extremos).

• Más recomendable que la media cuando se trabaja con datos que aún no han sido depurados.

• Es la medida de tendencia central que se debería mirar cuando se analizan variables como salarios, ingresos totales, etc.

12Estadística 2020 - Prof. Tamara Burdisso

Page 13: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

De tendencia central: la mediana y la moda

• Cómo se calcula la mediana cuando el nro. de observaciones es par?

2, 3, 5, 5, 6, 7, 8, 9

• La moda es el valor más frecuente. En 2, 3, 5, 5, 6, 7, 8, 9, es el 5.

• Si la muestra fuese 2, 3, 5, 5, 6, 7, 8, 9, 9 entonces la moda es 5 y 9.

• Tiene más sentido con datos cualitativos. Ej. en una muestra, el color de ojos más frecuente.

• Su presencia como medida de tendencia central se debe más a la tradición que a su utilidad.

Mediana=(5+6)/2=5.5

13Estadística 2020 - Prof. Tamara Burdisso

Page 14: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

De dispersión

• Un estadístico podría meter su cabeza en un horno y sus pies en hielo y decir que en promedio se encuentra bien. ¿Exagerado no? Pero piensen en el PIB per capita, indicador referente al bienestar de una nación.

• Resumir toda la información en un número sin atender a la variabilidad que presentan los datos es un problema grave.

• https://www.lanacion.com.ar/2107355-walter-sosa-escudero-los-datos-estadisticos-no-dicen-nada-son-interpretaciones

• Se debe entonces cuantificar la dispersión

14Estadística 2020 - Prof. Tamara Burdisso

Page 15: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

De dispersión: rango, varianza muestral y desvío estándar muestral

• El rango es la diferencia entre el valor máximo y el mínimo observado en la muestra. Ej 2, 3, 5, 5, 6, 7, 8, 9; Rango=9-2=7

• Medida muy sencilla pero poco confiable. Sólo tiene en cuenta los extremos del conjunto de datos. Podrían ser anómalos. Su utilidad puede estar en muestras pequeñas (menos de 10 datos).

• La medida de variabilidad más utilizada es el desvío estándar muestral o desviación típica.

• ¿Cómo haríamos para cuantificar la dispersión o variabilidad de un conjunto de datos? ¿La dispersión con respecto a quién?

15Estadística 2020 - Prof. Tamara Burdisso

Page 16: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

De dispersión: varianza muestral y desvío estándar muestral

( )siempre0=

i

i

n

xx

• Supongamos que disponemos de una muestra que es : 1, 2 ,4 ,7, 9. La media es 4.6.

1 2 4 7 9

4.6

16Estadística 2020 - Prof. Tamara Burdisso

Page 17: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• La varianza muestral es una medida bastante buena para medir la variabilidad

• Al igual que la media es muy sensible a la presencia de valores extremos (más aún por estar elevada al cuadrado)

• El inconveniente de la varianza es que las unidades son las mismas que la de los datos elevadas al cuadrado. Difícil de interpretar.

• La raíz cuadrada de la varianza se llama desvío estándar. La ventaja del desvío estándar es que se expresa las mismas unidades físicas de las observaciones.

De dispersión: varianza y desvío estándar

1

)(1

2

2

==

n

xx

s

n

i

i

1

)(1

2

==

n

xx

s

n

i

i

17Estadística 2020 - Prof. Tamara Burdisso

Page 18: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Cálculo de la varianza muestral y desvío estándar

• Cómo se calcula a mano la varianza?

18Estadística 2020 - Prof. Tamara Burdisso

(xi-media) (xi-media)2

2 -2.83 8.03

4 -0.83 0.69

3 -1.83 3.36

8 3.17 10.03

5 0.17 0.03

7 2.17 4.69

suma 29 suma 26.83

# de observaciones 6 varianza 5.37

media 4.83 desvío 2.32

Page 19: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Cálculo de la varianza muestral y desvío estándar

1

)(1

2

2

==

n

xx

s

n

i

i

• Cómo se calcula en una planilla de cálculo?

• En excel, varianza=var(lista de números)

• El desvío estándar =desvest(lista de números)

• Varianza( esperanza de vida)=83.002 años2

• Desvío estándar (esperanza de vida)=9.11 años

País Esperanza de vida en años

1 Afghanistan 60.9

2 Albania 77.4

3 Algeria 71.0

4 Angola 51.9

5 Antigua and Barbuda 76.0

6 Argentina 76.3

7 Armenia 74.6

183 Zambia 58.1

184 Zimbabwe 59.9

13.70=x

1

)(1

2

2

==

n

xx

s

n

i

i

19Estadística 2020 - Prof. Tamara Burdisso

Page 20: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Cálculo de la varianza y desvío estándar

• ¿Por qué usamos las desviaciones respecto de la media al cuadrado en el cálculo de la varianza?

• Porque es una forma fácil de deshacerse de los valores negativos, y así las observaciones que se encuentran a la derecha y/o a la izquierda son penalizadas de la misma manera.

• Y como se trata de una función cuadrática cuanto más lejos están de la media más ponderan, i.e más aumenta la variabilidad.

• Tener presente que la varianza y el desvío estándar no son dos medidas diferentes de dispersión. Cuando se conoce una de ellas, inmediatamente se conoce la otra.

20Estadística 2020 - Prof. Tamara Burdisso

Page 21: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• La desviación media absoluta (DMA) pone el foco en las desviaciones y no en los signos de estas. Muestra menos sensibilidad a los valores extremos que la varianza o la desviación estándar. Matemáticamente es más complejo trabajar con la DMA.

• La desviación mediana absoluta (DMedA). De utilidad frente a la presencia de valores extremos.

De dispersión: otras medidas

n

xxn

i

i=

= 1absoluto medio desvío

n

medianaxn

i

i=

= 1absoluta mediana desviación

21Estadística 2020 - Prof. Tamara Burdisso

Page 22: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Otra medida descriptiva: coeficiente de variación

22Estadística 2020 - Prof. Tamara Burdisso

Page 23: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Otra medida descriptiva: coeficiente de variación

• Cuanto mayor el coeficiente de variación (CV) mayor la variabilidad presente en los datos.

• Por lo general el CV es menor a 1.

• Para una mejor interpretación se suele presentar al CV multiplicado por 100 ( como un %).

• El coeficiente de variación es capaz de lidiar con los problemas de dimensionalidad de las variables de distintas muestras (e.g. peso y altura) y problemas de diferencia enormes en las medias de las muestras (e.g. peso de los elefantes y de las hormigas).

23Estadística 2020 - Prof. Tamara Burdisso

Page 24: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Otra medida descriptiva: coeficiente de variación

• Cuidado que el CV tiene algunos limitaciones.

• La media debería ser positiva (i.e. las observaciones positivas o nulas), porque el CV es una medida de variabilidad y por ende es nula o positiva.

• Cuando la media es cercana a 0 ( el aumento en el CV no necesariamente se debe a mayor variabilidad en los datos) el CV pierde significado.

• No es invariante a cambios en el origen.

• Es invariante a cambios de escala.

• Ejemplo: ¿quien presenta mayor variabilidad, el peso o la altura?

24Estadística 2020 - Prof. Tamara Burdisso

Peso hombres

(cm.)

Altura hombres

(cm.)

media 74.5 168.8

desvío típico 13 14

Muestra de cierto país

Page 25: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Otras medidas: Q1, Q2 y Q3 o medidas de posición

• Recordemos que la mediana es el valor que deja 50% de los datos a izquierda y 50% a derecha.

• De la misma forma, se podría determinar el valor que deja 50% de los datos a izquierda y 50% de los datos a la derecha dentro de la primera mitad. Esta nueva mediana es el primer cuartil y se denota por Q1 (quartile) equivalente al 25% de los datos.

• El mismo procedimiento podría realizarse con la mitad de los datos por encima de la mediana. En este caso se estaría determinando el tercer cuartil, Q3, equivalente al 75% de los datos.

Mediana=Q2Q1 Q3

25% 25% 25% 25%

75%

75%

25Estadística 2020 - Prof. Tamara Burdisso

Page 26: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Otras medidas: Q1, Q2 y Q3 y rango intercuartílico

• Q1, Q2 y Q3 son medidas de posición, para establecer “mojones”.

• La medida más sencilla de dispersión es el Rango=valor máximo-valor mínimo. Poco confiable.

• Rango intercuartílico: RIC (IQR son las siglas en inglés) Se calcula como Q3-Q1. Corresponde al 50% de los datos.

• Se trata de una medida de dispersión que elimina la influencia de los valores extremos.

• El rango intercuartílico es una medida robusta de dispersión.

• Ejemplo: dada la muestra 2825, 2380, 2210, 2630, 2255, 2380, 2350, 2390, 2440, 2450, 2420, 2550; hallar Q1, Q2 y Q3.

26Estadística 2020 - Prof. Tamara Burdisso

Page 27: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Otras medidas de posición

• Existen otras medidas de posición o “mojones” de la distribución . Se denominan percentiles.

• Los percentiles dan información de como se distribuyen los datos observados.

• El p-ésimo percentil es un valor tal que por lo menos un p% de los elementos tiene este valor o menos, y al menos un (100-p)% tienen este valor o más.

• Percentiles “famosos”: los percentiles de las tablas de pesos de los pediatras; los deciles de la distribución del ingreso, etc.

27Estadística 2020 - Prof. Tamara Burdisso

Page 28: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Como se calcula un p-ésimo percentil

1. Ordenar los datos de forma ascendente

2. Calcular el índice i, donde p es el percentil de interés y n es la cantidad de observaciones en la muestra.

3. (a) Si i no resulta entero, se redondea. El valor entero inmediato mayor que i, indica la posición del p-esimo percentil.

(b) Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i+1

Ejemplo: dada la muestra 2825, 2380, 2210, 2630, 2255, 2380, 2350, 2390, 2440, 2450, 2420, 2550; hallar el percentilo 20 y el percentilo 50.

np

i

=

100

28Estadística 2020 - Prof. Tamara Burdisso

Page 29: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Medidas robustas

• Ejercicio: ¿quién está menos afectado por los valores extremos, la media o la mediana? ¿Y quién entre el desvío estándar y el RIC?

a. Media y desvío

b. Media y RIC

c. Mediana y RIC

d. Mediana y SD

29Estadística 2020 - Prof. Tamara Burdisso

Page 30: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Resumiendo…

Robusta No Robusta

de tendencia central Q2=mediana media

de dispersiónIQR=rango

intercuartílico

desvío estándar,

rango

30Estadística 2020 - Prof. Tamara Burdisso

Page 31: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• La media y el desvío estándar pueden ser aprovechados para aprender acerca de un conjunto de datos

• Se puede determinar la localización relativa de cualquier valor de un conjunto de datos

• Supongamos que se dispone de una muestra de datos de tamaño n, i.e. y que conocemos su media y su desvío estándar .

• Valor z o valor estandarizado:

• El valor se interpreta como la cantidad de desviaciones estándar que la observación dista de

• Ejemplo: 46, 54, 42, 46, 32

Medidas de localización relativa: valor z

nxxx ,...,, 21 xs

s

xxz i

i

−=

iz

xix

31Estadística 2020 - Prof. Tamara Burdisso

Page 32: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• Si indica que es 1.5 desvíos estándar mayor que la media,

• Si indica que está a 0.5 ó ½ desvío estándar por debajo(signo negativo) de la media.

• Valores mayores que cero indican que la observación es mayor a la media. Valores menores que cero indica observaciones por debajo de la media.

• Valores igual a cero corresponde a datos igual al promedio.

• Para cualquier elemento de la muestra el valor indica la ubicación relativa del elemento en un conjunto de datos.

• Si los elementos de dos diferentes conjuntos de datos tienen el mismo valor , se puede afirmar que poseen la misma ubicación relativa.

• Los valores de un conjunto de datos revelan rápidamente cuales podrían considerarse como valores inusuales o extremos.

Medidas de localización relativa: valor z

z

z

z

x

ix

5.11 =z 1x

5.0−=iz

z

z

z

32Estadística 2020 - Prof. Tamara Burdisso

Page 33: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• La desigualdad de Chebyshev permite inferir el porcentaje de elementos (observaciones) que deben quedar dentro de una cantidad específica de desvíos estándar respecto a la media.

• Teorema: dado un número y una muestra , por lo menos de las observaciones, estará dentro del

• La desigualdad de Chebyshev proporciona una cota inferior para la distribución de los datos, sin importar como se distribuyen ni la variabilidad que exhiban.

Desigualdad de Chebyshev (1845/1850)

( )%11100 2k−

nxxx ,...,, 21

( )ksxksx +− ,

1k

Valor z2 75% de las observaciones están a menos de 2 desvíos estándar3 89% de las observaciones están a menos de 3 desvíos estándar4 94% de las observaciones están a menos de 4 desvíos estándar

33Estadística 2020 - Prof. Tamara Burdisso

Page 34: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Estadística descriptiva: métodos gráficos

• Datos numéricos - Fuente: www.gapminder.org

• Datos categóricos - Fuente: openintro.org

País Esperanza de vida en años

1 Afghanistan 60.9

2 Albania 77.4

3 Algeria 71.0

4 Angola 51.9

5 Antigua and Barbuda 76.0

6 Argentina 76.3

7 Armenia 74.6

183 Zambia 58.1

184 Zimbabwe 59.9

gender age maritalStatushighestQualificationnationality ethnicity

Male 38 Divorced No QualificationBritish White

Female 42 Single No QualificationBritish White

Male 40 Married Degree English White

Female 40 Married Degree English White

Female 39 Married GCSE/O LevelBritish White

Female 37 Married GCSE/O LevelBritish White

Male 53 Married Degree British White

34Estadística 2020 - Prof. Tamara Burdisso

Page 35: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Estadística descriptiva: datos numéricos

• Fuente: www.gapminder.org

País Esperanza de vida en años

1 Afghanistan 60.9

2 Albania 77.4

3 Algeria 71.0

4 Angola 51.9

5 Antigua and Barbuda 76.0

6 Argentina 76.3

7 Armenia 74.6

183 Zambia 58.1

184 Zimbabwe 59.9

35Estadística 2020 - Prof. Tamara Burdisso

Page 36: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: histograma

• Representación gráfica que se utiliza para identificar patrones de un conjunto de datos, la densidad de los mismos, agrupándolos en un número relativamente pequeño de clases no solapadas.

Tabulation of Esperanza de vida en años

Date: 02/05/15 Time: 18:00

Sample: 1 184

Included observations: 180

Number of categories: 8

Cumulative CumulativeValue Count Percent Count Percent

[45, 50) 5 2.78 5 2.78

[50, 55) 9 5 14 7.78

[55, 60) 14 7.78 28 15.56

[60, 65) 19 10.56 47 26.11

[65, 70) 27 15 74 41.11

[70, 75) 43 23.89 117 65

[75, 80) 38 21.11 155 86.11[80, 85) 25 13.89 180 100

Total 180 100 180 100

Frecuencia de

clase

clases

Frecuencia

relativa

Frecuencia

acumulada

Frecuencia

relativa

acumulada

Tabla de frecuencias o distribución de frecuencias

36Estadística 2020 - Prof. Tamara Burdisso

Page 37: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: histograma

• Cantidad de clases: entre 5 y 20

• Ancho de clase aprox: (valor máx.-valor mín.)/cantidad de clases

• Su utilidad radica en revelar rápidamente la forma de la distribución de los datos.

Distribución de frecuencias relativas de la esperanza de vida

0

5

10

15

20

25

30

[45, 50) [50, 55) [55, 60) [60, 65) [65, 70) [70, 75) [75, 80) [80, 85)

0

10

20

30

40

50

45 50 55 60 65 70 75 80 85

Fre

qu

en

cy

Esperanza de vida

37Estadística 2020 - Prof. Tamara Burdisso

Page 38: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: histograma

• ¡Cuidado con el ancho de clase! Puede alterar la historia de lo que se está contando.

0

10

20

30

40

50

45 50 55 60 65 70 75 80 85

Fre

qu

en

cy

Esperanza de vida

20

40

60

80

100

120

140

40 50 60 70 80 90 100

Fre

qu

en

cy

Esperanza de vida

0

2

4

6

8

10

12

14

16

44 48 52 56 60 64 68 72 76 80 84

Fre

qu

en

cy

Esperanza de vida

38Estadística 2020 - Prof. Tamara Burdisso

Page 39: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: histograma de las frecuencias acumuladas

39Estadística 2020 - Prof. Tamara Burdisso

Cuidado!Estar atento a la escala del eje Y

Page 40: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: histograma

40Estadística 2020 - Prof. Tamara Burdisso

Page 41: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: histograma

41Estadística 2020 - Prof. Tamara Burdisso

Page 42: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: histograma

42Estadística 2020 - Prof. Tamara Burdisso

Page 43: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: histograma

43Estadística 2020 - Prof. Tamara Burdisso

Page 44: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Forma del histograma: asimetría o sesgo

• Cuando los datos se mueven en una dirección se dice que la distribución tiene cola larga/pesada. Si la distribución tiene cola larga hacia la izquierda (derecha), entonces es sesgada hacia la izquierda (derecha).

Asimetría o sesgo a la derecha

Asimetría o sesgo a la izquierda

Simétrica

44Estadística 2020 - Prof. Tamara Burdisso

Page 45: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Forma del histograma: asimetría o sesgo

• ¿Dónde se ubican la media y la mediana en estas distribuciones?

Asimetría o sesgo a la derecha

Asimetría o sesgo a la izquierda

Simétrica

MEDIA……...MEDIANA MEDIA……...MEDIANA MEDIA…..….MEDIANA

45Estadística 2020 - Prof. Tamara Burdisso

Page 46: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Forma de la distribución: asimetría o sesgo

Asimetría o sesgo a la derecha

Asimetría o sesgo a la izquierda

Simétrica

MEDIA < MEDIANA MEDIA ~ MEDIANA MEDIA > MEDIANA

media

mediana mediana

media

46Estadística 2020 - Prof. Tamara Burdisso

Page 47: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Forma del histograma: moda

• ¿Cuantos picos (máximos locales) prominentes tiene el histograma?

• Sólo uno → unimodal

• Dos → bimodal

• Tres o más → multimodal

• Ningún pico → uniforme47

Estadística 2020 - Prof. Tamara Burdisso

Page 48: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Forma del histograma: outliers

• ¿Existen observaciones anómalas o inusuales en los datos?

• ¿Por qué los outliers son importantes?

• Revelan información sobre la falta de simetría/ sesgo.

• Pueden llevar a revisar la carga de los datos (errores de tipeo)

• Brindan información interesante sobre la distribución de los datos.

48Estadística 2020 - Prof. Tamara Burdisso

Page 49: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Forma del histograma: outliers

• Moda

• Sesgo

unimodal bimodal multimodal uniforme

simétrica Sesgada a izquierda Sesgada a derecha49

Estadística 2020 - Prof. Tamara Burdisso

Page 50: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Ejercicio

• ¿Cuales de estas variables esperaría que muestren una distribución uniforme?

• Precios de los departamentos en la Ciudad de Buenos Aires.

• Salarios de una muestra de individuos tomada al azar en la provincia de Santa Fe.

• La fecha de nacimiento (día y mes) de todos los alumnos que actualmente cursan Estadística.

50Estadística 2020 - Prof. Tamara Burdisso

Page 51: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Ejercicio

• ¿Cuál de las siguientes alternativa se ajusta mejor al histograma del porcentaje de tiempo que los alumnos de una clase destinan a tomar nota de la clase vs. a navegar en Facebook, Twitter, whatsApp, etc ?

a) mediana > media c) media ~ mediana

b) media > mediana d) no puede inferirse51

Estadística 2020 - Prof. Tamara Burdisso

Page 52: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• Anatomía del box-plot

• Ejercicio: calcular el LS y el LI de los bigotes (wiskers)

Datos numéricos: diagrama de cajas (Box-Plot)

RICQRICQ *3 lejanooutlier ó *3lejanooutlier 13 −+

45

50

55

60

65

70

75

80

85

ESPERANZA_VIDA

Descriptive Statistics for

Esperanza de vida

Mean 70.25

Median 72.72

Max 83.58

Min. 45.56

Quant. p=0.25 64.27

Quant. p=0.75 76.58

Std. Dev. 9.10

Obs. 180

RICQRICQRICQRICQ *5.1 cercanooutlier *3 ó *3 cercanooutlier *5.1 1133 −−++

52Estadística 2020 - Prof. Tamara Burdisso

min(x(n), Ls)

max(x(1), Li)

Page 53: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

¿Verdadero o falso?

1. Hay más datos entre la mediana y Q3 que entre Q1 y mediana.

2. Es possible identificar el sesgo a partir del boxplot.

3. Es possible identificar la moda.

Datos numéricos: histogramas vs. boxplots

53Estadística 2020 - Prof. Tamara Burdisso

Page 54: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: diagrama de tallos y hojas (stem and leaf)

Stem-and-leaf plot for lifeexpectancyatbirth (Life expectancy at birth)

Steam

4s

4

5*

5t

5f

5s

5

6*

6t

6f

6s

6

7*

7t

7f

7s

7

8*

8t

8f

8 8 8 8 8 9 9 9

0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1

2 2 2 2 2 2 2 2 2 2 3 3

4

8 8 8 8 8 8 8 8 8 9 9 9 9 9 9

2 2 2 2 2 2 2 3 3 3 3 3 3 3

6 6 6 6 6 6 6 7 7 7 7 7 7

0 0 0 1 1 1 1 1 1 1 1

4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

0 1 1 1 1

2 2 2 2 2 2 3 3 3 3 3

4 4 4 5 5 5

6 6 6 7 7 7 7

4 4 5 5 5 5 5

6 67 7

8 8 9 9 9 9

Leaf

6

8 9 9

0 0 0 1 1

2 3 3

http://www.calculatorsoup.com/calculators/statistics/stemleaf.php

54Estadística 2020 - Prof. Tamara Burdisso

Page 55: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: series de tiempo

• Cuando se desea tener en cuenta el orden en que se han tomado los datos, los histogramas no son útiles.

• En estos casos se considera un gráfico de series de tiempo.

• Cuidado con las escalas! No caer en la trampa, particularmente cuando se realizan comparaciones.

Argentina- Tasa de inflación anual

-500

0

500

1000

1500

2000

2500

3000

3500

1980

1982

1984

1986

1988

1990

1992

1994

1996

1998

2000

2002

2004

2006

2008

2010

2012

en p

orc

enta

je

Argentina- Tasa de inflación anual

-5

0

5

10

15

20

25

30

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

en p

orc

enta

je

55Estadística 2020 - Prof. Tamara Burdisso

Page 56: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: diagrama de puntos (scatterplot)

• El diagrama de puntos o scatterplot es la herramienta cuando se analiza la relación de dos variables en forma conjunta.

País

1 Afghanistan 1907 60.9

2 Albania 9489 77.4

3 Algeria 12957 71.0

4 Angola 7319 51.9

5 Antigua and Barbuda 20002 76.0

6 Argentina 17629 76.3

7 Armenia 7501 74.6

… … …

… … …

183 Zambia 3070 58.1

184 Zimbabwe 1445 59.9

Esperanza de

vida en años

PBI per capita

PPP ($US de

2011)

56Estadística 2020 - Prof. Tamara Burdisso

Page 57: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: diagrama de puntos (scatterplot)

• Cada punto del plano es un par ordenado (x,y)=(PIB per capita, esperanza de vida). Son datos pareados/apareados.

Datos 2013

40

45

50

55

60

65

70

75

80

85

90

0 20000 40000 60000 80000 100000 120000 140000 160000

PIB per capita (PPP en U$S 2011)

Esp

era

nza d

e v

ida a

l n

acer

(en

os)

Outlier?

57Estadística 2020 - Prof. Tamara Burdisso

Page 58: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: diagrama de puntos (scatterplot)

• Cada punto del plano es un par ordenado (x,y)=(PIB per capita, esperanza de vida). Son datos apareados.

Datos 2013

40

45

50

55

60

65

70

75

80

85

90

0 20000 40000 60000 80000 100000 120000 140000 160000

PIB per capita (PPP en U$S 2011)

Esp

eran

za d

e vi

da

al n

acer

(en

os)

Qatar

Guinea

Bostwana

58Estadística 2020 - Prof. Tamara Burdisso

Page 59: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: diagrama de puntos (scatterplot)

• Cada punto del plano es un par ordenado (x,y)=(esperanza de vida, tasa de mortalidad). Son datos apareados.

59Estadística 2020 - Prof. Tamara Burdisso

Page 60: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: diagrama de puntos (scatterplot)

• Evaluación de la relación

lineal

curvada

negativa

positiva

Dirección Forma

Intensidad

fuerte

débil

Ninguna relación

Outliers

60Estadística 2020 - Prof. Tamara Burdisso

Page 61: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Medida de asociación entre dos variablesDatos 2013

40

45

50

55

60

65

70

75

80

85

90

0 20000 40000 60000 80000 100000 120000 140000 160000

PIB per capita (PPP en U$S 2011)

Es

pe

ran

za

de

vid

a a

l n

ace

r (e

n a

ño

s)

III

III

IV

61Estadística 2020 - Prof. Tamara Burdisso

ത𝑌 =70.1

ത𝑋 =16.543

Page 62: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Medida de asociación entre dos variables

62Estadística 2020 - Prof. Tamara Burdisso

III

III IV

Page 63: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• Hasta ahora vimos métodos numéricos cuyo objeto es resumir los datos de una sóla variable.

• Pero el interés puede radicar en la relación entre dos variables.

• Supongamos que tenemos 2 variables para muestras de tamaño n. Sean

• La covarianza de la muestra o covarianza muestral se define como

Medida de asociación entre dos variables

1

))((

−−=

n

yyxxs

ii

xy

63Estadística 2020 - Prof. Tamara Burdisso

𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑛 𝑦 𝑦1, 𝑦2, 𝑦3, … , 𝑦𝑛

Page 64: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Medida de asociación entre dos variables

nn yyyxxx ,...,y ,...,, 2121

13.70=y

1

))((

−−=

n

yyxxs

ii

xy

País

1 Afghanistan 1907 60.9

2 Albania 9489 77.4

3 Algeria 12957 71.0

4 Angola 7319 51.9

5 Antigua and Barbuda 20002 76.0

6 Argentina 17629 76.3

7 Armenia 7501 74.6

… … …

… … …

183 Zambia 3070 58.1

184 Zimbabwe 1445 59.9

Esperanza de

vida en años

PBI per capita

PPP ($US de

2011)

3.16543=x

En excel, =covar(lista de números var1, lista de números var2)

64Estadística 2020 - Prof. Tamara Burdisso

75.101091=xys

Page 65: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• Una covarianza positiva (negativa) indica asociación linealpositiva (negativa).

• Sin embargo nada se puede decir de la intensidad de esta relación porque el problema con la covarianza es que depende de las unidades de medida de las variables de interés.

• El coeficiente de correlación es la solución a este problema, ya que lo independiza de las unidades

• En excel =coef.de.correl(lista de números var1, lista de números var2)

Medida de asociación entre dos variables

)1()()1()(

1

))((

22 −−−−

−−

==

nyynxx

n

yyxx

ss

sr

ii

ii

yx

xy

xy

65Estadística 2020 - Prof. Tamara Burdisso

Page 66: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

• El coeficiente de correlación toma valores entre -1 y 1.

• Si el coeficiente de correlación es igual a 1, se tiene una asociación lineal positiva perfecta, intensidad máxima.

• Si el coeficiente de correlación es igual a -1, se tiene una asociación lineal negativa perfecta, intensidad máxima.

• Si el coeficiente de correlación es igual a 0, indica que no hay relación lineal.

• En el ejemplo de ingreso per capita y esperanza de vida el coeficiente es

Medida de asociación entre dos variables

11 − xyr

594.0=xyr

66Estadística 2020 - Prof. Tamara Burdisso

Page 67: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Diferente grados de correlaciones muestrales

Estadística 2020 - Prof. Tamara Burdisso67

Page 68: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos numéricos: diagrama de puntos (scatterplot)

• Advertencia: que se observe una estrecha relación entre las variables no implica que exista una relación causa-efecto entre las mismas.

• Ejemplo: Pensar en un scatterplot donde en el eje de las x se representa los daños ocasionados en el siniestro y en el eje de las y la cantidad de bomberos que actuaron en determinado siniestro . A mayor daño, mayor la cantidad de bomberos que actúan en el siniestro, pero claramente no son los bomberos los que causan el daño. Existe una tercera variable (omitida), que es la que mantiene la relación causa-efecto. En este ejemplo es la magnitud del incendio.

• En series de tiempo, puede haber correlaciones espurias entre variables que tienen tendencia http://www.tylervigen.com/spuriouscorrelations

68Estadística 2020 - Prof. Tamara Burdisso

Page 69: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos categóricos

• Al igual que los datos numéricos, los datos categóricos pueden ser ordenados/tabulados y analizados.

gender age maritalStatus highestQualification nationality ethnicity

Male 38 Divorced No Qualification British White

Female 42 Single No Qualification British White

Male 40 Married Degree English White

Female 40 Married Degree English White

Female 39 Married GCSE/O Level British White

Female 37 Married GCSE/O Level British White

Male 53 Married Degree British White

Male 44 Single Degree English White

Male 40 Single GCSE/CSE English White

Female 41 Married No Qualification English White

Tabulation of ESTADO_CIVIL

Date: 02/05/15 Time: 17:38

Sample: 1 1691

Included observations: 1691

Number of categories: 5

Cumulative Cumulative

Value Count Percent Count Percent

Divorced 161 9.52 161 9.52

Married 812 48.02 973 57.54

Separated 68 4.02 1041 61.56

Single 427 25.25 1468 86.81

Widowed 223 13.19 1691 100

Total 1691 100.00 1691 100

Tabla de frecuencias o distribución de frecuencias

69Estadística 2020 - Prof. Tamara Burdisso

Page 70: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos categóricos: gráfico de barras

0

100

200

300

400

500

600

700

800

900

Divorced Married Separated Single Widowed

cantidad d

e o

bserv

acio

nes

0

10

20

30

40

50

60

Divorced Married Separated Single Widowed

en p

orc

enta

jes

0

20

40

60

80

100

120

1

en p

orc

enta

jes

Divorced Married Separated Single Widowed

El gráfico de barras es para datos categóricos. El orden de las categorías es intercambiable

El histograma es para datos numéricos. El eje de las abscisas es numérico. ¡El orden importa!

70Estadística 2020 - Prof. Tamara Burdisso

Page 71: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos categóricos

• Cuando se dispone de más de una variable categórica, la tabulación se denomina Tabla de contingencia.

Tabla de contingencia

Tabulation of ESTADO_CIVIL and SEXO

Date: 02/09/15 Time: 19:12

Sample: 1 1691

Included observations: 1691

Tabulation Summary

Variable Categories

ESTADO_CIVIL 5

SEXO 2

Product of Categories 10

SEXO

Count Female Male Total

Divorced 111 50 161

Married 423 389 812

ESTADO_CIVIL Separated 46 22 68

Single 222 205 427

Widowed 163 60 223

Total 965 726 1691

71Estadística 2020 - Prof. Tamara Burdisso

Page 72: Estadística descriptiva: el análisis exploratorio de los datos · Estadística descriptiva: medidas resumen de un conjunto de datos •Para resumir la información de un conjunto

Datos categóricos y datos numéricos

0

20

40

60

80

100

Divorced

0

20

40

60

80

100

Married

0

20

40

60

80

100

Separated

0

20

40

60

80

100

Single

0

20

40

60

80

100

Widowed

EDAD by ESTADO_CIVIL

Distribución de las edades de los individuos de la muestra según el estado civil

Edad: var. numérica

Estado civil: var. categórica

72Estadística 2020 - Prof. Tamara Burdisso