Unidad 2. Estad stica descriptiva Javier Santib...

of 30/30
Conceptos b´ asicos de la inferencia estad´ ıstica Unidad 2. Estad´ ıstica descriptiva Javier Santib´ nez IIMAS, UNAM [email protected] Semestre 2019-1 Javier Santib´ nez (IIMAS, UNAM) Estad´ ıstica descriptiva Semestre 2019-1 1 / 30
  • date post

    18-Mar-2020
  • Category

    Documents

  • view

    1
  • download

    0

Embed Size (px)

Transcript of Unidad 2. Estad stica descriptiva Javier Santib...

  • Conceptos básicos de la inferencia estad́ıstica

    Unidad 2. Estad́ıstica descriptiva

    Javier Santibáñez

    IIMAS, UNAM

    [email protected]

    Semestre 2019-1

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 1 / 30

  • Contenido

    1 Tipos de variables y escalas de medición

    2 Medidas de tendencia central

    3 Medidas de dispersión

    4 Medidas de forma

    5 Medidas de asociación

    6 Representaciones gráficas

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 2 / 30

  • Tipos de variables

    Las variables se clasifican según los valores que pueden tomar. Una de las

    clasificaciones más utilizadas es la siguiente:

    • Categóricas: corresponden a mediciones no cuantificables.

    • Nominales: Su rango está compuesto de categoŕıas sin un orden evidente

    (nacionalidad, género, código postal).

    • Ordinales: Su rango está compuesto de categoŕıas ordenadas (nivel de

    escolaridad, dominio de un idioma, preferencias en escala Likert).

    • Numéricas: corresponden a mediciones cuantificables.

    • Discretas: Tienen rango numerable (edad en años, número de hijos,

    número de cuartos en la vivienda).

    • Continuas: Tienen rango no numerable (virtualmente cualquier

    magnitud f́ısica como tiempo, masa, temperatura).

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 3 / 30

  • Medición

    Medir (DRAE, 2014)

    1. Comparar una cantidad con su respectiva unidad, con el fin de averiguar

    cuántas veces la segunda está contenida en la primera.

    3. Comparar algo no material con otra cosa.

    • Cuando se habla de medición de magnitudes f́ısicas se hace referencia

    a la asignación de cantidades numéricas.

    • El propósito de medir es poder deducir información acerca de los entes

    medidos a partir de operar con sus mediciones.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 4 / 30

  • • En el caso de las magnitudes f́ısicas hay una correspondencia entre

    manipular f́ısicamente a los objetos medidos y manipular sus mediciones

    con operaciones matemáticas.

    • Cuando lo que se mide no son magnitudes f́ısicas, puede no existir una

    correspondencia entre la manipulación f́ısica o abstracta de los objetos

    medidos y la aplicación de operaciones aritméticas a sus mediciones.

    • El mayor logro que se puede tener en medición es conseguir una escala

    que permita tal relación. Aunque es posible lograr escalas de medición

    intermedias que permitan obtener conclusiones relevantes.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 5 / 30

  • Escalas de medición

    Las escalas de medición se clasifican según las operaciones permitidas con

    las mediciones. mediciones.

    • Nominal: Comparaciones de igualdad.

    • Ordinal: Comparaciones de igualdad y comparaciones de orden relacio-nadas con la intensidad del atributo medido.

    • De intervalos. Comparaciones de igualdad y orden, además de opera-ciones aritméticas con las diferencias, aunque el cero y las unidades de

    medida son arbitrarias.

    • De razón. Comparaciones de igualdad y orden, además de operacionesaritméticas con las mediciones, en este caso el cero es absoluto e indica

    ausencia del atributo pero las unidades de medida son arbitrarias.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 6 / 30

  • Ejemplos de variables y sus escalas

    • Nominal: nacionalidad, género, código postal.

    • Ordinal: nivel de escolaridad, dominio de un idioma, preferencias en

    escala Likert.

    • De intervalos: año calendario, escalas Celsius y Farenheit de tempera-

    tura.

    • De razón: edad, escala Kelvin de temperatura, escalas para medir otras

    magnitudes f́ısicas.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 7 / 30

  • Estad́ıstica descriptiva

    • La estad́ıstica descriptiva es el conjunto de técnicas anaĺıticas y gráficas

    que se utilizan para describir un conjuntos de datos.

    • Generalmente el interés se centra en estudiar la distribución de una

    cierta variable en el conjunto de datos o estudiar asociaciones entre

    pares de variables.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 8 / 30

  • Tipos de estad́ısticas descriptivas

    • Medidas de tendencia central: se utilizan para describir el comporta-

    miento t́ıpico de las observaciones. En general, son estad́ısticos que

    permiten conocer algún aspecto de la localización de las mediciones.

    • Medidas de dispersión: se utilizan para describir la variabilidad en las

    observaciones.

    • Medidas de forma: se utilizan para describir la forma en cómo se dis-

    tribuyen las observaciones. Generalmente cuantifican desviaciones a la

    forma de campana de la distribución normal.

    • Medidas de asociación: se utilizan para cuantificar asociaciones entre

    pares de variables. Las medidas más utilizadas cuantifican asociaciones

    lineales.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 9 / 30

  • Medidas de tendencia central

    Suponer que se tienen las observaciones: x1, x2, . . . , xn.

    • Promedio o media aritmética:

    x̄ =x1 + x2 + . . .+ xn

    n=

    1

    n

    n∑i=1

    xi

    • Estad́ısticos de orden:

    x(1) = ḿın {x1, x2, . . . , xn}

    x(n) = máx {x1, x2, . . . , xn}

    En un conjunto con n observaciones hay n-estad́ısticos de orden. El

    i-ésimo estad́ıstico de orden x(i) es la observación que ocupa la i-ésima

    posición cuando las datos se ordenan de menor a mayor.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 10 / 30

  • Medidas de tendencia central

    • Mediana:

    Mediana =

    x( n+12 ) si n es imparx( n2 )+x( n2 +1)2

    si n es par

    • Cuartiles:

    Q2 = mediana {x1, x2, . . . , xn}

    Q1 = mediana {xi : xi ≤ Q2}

    Q3 = mediana {xi : xi ≥ Q2}

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 11 / 30

  • Medidas de tendencia central

    • La mediana divide la recta real en dos segmentos tales que en cada

    uno está el 50 % de las observaciones.

    • Los cuartiles Q1, Q2 y Q3, que dividen la recta real en cuatro segmentos

    tales que cada uno contiene el 25 % de las observaciones.

    • Q1 corresponde a la mediana de las observaciones menores al la me-

    diana de todas las observaciones.

    • Q3 corresponde a la mediana de las observaciones mayores a la mediana

    de todas las observaciones.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 12 / 30

  • Medidas de tendencia central

    • Cuantiles: Para cada α ∈ (0, 1), el cuantil α , denotado por qα, comoel número tal que 100α% de las observaciones son menores a qα.

    • Deciles: son los nueve cuantiles que dividen a la recta real en diez

    segmentos, cada uno con igual número de observaciones, es decir:

    q0.1, q0.2, q0.3, . . . , q0.9.

    • Porcentiles o percentiles: son los 99 cuantiles que dividen a la recta

    real en 100 segmentos, cada uno con igual número de observaciones,

    es decir:

    q0.01, q0.02, q0.03, . . . , q0.97, q0.98, q0.99.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 13 / 30

  • Cuantiles

    • Existen distintas formas de calcular los cuantiles muestrales, que se ba-

    san en distintos supuestos sobre la distribución poblacional subyacente

    que generó a las observaciones.

    • La forma o método que se usa para calcular los cuantiles es relevante

    si se tienen pocas observaciones o śı existen empates.

    • En R se utiliza la función quantile para calcular los cuantiles. En el

    argumento prob se introduce el valor de α.

    • Para tener una idea de la cantidad de algoritmos disponibles para cal-

    cular los cuantiles podemos introducir revisar la ayuda de la función

    quantile y revisar el apartado del argumento type.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 14 / 30

  • Medidas de dispersión

    • Varianza y desviación estándar:

    s2 =1

    n

    n∑i=1

    (xi − x̄)2 y s =

    √√√√1n

    n∑i=1

    (xi − x̄)2

    • Desviación absoluta media:

    Desv. Abs. =1

    n

    n∑i=1

    |xi − x̄ |

    • Rango, rango intercuartil y rango interdecil:

    R = x(n) − x(1), IQR = Q3 − Q1 e IDR = q0.9 − q0.1

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 15 / 30

  • Medidas de dispersión

    • La varianza es el promedio de las desviaciones cuadráticas de las obser-

    vaciones con respecto a al promedio de los datos. Se eleva al cuadrado

    para eliminar el efecto de los signos.

    • En algunos casos se prefiere utilizar s en lugar de s2, ya que s está

    expresada en las mismas unidades que las observaciones originales.

    • Hay un efecto negativo de elevar al cuadrado las desviaciones para

    calcular la varianza y es que las desviaciones pequeñas son reducidas y

    las desviaciones grandes son amplificadas.

    • Los distintos rangos ofrecen distintos grados de robustez ante la pre-

    sencia de observaciones extremas, inusualmente grandes o pequeñas.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 16 / 30

  • Medidas de forma

    • Coeficiente de simetŕıa:

    γ =1n

    ∑ni=1(xi − x̄)3

    s3

    La simetŕıa se refiere a la comparación de las frecuencias con las que

    se observan valores grandes y pequeños

    • Coeficiente de curtosis:

    κ =1n

    ∑ni=1(xi − x̄)4

    s4− 3

    La curtosis se refiere a la forma en qué tan concentrados están los

    datos alrededor de la media.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 17 / 30

  • Interpretación de γ

    • Si λ ≈ 0 la distribución es simétrica alrededor de su media.

    • Si λ > 0 la distribución tiene sesgo positivo. La mayoŕıa de las obser-

    vaciones son pequeñas (menores a x̄).

    • Si λ < 0 la distribución tiene sesgo negativo. La mayoŕıa de las obser-

    vaciones son grandes (mayores a x̄).

    x

    Fre

    cuen

    cia

    0 20 40 60 80 100

    010

    2030

    4050

    6070

    x

    Fre

    cuen

    cia

    0 1 2 3 4 5

    010

    2030

    4050

    60

    x

    Fre

    cuen

    cia

    0.4 0.5 0.6 0.7 0.8 0.9 1.0

    020

    4060

    8010

    012

    0

    γ = 0.17 γ = 1.44 γ = −0.79.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 18 / 30

  • Interpretación de κ

    • Si κ ≈ 0 la distribución es mesocúrtica. La concentración de los datosalrededor de la media es similar a la de la distribución normal.

    • Si κ > 0, la distribución es leptocúrtica. La concentración de los datos

    alrededor de la media es mayor a la de la distribución normal.

    • Si κ < 0, la distribución es platicúrtica. La concentración de los datos

    alrededor de la media es menor que en la distribución normal.

    x

    Fre

    cuen

    cia

    −3 −2 −1 0 1 2 3

    050

    100

    150

    200

    x

    Fre

    cuen

    cia

    −10 −5 0 5 10

    050

    100

    150

    200

    250

    300

    xF

    recu

    enci

    a

    −20 −10 0 10 20

    010

    2030

    4050

    60

    κ = 0.07 κ = 5.75 κ = −1.09.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 19 / 30

  • Medidas de asociación

    Suponer que se tienen observaciones de dos variables X y Y :

    (x1, y1), (x2, y2), . . . , (xn, yn).

    • Covarianza:

    sxy =1

    n

    n∑i=1

    (xi − x̄)(yi − ȳ)

    donde x̄ es el promedio de las X y ȳ es el promedio de las Y .

    • Correlación:

    rxy =sxysxsy

    donde sx es la desviación estándar de las X y sy es la desviación

    estándar de las Y .

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 20 / 30

  • Interpretación de sxy y rxy

    • sxy y rxy son medidas de asociación lineal, si la asociación entre X y

    Y es no lineal, estas medidas no son útiles.

    • rxy es una versión estandarizada de sxy , que toma valores en el intervalo(−1, 1), por lo que es más fácil de interpretar:

    • Si rxy ≈ 1, la relación lineal es directa.• Si rxy ≈ 0, no hay relación lineal.• Si rxy ≈ −1, la relación lineal es inversa.

    ● ●●●

    ●●

    ●● ●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ● ●

    ●●

    ●●

    ●●

    ●● ●●

    10 20 30 40 50 60 70 80

    020

    4060

    80

    X

    Y

    ● ●●

    ●●

    ●●

    ●●●

    ● ●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    10 20 30 40 50 60 70 80

    2040

    6080

    X

    Y

    ●●

    ●●

    ●●

    ●●

    ● ●

    ● ●

    ● ●

    ● ●

    ●●

    ● ●

    ●●

    ● ●●

    ●●

    ● ●

    ●●

    ●●

    ● ●

    ●●

    ●●

    10 20 30 40 50 60 70 80

    2040

    6080

    XY

    rxy = −0.51 rxy = 0.04 rxy = 0.80Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 21 / 30

  • Boxplots o gráficos de caja (y bigotes)

    Los boxplots permiten analizar fácilmente la distribución una serie de ob-

    servaciones, incluso comparar series diferentes, a partir de los cuartiles y el

    IQR.

    • Los lados de la caja representan Q1 y Q3, de manera que la base del

    rectángulo tiene una longitud igual al IQR.

    • El segmento al interior de la caja representa Q2 y su posición relativa

    se utiliza para estudiar la simetŕıa de la distribución de los datos.

    • Bigotes tienen como longitud máxima un múltiplo del IQR pero se

    ajustan para coincidir con una observación.

    • Llos puntos representan observaciones extremas, es decir, aquellas fuera

    del intervalo (Q1 − kIQR,Q3 + kIQR).

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 22 / 30

  • Ejemplo: boxplot

    En R se utiliza el comando boxplot para hacer gráficos de caja y bigotes.

    6 8 10 12 14

    k = 1.5

    ●●

    6 8 10 12 14

    k = 1

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 23 / 30

  • Histograma

    Los histogramas son útiles para analizar la forma de la distribución de una

    serie de datos e incluso compararla con un modelo teórico.

    • La altura de las barras representa la frecuencia con la que se observa

    un determinado valor o un intervalo de valores de x .

    • Usualmente se hacen histogramas de variables continuas, por lo que se

    agrupan las observaciones en intervalos igualmente espaciados.

    • El número de intervalos a usar se debe determinar de acuerdo al número

    de observaciones y a su distribución.

    • El objetivo es elegir un número de intervalos de manera que el histo-

    grama sea informativo.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 24 / 30

  • Ejemplos: histograma

    En R, se utiliza el comando hist para graficar histogramas. La opción

    breaks se utiliza para especificar el número de cortes, por lo que el número

    de barras es breaks + 1.

    0 20 40 60 80 100

    020

    4060

    8010

    012

    0

    X

    Fre

    cuen

    cia

    0 20 40 60 80 100

    010

    2030

    4050

    6070

    X

    Fre

    cuen

    cia

    0 20 40 60 80 100

    05

    1015

    2025

    30

    X

    Fre

    cuen

    cia

    b = 11 b = 21 b = 51

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 25 / 30

  • Gráfico de densidad estimada

    • Los gráficos de densidad estimada también se utilizan para estudiar la

    distribución una serie de observaciones. Se puede considerar a estos

    gráficos como histogramas suavizados.

    • Una de las formas de estimar densidades es usando funciones núcleo o

    kernel y hay toda una teoŕıa al respecto...

    • La densidad estimada es el resultado de sumar las contribuciones de

    cada observación, calculadas según el kernel seleccionado, que escalado

    por el número de observaciones y un parámetro de amplitud.

    • En R se utiliza las funciones density y plot para calcular y gráficar

    la densidad estimada, respectivamente. Por defecto se utiliza el kernel

    gaussiano.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 26 / 30

  • Kernel gaussiano

    0 1 2 3 4

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0 1 2 3 4

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0 1 2 3 4

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0 1 2 3 4

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0 1 2 3 4

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0 1 2 3 4

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    h = 0.4 h = 0.6 h = 0.8.

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 27 / 30

  • Kernel triangular

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    h = 0.4 h = 0.6 h = 0.8

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 28 / 30

  • Kernel rectangular

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 1 2 3 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    h = 0.4 h = 0.6 h = 0.8

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 29 / 30

  • Comparación

    −1 0 1 2 3 4 5

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    −1 0 1 2 3 4 5

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    −1 0 1 2 3 4 5

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    Gaussiano Triangular Rectangular

    Javier Santibáñez (IIMAS, UNAM) Estad́ıstica descriptiva Semestre 2019-1 30 / 30

    Tipos de variables y escalas de mediciónMedidas de tendencia centralMedidas de dispersiónMedidas de formaMedidas de asociaciónRepresentaciones gráficas